数据集概述
该数据集为手工整理的YouTube评论集合(约4.3万条),聚焦6起著名争议性体育事件(如腋下击球事件、曼卡德事件等),覆盖约40年历史。通过LLM模型(Llama、Deepseek)进行立场标注(支持、反对、中立),并经微调提升精度,用于公众立场检测研究。
文件详解
- 标签文件:
- Frank Lampard Ghost Goal Labels.xlsx: Excel格式,包含兰帕德幽灵进球事件评论的立场标签数据
- Ashwin Mankading Labels.csv: CSV格式,包含阿什温曼卡德事件评论的立场标签数据
- The Underarm Incident Labels.xlsx: Excel格式,包含腋下击球事件评论的立场标签数据
- Luis Suarez Handball Labels.xlsx: Excel格式,包含苏亚雷斯手球事件评论的立场标签数据
- Maradon Hand of God Labels.xlsx: Excel格式,包含马拉多纳上帝之手事件评论的立场标签数据
- Johhny Bairstow Ashes Runout Labels.csv: CSV格式,包含贝尔斯托出局事件评论的立场标签数据
- 代码文件:
- frank-lampard-reasoning-unslo.ipynb: Jupyter Notebook文件,兰帕德事件推理分析代码
- luis-saraez-fine-tune-unsloth.ipynb: Jupyter Notebook文件,苏亚雷斯事件模型微调代码
- Fine Tuning using Unlsoth script.ipynb: Jupyter Notebook文件,模型微调脚本
- generate_model_answers.py: Python脚本,用于生成模型回答
- 文档文件:
- README.md: Markdown格式,项目概述文档
- Events Details.pdf: PDF格式,争议事件详情说明
- Annotation Pipeline and Fine Tuning Details.pdf: PDF格式,标注流程与模型微调详情
- Tables.pdf: PDF格式,研究相关表格数据
- 其他文件:
- prompts.json: JSON格式,模型提示词文件
- praise_and_criticism.jpg: JPG格式,赞扬与批评相关图片
适用场景
- 体育舆情研究: 分析公众对争议性体育事件的立场倾向与情感表达
- 自然语言处理: 用于立场检测模型训练与性能评估
- 体育社会学: 探究体育争议事件引发的公众参与及社会讨论特征
- 社交媒体分析: 研究YouTube平台上体育相关内容的用户互动模式
- 大语言模型应用: 验证LLM在体育领域文本标注任务中的效果与优化路径