WSDM假新闻分类竞赛数据集2019-wsdmcup
数据来源:互联网公开数据
标签:假新闻,分类,新闻标题,机器学习,数据竞赛,WSDM,字节跳动,准确性,评估指标
数据概述:
本数据集来自第十二届 ACM 国际 WSDM 大会假新闻分类竞赛任务,由字节跳动(ByteDance)赞助。竞赛旨在通过给定假新闻文章A和待分类新闻文章B的标题,对B进行分类,属于以下三类之一:agreed(B讨论与A相同的假新闻)、disagreed(B反驳A中的假新闻)、unrelated(B与A无关)。数据集包含了320,767对训练数据和80,126对测试数据,涵盖中英文两种语言。测试数据分为公开和私有两部分,分别用于计算公开准确率和最终竞赛成绩。
数据用途概述:
该数据集适用于假新闻检测、分类算法开发、自然语言处理研究等场景。研究者和开发者可以利用本数据集训练和评估假新闻分类模型,提高平台内容的真实性与可靠性。此外,数据集也为相关领域的学术研究提供了宝贵的资源。
数据字段:
- id:每对新闻的唯一标识符。
- tid1:假新闻标题1的唯一标识符。
- tid2:待分类新闻标题2的唯一标识符。
- title1_zh:假新闻标题1的中文版本。
- title2_zh:待分类新闻标题2的中文版本。
- title1_en:假新闻标题1的英文版本(由中文版本机器翻译而来)。
- title2_en:待分类新闻标题2的英文版本(由中文版本机器翻译而来)。
- label:新闻对的关系标签,包括agreed、disagreed、unrelated。
评估指标:
使用加权分类准确率(Weighted Categorization Accuracy)来评估模型性能。具体公式为:
[ \text{WeightedAccuracy}(y, \hat{y}, \omega) = \frac{1}{n} \sum_{i=1}^{n} \frac{\omega_i(y_i=\hat{y}_i)}{\sum \omega_i} ]
其中,y是真实标签,(\hat{y})是预测标签,(\omega_i)是第i个样本的权重。在测试集中,对每组测试样本分配权重,agreed、disagreed、unrelated三类的权重分别为(\frac{1}{15})、(\frac{1}{5})、(\frac{1}{16})。这些权重设置旨在平衡数据分布,减少多数类(unrelated)对模型性能的影响。