数据集

WSDM假新闻分类竞赛数据集2019-wsdmcup

WSDM假新闻分类竞赛数据集2019-wsdmcup 数据来源：互联网公开数据标签：假新闻,分类,新闻标题,机器学习,数据竞赛,WSDM,字节跳动,准确性,评估指标

数据概述：本数据集来自第十二届 ACM 国际 WSDM 大会假新闻分类竞赛任务，由字节跳动（ByteDance）赞助。竞赛旨在通过给定假新闻文章A和待分类新闻文章B的标题，对B进行分类，属于以下三类之一：agreed（B讨论与A相同的假新闻）、disagreed（B反驳A中的假新闻）、unrelated（B与A无关）。数据集包含了320,767对训练数据和80,126对测试数据，涵盖中英文两种语言。测试数据分为公开和私有两部分，分别用于计算公开准确率和最终竞赛成绩。

数据用途概述：该数据集适用于假新闻检测、分类算法开发、自然语言处理研究等场景。研究者和开发者可以利用本数据集训练和评估假新闻分类模型，提高平台内容的真实性与可靠性。此外，数据集也为相关领域的学术研究提供了宝贵的资源。

数据字段： - id：每对新闻的唯一标识符。 - tid1：假新闻标题1的唯一标识符。 - tid2：待分类新闻标题2的唯一标识符。 - title1_zh：假新闻标题1的中文版本。 - title2_zh：待分类新闻标题2的中文版本。 - title1_en：假新闻标题1的英文版本（由中文版本机器翻译而来）。 - title2_en：待分类新闻标题2的英文版本（由中文版本机器翻译而来）。 - label：新闻对的关系标签，包括agreed、disagreed、unrelated。

评估指标：使用加权分类准确率（Weighted Categorization Accuracy）来评估模型性能。具体公式为： [ \text{WeightedAccuracy}(y, \hat{y}, \omega) = \frac{1}{n} \sum_{i=1}^{n} \frac{\omega_i(y_i=\hat{y}_i)}{\sum \omega_i} ] 其中，y是真实标签，(\hat{y})是预测标签，(\omega_i)是第i个样本的权重。在测试集中，对每组测试样本分配权重，agreed、disagreed、unrelated三类的权重分别为(\frac{1}{15})、(\frac{1}{5})、(\frac{1}{16})。这些权重设置旨在平衡数据分布，减少多数类（unrelated）对模型性能的影响。

数据与资源

versions_20250401082820.zipZIP
34.48 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	34.48 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

WSDM假新闻分类竞赛数据集2019-wsdmcup

数据与资源

附加信息

注册成功！