机器学习用于错误信息检测的系统综述数据集

数据集概述

本数据集为《SoK: Machine Learning for Misinformation Detection》的配套标注与复现材料,包含论文语料标注、论文筛选标准文档及三个复现分析子文件夹,覆盖文章、用户、来源三类错误信息检测场景的数据集与代码。

文件详解

  • 标注文件:
  • annotations_aec.tsv: TSV格式文件,包含248篇已发表论文的标注数据,字段包括论文ID、年份、作者、标题、发表场所、研究范围、检测目标、数据集构建、模型选择、特征选择、评估方法等
  • 文档文件:
  • paper_selection_criteria.txt: TXT格式文件,记录论文筛选标准,基于原论文第3、5、6页内容
  • 复现材料压缩包:
  • replications.zip: ZIP格式压缩包,含三个子文件夹
  • articles(对应原论文5.1节): 含路透社、纽约时报文本及标签,FA-KES、ISOT数据集,分类器代码new_RNN_CNN.py
  • users(对应原论文5.2节): 含 troll/非troll账户统计数据及标签,原研究分类器代码
  • sources(对应原论文5.3节): 含数据集分割文件、分类器代码及原作者使用的数据集

适用场景

  • 错误信息检测研究: 复现不同检测场景(文章、用户、来源)的机器学习模型效果
  • 论文计量分析: 基于标注数据研究错误信息检测领域的研究趋势
  • 模型鲁棒性测试: 利用articles文件夹中的新数据集测试分类器泛化能力
  • 学术复现实践: 作为机器学习论文复现的教学或研究案例
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.1 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。