社交媒体平台虚假新闻检测数据集

社交媒体平台虚假新闻检测数据集

数据来源:互联网公开数据

标签:虚假新闻,假新闻,新闻检测,社交媒体,Politifact,Gossipcop,文本分析,自然语言处理

数据概述: 本数据集包含从Politifact和Gossipcop收集的虚假新闻样本。由于Twitter的隐私政策和新闻出版商的版权限制,无法分发完整数据集。本数据集的精简版包含以下文件:

  1. politifact_fake.csv - 从PolitiFact收集的虚假新闻样本
  2. politifact_real.csv - 从PolitiFact收集的真实新闻样本
  3. gossipcop_fake.csv - 从GossipCop收集的虚假新闻样本
  4. gossipcop_real.csv - 从GossipCop收集的真实新闻样本

每个CSV文件均为逗号分隔文件,包含以下列:

  • id - 每条新闻的唯一标识符
  • url - 发布该新闻的网页文章的URL
  • title - 新闻文章的标题
  • tweet_ids - 分享该新闻的推文的推文ID。该字段是制表符分隔的推文ID列表。

数据用途概述: 该数据集可用于虚假新闻检测、文本分类、自然语言处理等多种研究和应用场景。 研究人员可以使用此数据训练和评估虚假新闻检测模型; 开发者可以利用此数据构建虚假新闻识别工具; 还可以用于教育和研究,帮助理解虚假新闻的传播模式和特征。

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 25, 2025, 19:29 (UTC)
创建于 四月 25, 2025, 19:28 (UTC)