ISOT虚假新闻检测数据集-2016至2017年-rahulogoel

ISOT虚假新闻检测数据集-2016至2017年-rahulogoel 数据来源:互联网公开数据 标签:虚假新闻,真实新闻,文本分类,新闻分析,机器学习,政治新闻,世界新闻,数据清洗

数据概述: 本数据集由加拿大维多利亚大学提供,包含约45,000篇新闻文章,其中包括真实新闻和虚假新闻。数据集分两部分:“True.csv”包含超过12,600篇来自Reuters.com的真实新闻文章,“Fake.csv”包含超过12,600篇来自多个虚假新闻来源的虚假新闻文章。真实新闻文章通过爬虫技术从Reuters.com获取,虚假新闻文章则来自Politifact和Wikipedia等标记为不可靠的网站。

数据集涵盖了不同类型和主题的新闻,但主要集中在政治和世界新闻。数据集中的每篇新闻文章包含以下信息:标题、正文、类型和发布日期。数据集中的虚假新闻文章保留了原文的标点符号和错误,以便更接近真实情况。

数据用途概述: 该数据集适用于虚假新闻检测、意见 spam 检测、文本分类和新闻分析等多种研究场景。研究人员可以使用此数据集训练和测试机器学习模型,以提高虚假新闻的识别能力。教育机构可以利用该数据集进行机器学习和文本分析的教学与研究。此外,该数据集还适合用于政策制定和新闻伦理研究,帮助识别和预防虚假信息的传播。

新闻分类及数量详情如下: - 真实新闻:21,417篇 - 世界新闻:10,145篇 - 政治新闻:11,272篇 - 虚假新闻:23,481篇 - 政府新闻:1,570篇 - 中东新闻:778篇 - 美国新闻:783篇 - 左派新闻:4,459篇 - 政治新闻:6,841篇 - 新闻:9,050篇

引用信息: Ahmed H, Traore I, Saad S. “Detecting opinion spams and fake news using text classification”, Journal of Security and Privacy, Volume 1, Issue 1, Wiley, January/February 2018. Ahmed H, Traore I, Saad S. (2017) “Detection of Online Fake News Using N-Gram Analysis and Machine Learning Techniques. In: Traore I., Woungang I., Awad A. (eds) Intelligent, Secure, and Dependable Systems in Distributed and Cloud Environments. ISDDC 2017. Lecture Notes in Computer Science, vol 10618. Springer, Cham (pp. 127-138)

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 40.45 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。