数据集

ISOT虚假新闻检测数据集-2016至2017年-rahulogoel

ISOT虚假新闻检测数据集-2016至2017年-rahulogoel 数据来源：互联网公开数据标签：虚假新闻,真实新闻,文本分类,新闻分析,机器学习,政治新闻,世界新闻,数据清洗

数据概述：本数据集由加拿大维多利亚大学提供，包含约45,000篇新闻文章，其中包括真实新闻和虚假新闻。数据集分两部分：“True.csv”包含超过12,600篇来自Reuters.com的真实新闻文章，“Fake.csv”包含超过12,600篇来自多个虚假新闻来源的虚假新闻文章。真实新闻文章通过爬虫技术从Reuters.com获取，虚假新闻文章则来自Politifact和Wikipedia等标记为不可靠的网站。

数据集涵盖了不同类型和主题的新闻，但主要集中在政治和世界新闻。数据集中的每篇新闻文章包含以下信息：标题、正文、类型和发布日期。数据集中的虚假新闻文章保留了原文的标点符号和错误，以便更接近真实情况。

数据用途概述：该数据集适用于虚假新闻检测、意见 spam 检测、文本分类和新闻分析等多种研究场景。研究人员可以使用此数据集训练和测试机器学习模型，以提高虚假新闻的识别能力。教育机构可以利用该数据集进行机器学习和文本分析的教学与研究。此外，该数据集还适合用于政策制定和新闻伦理研究，帮助识别和预防虚假信息的传播。

新闻分类及数量详情如下： - 真实新闻：21,417篇 - 世界新闻：10,145篇 - 政治新闻：11,272篇 - 虚假新闻：23,481篇 - 政府新闻：1,570篇 - 中东新闻：778篇 - 美国新闻：783篇 - 左派新闻：4,459篇 - 政治新闻：6,841篇 - 新闻：9,050篇

引用信息： Ahmed H, Traore I, Saad S. “Detecting opinion spams and fake news using text classification”, Journal of Security and Privacy, Volume 1, Issue 1, Wiley, January/February 2018. Ahmed H, Traore I, Saad S. (2017) “Detection of Online Fake News Using N-Gram Analysis and Machine Learning Techniques. In: Traore I., Woungang I., Awad A. (eds) Intelligent, Secure, and Dependable Systems in Distributed and Cloud Environments. ISDDC 2017. Lecture Notes in Computer Science, vol 10618. Springer, Cham (pp. 127-138)

数据与资源

versions_20250411074147.zipZIP
40.45 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	40.45 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。