ISOT虚假新闻检测数据集-2016至2017年-rahulogoel
数据来源:互联网公开数据
标签:虚假新闻,真实新闻,文本分类,新闻分析,机器学习,政治新闻,世界新闻,数据清洗
数据概述:
本数据集由加拿大维多利亚大学提供,包含约45,000篇新闻文章,其中包括真实新闻和虚假新闻。数据集分两部分:“True.csv”包含超过12,600篇来自Reuters.com的真实新闻文章,“Fake.csv”包含超过12,600篇来自多个虚假新闻来源的虚假新闻文章。真实新闻文章通过爬虫技术从Reuters.com获取,虚假新闻文章则来自Politifact和Wikipedia等标记为不可靠的网站。
数据集涵盖了不同类型和主题的新闻,但主要集中在政治和世界新闻。数据集中的每篇新闻文章包含以下信息:标题、正文、类型和发布日期。数据集中的虚假新闻文章保留了原文的标点符号和错误,以便更接近真实情况。
数据用途概述:
该数据集适用于虚假新闻检测、意见 spam 检测、文本分类和新闻分析等多种研究场景。研究人员可以使用此数据集训练和测试机器学习模型,以提高虚假新闻的识别能力。教育机构可以利用该数据集进行机器学习和文本分析的教学与研究。此外,该数据集还适合用于政策制定和新闻伦理研究,帮助识别和预防虚假信息的传播。
新闻分类及数量详情如下:
- 真实新闻:21,417篇
- 世界新闻:10,145篇
- 政治新闻:11,272篇
- 虚假新闻:23,481篇
- 政府新闻:1,570篇
- 中东新闻:778篇
- 美国新闻:783篇
- 左派新闻:4,459篇
- 政治新闻:6,841篇
- 新闻:9,050篇
引用信息:
Ahmed H, Traore I, Saad S. “Detecting opinion spams and fake news using text classification”, Journal of Security and Privacy, Volume 1, Issue 1, Wiley, January/February 2018.
Ahmed H, Traore I, Saad S. (2017) “Detection of Online Fake News Using N-Gram Analysis and Machine Learning Techniques. In: Traore I., Woungang I., Awad A. (eds) Intelligent, Secure, and Dependable Systems in Distributed and Cloud Environments. ISDDC 2017. Lecture Notes in Computer Science, vol 10618. Springer, Cham (pp. 127-138)