全球新冠疫情事实核查新闻数据集-多语言多国家-2020年7月-thedevastator
数据来源:互联网公开数据
标签:新冠疫情,事实核查,新闻,多语言,国际,虚假信息,内容分析,文本数据
数据概述:
本数据集是一个关于新冠疫情(COVID-19)的、经过事实核查的新闻文章的大型集合,涵盖了全球105个国家和地区的40种语言。数据来源于92个事实核查网站,包含了7623篇新闻文章。数据集提供了关于文章来源、核查机构、文章类别(真、假、混合)、发布日期、文章内容、语言等关键信息,为研究全球范围内新冠疫情相关新闻的真实性和传播情况提供了全面的数据基础。
数据用途概述:
该数据集可用于多种研究,包括:
1. 虚假信息检测:开发自动化算法,利用数据集中的事实核查标签和其他结果,进行机器学习和自然语言处理,以检测与新冠疫情相关的虚假新闻。
2. 情感分析:训练情感分析模型,根据文章的情感进行分类,从而深入研究特定新闻主题或国家/地区因其内容或作者偏见而产生特定结果、动机或行为的原因。
3. 跨文化比较:使用无监督聚类技术,识别不同国家/地区(语言和地区)之间新闻传播的差异,以便公共宣传人员可以专注于提供事实信息,而不是传播关于疫情的虚假谣言或错误信息。
4. 新闻内容分析:研究新冠疫情相关新闻的传播规律、信息来源、传播范围、以及不同语言和文化背景下的信息差异。
5. 教育培训:用于新闻学、传播学、数据科学等领域的教学案例,帮助学生理解新闻的真实性核查流程和虚假信息传播的特点。