新冠疫情社交媒体谣言识别数据集COVID-19SocialMediaRumorIdentificationDataset-achrafoukou
数据来源:互联网公开数据
标签:新冠疫情, 社交媒体, 谣言识别, 文本分类, 舆情分析, 真实性判断, 自然语言处理, 机器学习
数据概述:
该数据集包含来自Facebook等社交媒体平台关于新冠疫情的帖子信息,记录了帖子的文本内容、发布时间、互动数据以及真实性标签。主要特征如下:
时间跨度:数据记录时间主要集中在2021年3月至4月,反映了新冠疫情发展期间的社交媒体信息传播情况。
地理范围:数据主要来源于摩洛哥(Morocco)的社交媒体,可能包含其他国家或地区的疫情相关信息。
数据维度:数据集包括“post url”(帖子链接)、“post page”(帖子发布页面)、“post text”(帖子文本内容)、“post date”(帖子发布时间)、“post image”(帖子配图)、“likes”(点赞数)、“shares number”(分享数)、“comments”(评论数)和“type”(真实性标签)等字段。
数据格式:CSV格式,文件名为rumours_dataset.csv,其中包含了结构化的文本数据和相关的社交媒体互动数据。此外,还包含与帖子关联的.png格式的图片,用于补充视觉信息。数据已进行初步的结构化处理,方便进一步分析。
该数据集适合用于社交媒体谣言检测、舆情分析、文本分类等研究,也可用于训练和评估机器学习模型。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于疫情期间社交媒体信息传播规律、谣言传播机制、文本情感分析等方面的研究。
行业应用:为公共卫生部门、媒体机构、社交媒体平台提供数据支持,用于监测和管理疫情相关的虚假信息,提升信息传播的准确性和可靠性。
决策支持:支持政府部门和相关机构进行疫情相关的政策制定和公众沟通,帮助其更好地了解公众关注点和信息需求。
教育和培训:作为自然语言处理、机器学习、信息检索等课程的实训数据,帮助学生和研究人员掌握相关技术和方法。
此数据集特别适合用于探索社交媒体谣言的传播特征,构建自动化的谣言检测模型,并评估其在实际应用中的效果,为提升公众的信息素养和维护网络信息环境提供支持。