数据集

新冠疫情社交媒体言论真伪判别数据集COVID-19SocialMediaClaimVerificationDataset-ananmaygupta

数据来源：互联网公开数据

标签：新冠疫情, 社交媒体, 文本分类, 谣言检测, 真伪辨别, 机器学习, 数据标注, 自然语言处理

数据概述：该数据集包含来自社交媒体平台关于新冠疫情相关的推文，记录了推文内容及其真伪标注。主要特征如下：时间跨度：数据未标明具体时间，推测为新冠疫情期间的推文数据。地理范围：数据来源不明确，推文内容涉及全球范围。数据维度：包括“ID”（推文唯一标识）、“tweet_text”（推文文本）和“claim”（真伪标签，0代表真实，1代表虚假）三个字段。数据格式：CSV格式，包含多个文件，如valcsv、testcsv、traincsv等，便于文本分析和模型训练。数据经过了增强处理，包含原始数据和经过数据增强后的数据。来源信息：数据可能来源于社交媒体抓取，并经过人工标注或辅助工具进行真伪判断。该数据集适合用于新冠疫情相关话题的谣言检测、文本分类和情感分析等研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于社交媒体文本分析、谣言检测、信息传播规律研究等学术研究。行业应用：为社交媒体平台、新闻媒体、事实核查机构提供数据支持，用于自动化内容审核、谣言过滤。决策支持：支持公共卫生部门、政府机构的信息监测与风险预警，帮助应对疫情相关的虚假信息传播。教育和培训：作为自然语言处理、机器学习、信息检索等课程的实训数据，帮助学生和研究人员理解文本分类、谣言检测等技术。此数据集特别适合用于探索社交媒体上虚假信息的传播机制，以及开发有效的自动检测和干预方法，从而提高信息真实性和公众健康意识。

数据与资源

versions_20250316104320.zipZIP
2.41 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	2.41 MiB
最后更新	2025年5月1日
创建于	2025年5月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。