社交媒体虚假声明检测与分类声明数据集
数据来源:互联网公开数据
标签:虚假声明检测,社交媒体,文本分类,深度学习,信息真实性,声明分析,自然语言处理
数据概述:
本数据集旨在解决社交媒体平台上虚假信息和假新闻的传播问题,通过收集和整理声明文本及其相关元数据,构建了一个用于检测虚假声明的结构化数据集。数据集包含以下字段:
- ID:唯一标识符
- LABEL:声明的真实性标签
- STATEMENT:声明文本
- SUBJECT:声明主题
- SPEAKER:声明人
- SPEAKER JOB:声明人的职位或职业
- STATE INFO:声明的相关背景信息
- PARTY AFFILIATION:声明人的党派或组织归属
- BARELY TRUE COUNTS:"基本真实"计数
- FALSE COUNTS:"虚假"计数
- HALF TRUE COUNTS:"半真实"计数
- MOSTLY TRUE COUNTS:" mostly 真实"计数
- PANTS ON FIRE COUNTS:"完全虚假"计数
- CONTEXT:声明上下文
数据集分为训练集(10232行,33列)、验证集(1280行,33列)和测试集(1264行,32列),为研究人员提供了完整的数据规模支持。
数据用途概述:
该数据集适用于以下场景:
1. 开发和评估基于深度学习的虚假声明检测模型
2. 研究社交媒体上的信息传播规律和虚假信息生成机制
3. 支持文本分类任务,特别是在声明真实性和信息质量评估方面
4. 探索声明文本与背景信息之间的关联性
5. 优化社交媒体平台的内容审核和信息真实性检测机制
6. 为学术研究提供数据支持,如自然语言处理、信息真实性评估和虚假信息传播研究等
数据集的开放共享为研究人员、开发者和相关机构提供了一个标准化的基准,有助于推动社交媒体虚假信息检测技术的发展和应用。