多语言错误信息推文数据集

数据集概述

该数据集包含多语言错误信息推文(MMTweet)相关的标注指南、结构化数据文件、代码脚本等资源,覆盖推文分类、声明匹配等任务,支持多语言错误信息检测与分析研究。

文件详解

  • 标注指南文件:
  • Data Annotation – Tweet Classification.pdf:PDF格式,推文分类任务的标注规范文档
  • Data Annotation – Claim Matching.pdf:PDF格式,声明匹配任务的标注规范文档
  • 核心数据文件:
  • MMTweets_full_dataset.csv:CSV格式,多语言错误信息推文完整数据集
  • MMTweets_test.csv:CSV格式,多语言错误信息推文测试子集
  • MMTweets_train.csv:CSV格式,多语言错误信息推文训练子集
  • debunk_corpus.json:JSON格式,已辟谣叙事语料库
  • 代码工具文件:
  • get_tweet_text.py:Python脚本,用于从推文ID提取推文文本
  • load_dataset.ipynb:Python笔记本,数据集加载示例代码
  • 说明文档:
  • README.md:Markdown格式,数据集说明文档

适用场景

  • 多语言错误信息检测研究:基于标注数据训练分类模型
  • 声明匹配算法开发:验证声明与辟谣内容的关联匹配方法
  • 社交媒体内容分析:探索不同语言错误信息传播特征
  • 自然语言处理应用:构建多语言文本分类、信息检索任务基准
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 5.3 MiB
最后更新 2025年12月7日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。