多语言错误信息推文数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

多语言错误信息推文数据集

数据集概述

该数据集包含多语言错误信息推文（MMTweet）相关的标注指南、结构化数据文件、代码脚本等资源，覆盖推文分类、声明匹配等任务，支持多语言错误信息检测与分析研究。

文件详解

标注指南文件：
Data Annotation – Tweet Classification.pdf：PDF格式，推文分类任务的标注规范文档
Data Annotation – Claim Matching.pdf：PDF格式，声明匹配任务的标注规范文档
核心数据文件：
MMTweets_full_dataset.csv：CSV格式，多语言错误信息推文完整数据集
MMTweets_test.csv：CSV格式，多语言错误信息推文测试子集
MMTweets_train.csv：CSV格式，多语言错误信息推文训练子集
debunk_corpus.json：JSON格式，已辟谣叙事语料库
代码工具文件：
get_tweet_text.py：Python脚本，用于从推文ID提取推文文本
load_dataset.ipynb：Python笔记本，数据集加载示例代码
说明文档：
README.md：Markdown格式，数据集说明文档

适用场景

多语言错误信息检测研究：基于标注数据训练分类模型
声明匹配算法开发：验证声明与辟谣内容的关联匹配方法
社交媒体内容分析：探索不同语言错误信息传播特征
自然语言处理应用：构建多语言文本分类、信息检索任务基准

数据与资源

10637161.zipZIP
5.30 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	5.3 MiB
最后更新	2025年12月7日
创建于	2025年12月7日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？