数据2020年灾难推文语料库

数据集概述

该数据集包含2020年收集的、覆盖10类灾难共48起事件的推文数据,每条推文标注了是否与对应灾难相关。数据以平衡正负样本的文件形式组织,旨在为灾难相关推文过滤算法提供基准测试支持。

文件详解

  • 文件名称:disaster-tweet-filtering-tranquil-tweets.zip
  • 文件格式:ZIP压缩包
  • 内容说明:推测包含非灾难相关的推文数据,具体字段需解压后查看
  • 文件名称:disaster-tweet-filtering-incident-tweets.zip
  • 文件格式:ZIP压缩包
  • 内容说明:推测包含灾难相关的推文数据,每条记录可能包含{"id": "推文ID", "text": "推文内容", "relevance": 1/0}格式的JSON对象

适用场景

  • 社交媒体灾难信息过滤算法的训练与评估
  • 灾难事件中社交媒体信息相关性检测研究
  • 应急响应中社交媒体数据分类模型的性能对比
  • 灾难相关推文自动识别技术的基准测试
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 193.16 MiB
最后更新 2025年12月17日
创建于 2025年12月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。