-
CPLP_tuites_Based_葡萄牙语多中心推特语料库数据_2022
2026年1月21日 30 5 2
数据集概述 本数据集为CPLP:tuítes葡萄牙语多中心推特语料库,包含来自安哥拉、巴西、佛得角等七个葡语国家53个新闻机构账号的125,827条推特,共2,633,507个词元。涵盖原始推文、元数据及标注文件三类资源,是研究葡萄牙语多中心变体的结构化语料资源。 文件详解 原始推文文件 文件名称:tweets_untagged.zip...
-
黑人命也是命_BLM_推特语料库2010_2022
2025年12月18日 30 185 11
数据集概述 该数据集是围绕黑人命也是命(BLM)运动的大规模推特语料库,覆盖2010-2022年期间的相关推文,总量超五千万条。同时包含“所有生命都重要”和“蓝命也重要”的平行语料库,为研究社会运动相关的社交媒体讨论提供全面数据支持。 文件详解 Twitter blue_lives_matter...
-
时间感知命名实体识别推特语料库
2025年12月10日 30 145 25
数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...



