SocialDisNER西班牙语推文疾病提及标注数据集

该数据集为SocialDisNER语料库，包含人工标注的西班牙语推文疾病提及金标准数据（训练集5000条、验证集2500条）及自动标注的大规模银标准数据（85000余条推文），覆盖疾病、药物等多类实体，用于研究社交媒体健康内容中的疾病提及识别。

主数据压缩包: SocialDisNER_Data.zip
包含training-validation-data和test-data文件夹
training-validation-data文件夹:
train-valid-txt-files: 按train/valid子目录存储单条推文文本文件（文件名对应推文ID），含ids_dev_set.txt（验证集ID列表）、ids_train_set.txt（训练集ID列表）
mentions.tsv: 人工标注疾病提及文件，字段包括tweets_id（推文ID）、Begin（标注起始位置）、End（标注结束位置）、Type（实体类型“ENFERMEDAD”）、Extraction（标注文本片段）
test-data文件夹:
test-data-txt-files: 存储23430条测试推文文本文件（文件名对应推文ID）
大规模数据压缩包: SocialDisNER_LargeScale_additionaldata.zip
socialdisner_diseases文件夹:
tweets_txt: 大规模推文文本文件（文件名对应推文ID）
diseases_mentions.tsv: 自动标注疾病提及文件（结构同金标准）
socialdisner_ENTITY文件夹（ENTITY含drugs/symptoms等）:
tweets_txt: 对应实体类别的推文文本文件
ENTITY_mentions.tsv: 自动标注对应实体提及文件（结构同金标准）
socialdisner_networks文件夹:
socialdisner_disease-ENTITY_net.tsv: 疾病与其他实体的共现矩阵文件
socialdiser_disease_net.tsv: 疾病共现矩阵文件

Zenodo仓库（需引用对应学术论文）

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	93.23 MiB
最后更新	2025年12月12日
创建于	2025年12月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。