数据集概述
该数据集为SocialDisNER语料库,包含人工标注的西班牙语推文疾病提及金标准数据(训练集5000条、验证集2500条)及自动标注的大规模银标准数据(85000余条推文),覆盖疾病、药物等多类实体,用于研究社交媒体健康内容中的疾病提及识别。
文件详解
- 主数据压缩包: SocialDisNER_Data.zip
- 包含training-validation-data和test-data文件夹
- training-validation-data文件夹:
- train-valid-txt-files: 按train/valid子目录存储单条推文文本文件(文件名对应推文ID),含ids_dev_set.txt(验证集ID列表)、ids_train_set.txt(训练集ID列表)
- mentions.tsv: 人工标注疾病提及文件,字段包括tweets_id(推文ID)、Begin(标注起始位置)、End(标注结束位置)、Type(实体类型“ENFERMEDAD”)、Extraction(标注文本片段)
- test-data文件夹:
- test-data-txt-files: 存储23430条测试推文文本文件(文件名对应推文ID)
- 大规模数据压缩包: SocialDisNER_LargeScale_additionaldata.zip
- socialdisner_diseases文件夹:
- tweets_txt: 大规模推文文本文件(文件名对应推文ID)
- diseases_mentions.tsv: 自动标注疾病提及文件(结构同金标准)
- socialdisner_ENTITY文件夹(ENTITY含drugs/symptoms等):
- tweets_txt: 对应实体类别的推文文本文件
- ENTITY_mentions.tsv: 自动标注对应实体提及文件(结构同金标准)
- socialdisner_networks文件夹:
- socialdisner_disease-ENTITY_net.tsv: 疾病与其他实体的共现矩阵文件
- socialdiser_disease_net.tsv: 疾病共现矩阵文件
数据来源
Zenodo仓库(需引用对应学术论文)
适用场景
- 自然语言处理研究: 用于训练和评估西班牙语社交媒体文本中的疾病提及识别模型
- 社交媒体健康分析: 分析西班牙语用户及机构发布的健康相关推文内容特征
- 医疗实体识别研究: 探索多类医疗实体(疾病、药物、症状等)在社交媒体中的提及规律
- 共现网络分析: 研究疾病与其他医疗实体在推文内容中的关联模式