SocialDisNER西班牙语推文疾病提及标注数据集

数据集概述

该数据集为SocialDisNER语料库,包含人工标注的西班牙语推文疾病提及金标准数据(训练集5000条、验证集2500条)及自动标注的大规模银标准数据(85000余条推文),覆盖疾病、药物等多类实体,用于研究社交媒体健康内容中的疾病提及识别。

文件详解

  • 主数据压缩包: SocialDisNER_Data.zip
  • 包含training-validation-data和test-data文件夹
  • training-validation-data文件夹:
  • train-valid-txt-files: 按train/valid子目录存储单条推文文本文件(文件名对应推文ID),含ids_dev_set.txt(验证集ID列表)、ids_train_set.txt(训练集ID列表)
  • mentions.tsv: 人工标注疾病提及文件,字段包括tweets_id(推文ID)、Begin(标注起始位置)、End(标注结束位置)、Type(实体类型“ENFERMEDAD”)、Extraction(标注文本片段)
  • test-data文件夹:
  • test-data-txt-files: 存储23430条测试推文文本文件(文件名对应推文ID)
  • 大规模数据压缩包: SocialDisNER_LargeScale_additionaldata.zip
  • socialdisner_diseases文件夹:
  • tweets_txt: 大规模推文文本文件(文件名对应推文ID)
  • diseases_mentions.tsv: 自动标注疾病提及文件(结构同金标准)
  • socialdisner_ENTITY文件夹(ENTITY含drugs/symptoms等):
  • tweets_txt: 对应实体类别的推文文本文件
  • ENTITY_mentions.tsv: 自动标注对应实体提及文件(结构同金标准)
  • socialdisner_networks文件夹:
  • socialdisner_disease-ENTITY_net.tsv: 疾病与其他实体的共现矩阵文件
  • socialdiser_disease_net.tsv: 疾病共现矩阵文件

数据来源

Zenodo仓库(需引用对应学术论文)

适用场景

  • 自然语言处理研究: 用于训练和评估西班牙语社交媒体文本中的疾病提及识别模型
  • 社交媒体健康分析: 分析西班牙语用户及机构发布的健康相关推文内容特征
  • 医疗实体识别研究: 探索多类医疗实体(疾病、药物、症状等)在社交媒体中的提及规律
  • 共现网络分析: 研究疾病与其他医疗实体在推文内容中的关联模式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 93.23 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。