MESINESP2西班牙语生物医学语义索引标注语料库

数据集概述

该数据集为MESINESP2任务生成的人工标注语料库,包含科学文献、临床试验、专利摘要三类西班牙语生物医学文档,由领域专家使用DeCS受控词汇标注,旨在推动非英语生物医学内容语义索引工具的开发。

文件详解

  • 子任务语料压缩包:
  • Subtrack1-Scientific_Literature.zip:科学文献语料,含训练集(articles/full两种)、开发集、测试集JSON文件
  • Subtrack2-Clinical_Trials.zip:临床试验语料,含训练集、开发集、测试集JSON文件
  • Subtrack3-Patents.zip:专利语料,含开发集、测试集JSON文件
  • 银标准文件:
  • Silver_Standard_Mesinesp2.zip:含参与者预测结果的联合与单独匿名文件,覆盖多类型文档
  • 术语文件:
  • DeCS2020.tsv:DeCS术语表,含编码、首选描述符、同义词(管道分隔)
  • DeCS2020.obo:DeCS层级关系OBO文件,含额外COVID-19描述符
  • 补充数据:
  • Additional data.zip:含各子集的实体标注JSON文件,提取药物、疾病等实体

适用场景

  • 生物医学语义索引模型开发:训练西班牙语生物医学文档自动标注DeCS术语的工具
  • 受控词汇应用研究:探索DeCS在多类型生物医学文本(文献/临床试验/专利)中的标注效果
  • 跨语言医学信息检索:构建西班牙语生物医学资源的语义检索系统
  • 自然语言处理任务:用于西班牙语生物医学实体识别、文本分类等NLP任务的训练与评估
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 320.19 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。