数据集概述
本数据集包含对西班牙临床案例语料库(SPACCC)中18份西班牙语临床报告进行生物医学实体与语义关系标注的文件及资源。标注涵盖11类实体和8类语义关系,最终识别出324个实体(涉及10类实体)和170条关系(涉及5类关系),为生物医学文本处理研究提供结构化标注资源。
文件详解
- brat_annotations目录
- 内容:含3个子文件夹(对应3位标注者),每个子文件夹包含18份brat格式的标注文件
- 格式:brat标注格式文件
- Clinical_Reports_SPACCC目录
- 内容:SPACCC原始西班牙语临床报告,共18个.txt文件
- 格式:TXT
- Pub_Annotations目录
- 内容:含3个子文件夹(对应3位标注者),每个子文件夹包含18个PubAnnotation格式的JSON标注文件(TextAE工具原始输出)
- 格式:JSON
- Annotation_guideline_Tool_Usage_Guide.pdf
- 文件格式:PDF
- 内容:含两部分,一是西班牙语的TextAE标注工具使用指南,二是西班牙语的实体与关系标注规范说明
数据来源
西班牙临床案例语料库(SPACCC,https://doi.org/10.5281/zenodo.2560316)
适用场景
- 生物医学NLP模型训练: 用于训练西班牙语生物医学文本的实体识别、关系抽取模型
- 临床文本语义分析: 研究西班牙语临床报告中生物医学实体的分布及语义关联模式
- 标注工具效能评估: 对比brat与PubAnnotation两种标注格式的应用效果及转换方法
- 医学术语标准化研究: 分析临床报告中Alias(别名)、Abreviatura(缩写)、Sigla(符号)类实体的使用规律
- 生物医学知识图谱构建: 基于实体与关系标注结果构建西班牙语生物医学领域知识图谱