数据集概述
本数据集为西班牙语临床病例语料库(SPACCC)的第一版分词标注数据,由基于FreeLing3.1的西班牙语临床病例语料库词性标注器(SPACCC_POS-TAGGER)生成,包含对临床文本的分词标注内容,适用于医学NLP领域的文本处理研究。
文件详解
- 文件名称:SPACCC_TOKEN.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含西班牙语临床病例语料库的分词标注数据,具体字段需解压后查看,核心内容为临床文本的分词标注结果,与SPACCC_POS-TAGGER工具的标注逻辑一致。
数据来源
PlanTL项目(SPACCC_POS-TAGGER工具生成,工具仓库地址:https://github.com/PlanTL/SPACCC_POS-TAGGER)
适用场景
- 医学NLP模型训练:用于训练西班牙语临床文本的分词、词性标注等NLP模型,提升模型对临床专业文本的处理能力。
- 临床语料库标注研究:分析西班牙语临床病例语料的分词规则与标注标准,优化临床文本标注流程。
- 医疗文本处理工具开发:为开发西班牙语临床文本处理工具提供标注数据支持,如电子病历文本解析工具。
- 医学术语标准化研究:基于分词标注结果,研究西班牙语临床术语的使用规律与标准化方法。