SPACCC_TOKEN_Based_西班牙语临床病例语料库分词标注第一版数据

数据集概述

本数据集为西班牙语临床病例语料库(SPACCC)的第一版分词标注数据,由基于FreeLing3.1的西班牙语临床病例语料库词性标注器(SPACCC_POS-TAGGER)生成,包含对临床文本的分词标注内容,适用于医学NLP领域的文本处理研究。

文件详解

  • 文件名称:SPACCC_TOKEN.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含西班牙语临床病例语料库的分词标注数据,具体字段需解压后查看,核心内容为临床文本的分词标注结果,与SPACCC_POS-TAGGER工具的标注逻辑一致。

数据来源

PlanTL项目(SPACCC_POS-TAGGER工具生成,工具仓库地址:https://github.com/PlanTL/SPACCC_POS-TAGGER

适用场景

  • 医学NLP模型训练:用于训练西班牙语临床文本的分词、词性标注等NLP模型,提升模型对临床专业文本的处理能力。
  • 临床语料库标注研究:分析西班牙语临床病例语料的分词规则与标注标准,优化临床文本标注流程。
  • 医疗文本处理工具开发:为开发西班牙语临床文本处理工具提供标注数据支持,如电子病历文本解析工具。
  • 医学术语标准化研究:基于分词标注结果,研究西班牙语临床术语的使用规律与标准化方法。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.41 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。