PlanTL_Based_西班牙语临床病例语料库句子分割标注数据集_V1

数据集概述

本数据集为西班牙临床病例语料库(SPACCC)的句子分割标注第一版,由基于FreeLing3.1的SPACCC词性标注工具完成标注。数据集包含1个压缩文件,无目录层级,无训练/测试、数据/标签等分割,可用于西班牙语临床文本的句子分割任务研究与模型训练。

文件详解

  • 文件名称:SPACCC_SPLIT.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含西班牙语临床病例语料库的句子分割标注数据,具体字段需解压后查看原始内容,无公开预览信息。

数据来源

Secretaría de Estado para el Avance Digital

适用场景

  • 临床NLP模型训练: 用于训练和优化西班牙语临床文本的句子分割模型,提升临床自然语言处理任务的基础处理能力。
  • 临床语料库构建: 作为西班牙语临床病例语料库的标注组件,支持结构化临床文本资源的完善与扩展。
  • 医疗文本处理研究: 研究西班牙语临床文本的句子边界识别规则,分析临床领域文本的语言特性。
  • 多语言NLP对比分析: 为跨语言临床自然语言处理任务提供西班牙语标注数据支撑,对比不同语言的句子分割差异。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 15.62 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。