ClinSpEn平行语料库_英语_西班牙语COVID_19临床病例_术语和本体概念数据集

数据集概述

该数据集为ClinSpEn平行语料库,包含英语-西班牙语COVID-19临床病例报告、临床术语及本体概念三类数据,由专业医学翻译人员翻译并经临床专家修订,适用于训练和评估临床机器翻译系统,还提供单语背景数据用于分析系统在未见过数据上的表现。

文件详解

  • 文件名称: clinspen_corpora_complete.zip
  • 文件格式: ZIP压缩包
  • 包含内容分类:
  • 临床病例子赛道:开发集(50个文档对)、测试集(152个文档对)的平行TXT文件(.en/.es后缀对应英西语),背景数据为含四列的TSV文件,另有文件名映射TSV文件
  • 临床术语子赛道:开发集(7000条术语)、测试集(12128条术语)及背景数据(201890条术语)的TSV文件
  • 本体概念子赛道:开发集(400个概念)、测试集(1789个概念)及背景数据(299408个概念)的TSV文件

适用场景

  • 临床机器翻译研究:训练和评估英语-西班牙语临床领域机器翻译系统
  • 医学术语资源建设:构建多语言临床术语库或本体映射资源
  • 医疗自然语言处理:支持临床文本跨语言理解、信息抽取等任务的模型训练
  • 生物医药翻译评测:作为标准化评测数据集,对比不同翻译模型在医疗领域的性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 18.53 MiB
最后更新 2025年12月14日
创建于 2025年12月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。