MeSpEn平行语料库_医疗健康文献数据集

数据集概述

该数据集为西班牙语与英语医疗健康领域的平行语料库资源,整合了西班牙、拉丁美洲等地的生物医学、临床文献及患者健康信息,支持医疗机器翻译、多语言术语提取及西班牙语医疗自然语言处理组件开发。

文件详解

该数据集包含多个文件,具体说明如下: - 说明文档: - MedlinePlus-health-topics_README:MedlinePlus健康主题元数据说明文档 - Scielo_README:SciELO语料库说明文档 - MedlinePlus-articles_README:MedlinePlus完整文章语料库说明文档 - 压缩文件: - MedlinePlus-health_topics-dublin_core-Sp-En.tar.bz2:MedlinePlus健康主题都柏林核心格式元数据压缩包 - MedlinePlus-TEI-Sp-En.tar.bz2:MedlinePlus完整文章TEI格式压缩包 - Pubmed-dublin_core-Sp-En.tar.bz2:Pubmed都柏林核心格式元数据压缩包 - 主文件: - MeSpEn_Parallel-Corpora.zip:MeSpEn平行语料库主压缩文件

数据来源

IBECS、SciELO、Pubmed、MedlinePlus

适用场景

  • 医疗机器翻译:训练与评估西班牙语-英语医疗机器翻译系统
  • 术语提取工具开发:构建多语言医疗术语自动提取工具
  • 医疗自然语言处理:开发西班牙语医疗领域自然语言处理组件
  • 双语术语库构建:通过自动术语检测与实体识别生成医疗双语术语表
  • 医学文献分析:研究西班牙及拉丁美洲地区生物医学与临床文献特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 708.21 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。