WMT16_Based_Scielo生物医学翻译任务单语数据集

数据集概述

本数据集为第一届机器翻译会议(WMT'16)生物医学翻译任务提供的Scielo单语数据,包含英语、西班牙语、葡萄牙语、法语4种语言的生物医学相关文本,源自Scielo数据库,共7个XML文件,无目录层级划分。

文件详解

  • 英文生物医学文件
  • 文件名称:en-health.xml、en-biological.xml
  • 文件格式:XML
  • 字段映射介绍:包含英语生物医学领域的单语文本数据
  • 西班牙语生物医学文件
  • 文件名称:es-health.xml、es-biological.xml
  • 文件格式:XML
  • 字段映射介绍:包含西班牙语生物医学领域的单语文本数据
  • 葡萄牙语生物医学文件
  • 文件名称:pt-health.xml、pt-biological.xml
  • 文件格式:XML
  • 字段映射介绍:包含葡萄牙语生物医学领域的单语文本数据
  • 法语生物医学文件
  • 文件名称:fr-health.xml
  • 文件格式:XML
  • 字段映射介绍:包含法语生物医学领域的单语文本数据

数据来源

Scielo数据库(https://scielo.org/en/

适用场景

  • 生物医学机器翻译模型训练: 用于构建多语言生物医学翻译系统,提升专业领域翻译准确性
  • 生物医学语料库构建: 补充不同语言的生物医学领域单语语料资源
  • 跨语言生物医学研究: 支持多语言生物医学文献的文本分析与知识挖掘
  • 机器翻译任务基准测试: 作为WMT'16生物医学翻译任务的标准数据集,用于模型性能评估
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 36.18 MiB
最后更新 2026年2月8日
创建于 2026年2月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。