WMT17_Based_生物医学翻译任务Scielo测试与黄金数据集

数据集概述

本数据集为第二届机器翻译会议(WMT'17)生物医学翻译任务的测试与黄金数据集,包含测试文件、黄金文件及使用GMA工具生成的自动对齐文件,数据来源于Scielo数据库,以压缩包形式提供。

文件详解

  • 文件名称:wmt17-biomedical-scielo.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含三类文件:测试文件(Test files)、黄金文件(Gold files)、GMA工具自动对齐文件(Automatic alignment files),具体字段需解压后查看原始文件结构。

数据来源

第二届机器翻译会议(WMT'17)生物医学翻译任务官网、Scielo数据库

适用场景

  • 生物医学机器翻译模型评估: 用于测试和验证生物医学领域机器翻译模型的性能,对比模型输出与黄金标准的差异。
  • 机器翻译自动对齐算法研究: 分析GMA工具生成的自动对齐文件,优化生物医学文本的对齐策略。
  • 生物医学翻译任务基准构建: 作为WMT'17生物医学翻译任务的官方基准数据集,支持不同翻译模型的横向对比。
  • 跨语言生物医学文本处理: 为生物医学领域跨语言文本的机器翻译、信息抽取等任务提供测试数据支撑。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 4.15 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。