新闻文本机器翻译质量评估指标数据集

数据集概述

该数据集包含英文新闻文本经四种机器翻译系统(谷歌统计/神经翻译、MT@EC统计翻译、E-Translation神经翻译)译为斯洛伐克语后的自动评估指标值,涵盖PER、WER、TER、CDER、BLEU等核心翻译质量指标,用于自动化评估机器翻译结果。

文件详解

  • 文件名称: Data.txt
  • 文件格式: TXT
  • 字段映射: 包含文本ID(ID_Text)及对应四种翻译系统的质量指标,如PER_GT_SMT(谷歌统计翻译的词错误率)、WER_GT_NMT(谷歌神经翻译的字错误率)、TER_GT_SMT(谷歌统计翻译的翻译编辑率)、CDER_GT_SMT(谷歌统计翻译的字符删除错误率)、BLEU_1_GT_SMT至BLEU_4_GT_SMT(谷歌统计翻译的1-4元BLEU值)等,每种系统对应PER、WER、TER、CDER、BLEU_1至BLEU_4共九项指标。

适用场景

  • 机器翻译系统性能对比: 分析不同翻译系统在新闻文本翻译任务中的质量差异
  • 翻译评估指标研究: 探究PER、WER、TER、CDER、BLEU等指标对新闻文本翻译质量的评估有效性
  • 翻译质量优化: 为机器翻译模型在新闻领域的调优提供量化参考依据
  • 跨语言新闻传播研究: 支撑多语言新闻内容自动翻译质量的客观评估
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.01 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。