机器翻译文本带有人工标注与自动指标评估数据集

数据集概述

该数据集包含英文新闻文本经统计与神经机器翻译系统译成斯洛伐克语的结果,附有人工标注的五类错误二进制记录及六十八种自动评估指标得分,支持基于自动指标预测错误类别的模型开发。

文件详解

  • 文件名称: Dataset.csv
  • 文件格式: CSV
  • 字段映射:
  • id_source: 源文本标识
  • SRC: 英文源文本
  • id_document: 文档标识
  • TrainingSet: 训练集标识
  • NMT: 神经机器翻译结果
  • MT: 机器翻译结果
  • HT: 人工翻译参考
  • Evaluation_Error: 评估错误标识
  • Predication_Error: 预测错误标识
  • Modal_Error: 情态错误标识
  • Syntactic_semantic_Error: 句法语义错误标识
  • Syntax_Error: 句法错误标识
  • Lexical_Error: 词汇错误标识
  • BL1_BLEU-1等: 68种自动评估指标得分

适用场景

  • 机器翻译质量评估模型开发
  • 自然语言处理错误类型预测研究
  • 自动评估指标有效性分析
  • 翻译错误分类算法优化
  • 跨语言文本处理应用开发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.6 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。