数据集概述
本数据集是“机器翻译服务元测试蒙特卡洛方法”的伴随数据,基于原始数据集优化分析方法,针对中文、日文等亚洲语言采用字符级分割,重新计算BLEU和余弦相似度得分,提供更精准的机器翻译服务测试评估数据。
文件详解
- 文件名称:Dataset Part II.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含基于字符级分割方法计算的机器翻译结果评估指标,主要字段为BLEU得分(机器翻译质量评估指标)、Cosine Similarity得分(翻译结果与参考文本的相似度指标)。
数据来源
Daniel Pesu, Zhi Quan Zhou, Jingfeng Zhen, & Dave Towey. (2018). Accompanying dataset for: A Monte Carlo Method for Metamorphic Testing of Machine Translation Services (Version 1.0) [Data set]. Zenodo. http://doi.org/10.5281/zenodo.1194560
适用场景
- 机器翻译服务测试:评估机器翻译服务在处理中文、日文等无明显词边界语言时的翻译质量。
- 元测试方法验证:验证蒙特卡洛方法在机器翻译服务元测试中的有效性和准确性。
- 翻译评估指标优化:对比词级与字符级分割方法对BLEU、余弦相似度等评估指标的影响。
- 自然语言处理研究:为机器翻译质量评估的算法优化提供数据支持。