日英字幕语料库数据集-2020年-onslaught

日英字幕语料库数据集-2020年-onslaught 数据来源:互联网公开数据 标签:日英翻译,字幕,机器翻译,语言处理,语料库,自然语言处理,信息提取

数据概述: 本数据集由斯坦福大学、谷歌大脑和乐天技术研究所合作开发,旨在支持机器翻译系统、信息提取及其他语言处理技术的研究与开发。数据集通过爬取互联网上的电影和电视字幕并对其对齐生成,包含280余万句翻译对,涵盖日常对话、俚语、说明文和叙事话语等难以在日英翻译语料库中找到的领域。

数据集内容包括: - 原始语料库:2,801,388句 - 训练集:2,797,388句 - 验证集:2000句 - 测试集:2000句

此外,数据集还提供了预处理后的数据,包括分词后的训练/验证/测试集划分,以及用于生成自己的爬取数据集和处理机器翻译数据的代码。

数据用途概述: 该数据集适用于机器翻译模型训练、信息提取、自然语言处理研究等多种场景。研究人员可以利用此数据集进行机器翻译系统的开发与优化;语言学家可以利用此数据集分析日英语言之间的差异;教育者可以利用此数据集进行语言教学和翻译能力培养。该数据集为相关领域的研究和应用提供了丰富且高质量的数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 215.12 MiB
最后更新 2025年5月4日
创建于 2025年5月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。