维基百科标题多语言翻译数据集

维基百科标题多语言翻译数据集 数据来源:互联网公开数据
标签:维基百科,平行术语库,多语言翻译,印度语言,数据共享,自然语言处理

数据概述:
本数据集基于维基百科英文版本的标题信息,通过网络爬虫技术提取了22种主要印度语言的对应翻译,形成了一个包含58,210,906个英文词条的多语言平行术语库。数据以CSV文件形式存储,每条记录包含英文标题及其在印度语言中的对应翻译,为跨语言信息处理和自然语言理解提供了丰富的语料资源。

数据用途概述:
该数据集适用于多种场景,包括但不限于:构建平行术语库、支持跨语言信息检索、训练机器翻译模型、开发多语言语言学习资源以及开展跨文化研究。研究人员和开发者可利用该数据集探索语言间的对应关系,提升跨语言处理能力;教育机构可将其用于语言学研究和教学实践;企业则可借此优化多语言内容的生成与分发。此外,数据集还有助于推动印度语言的数字化和全球化应用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 374.15 MiB
最后更新 2025年5月31日
创建于 2025年5月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。