维基百科标题多语言翻译数据集

维基百科标题多语言翻译数据集 数据来源:互联网公开数据
标签:维基百科,平行术语库,多语言翻译,印度语言,数据共享,自然语言处理

数据概述:
本数据集基于维基百科英文版本的标题信息,通过网络爬虫技术提取了22种主要印度语言的对应翻译,形成了一个包含58,210,906个英文词条的多语言平行术语库。数据以CSV文件形式存储,每条记录包含英文标题及其在印度语言中的对应翻译,为跨语言信息处理和自然语言理解提供了丰富的语料资源。

数据用途概述:
该数据集适用于多种场景,包括但不限于:构建平行术语库、支持跨语言信息检索、训练机器翻译模型、开发多语言语言学习资源以及开展跨文化研究。研究人员和开发者可利用该数据集探索语言间的对应关系,提升跨语言处理能力;教育机构可将其用于语言学研究和教学实践;企业则可借此优化多语言内容的生成与分发。此外,数据集还有助于推动印度语言的数字化和全球化应用。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 14:51 (UTC)
创建于 五月 31, 2025, 14:50 (UTC)