数据集

跨语言问答数据集XQuAD印地语部分2019-nbroad

跨语言问答数据集XQuAD印地语部分2019-nbroad 数据来源：互联网公开数据标签：跨语言问答,自然语言处理,机器翻译,多语言数据集,印地语,文本理解

数据概述：本数据集是XQuAD（跨语言问答数据集）中的印地语部分，用于评估跨语言问答性能。数据集包含SQuAD v1.1开发集的子集，共有240段落和1190个问题-答案对，并配有这10种语言的专业翻译：西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语。因此，整个数据集在11种语言之间完全平行。本部分仅包含印地语翻译数据。

数据用途概述：该数据集适用于跨语言问答系统的开发与评估、多语言自然语言处理研究、机器翻译质量评估等场景。研究人员可以利用此数据集训练和测试跨语言问答模型，以提高系统在不同语言环境下的表现；教育者可以使用这些数据集进行多语言文本理解的教学；开发人员可以借助数据集优化机器翻译算法。该数据集为跨语言自然语言处理领域提供了宝贵的数据资源。

相关引用： Artetxe, M., Ruder, S., & Yogatama, D. (2019). On the cross-lingual transferability of monolingual representations. arXiv preprint arXiv:1910.11856.

许可协议： CC-By-SA 4.0

数据与资源

versions_20250410040105.zipZIP
0.41 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.41 MiB
最后更新	2025年4月21日
创建于	2025年4月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。