跨语言问答数据集XQuAD印地语部分2019-nbroad

跨语言问答数据集XQuAD印地语部分2019-nbroad 数据来源:互联网公开数据 标签:跨语言问答,自然语言处理,机器翻译,多语言数据集,印地语,文本理解

数据概述: 本数据集是XQuAD(跨语言问答数据集)中的印地语部分,用于评估跨语言问答性能。数据集包含SQuAD v1.1开发集的子集,共有240段落和1190个问题-答案对,并配有这10种语言的专业翻译:西班牙语、德语、希腊语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文和印地语。因此,整个数据集在11种语言之间完全平行。本部分仅包含印地语翻译数据。

数据用途概述: 该数据集适用于跨语言问答系统的开发与评估、多语言自然语言处理研究、机器翻译质量评估等场景。研究人员可以利用此数据集训练和测试跨语言问答模型,以提高系统在不同语言环境下的表现;教育者可以使用这些数据集进行多语言文本理解的教学;开发人员可以借助数据集优化机器翻译算法。该数据集为跨语言自然语言处理领域提供了宝贵的数据资源。

相关引用: Artetxe, M., Ruder, S., & Yogatama, D. (2019). On the cross-lingual transferability of monolingual representations. arXiv preprint arXiv:1910.11856.

许可协议: CC-By-SA 4.0

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.41 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。