肯尼亚卢希亚语卢马拉奇方言问答数据集

数据集概述

该数据集基于肯尼亚语言语料库Kencorpus项目中的137篇卢希亚语卢马拉奇方言文本,标注生成1000组问答对,是人工标注的低资源语言问答数据集,支持该方言的机器学习问答系统开发与测试。

文件详解

  • 文件名称: KenLumachiQuAD.csv
  • 文件格式: CSV
  • 字段说明:
  • Story_ID: 对应Kencorpus项目中问答对来源文本的标识号
  • Q: 问题文本(已转为小写)
  • A: 答案文本(已转为小写)

数据来源

肯尼亚语言语料库Kencorpus项目(https://kencorpus.maseno.ac.ke/corpus-datasets/

适用场景

  • 低资源语言处理研究: 用于开发和测试卢希亚语卢马拉奇方言的机器学习问答系统
  • 语义网络方法验证: 验证小样本条件下语义网络方法在低资源语言问答任务中的适用性
  • 方言语料资源补充: 丰富非洲低资源语言的标注语料库,支持自然语言处理相关研究
  • 跨语言问答对比: 与斯瓦希里语等其他低资源语言问答数据集进行方法迁移与效果对比
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.01 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。