数据集概述
本数据集是论文《Deep learning based question answering system in Bengali》的配套数据,为SQuAD 2.0数据集的孟加拉语翻译版本,包含训练、验证及预处理翻译结果三类文件,共3个JSON格式文件,可用于孟加拉语问答系统的深度学习研究。
文件详解
- 文件名称:train_bangla_samples_fixed_preprocessed.json
- 文件格式:JSON
- 字段映射介绍:孟加拉语问答系统训练用预处理样本数据
- 文件名称:valid_bangla_samples_fixed_preprocessed.json
- 文件格式:JSON
- 字段映射介绍:孟加拉语问答系统验证用预处理样本数据
- 文件名称:preprocessed_translations_final_fixed.json
- 文件格式:JSON
- 字段映射介绍:SQuAD 2.0数据集的孟加拉语预处理翻译结果数据
数据来源
论文“Deep learning based question answering system in Bengali”
适用场景
- 孟加拉语问答系统训练: 用于深度学习模型在孟加拉语问答任务中的训练与验证
- 低资源语言NLP研究: 支持孟加拉语等低资源语言自然语言处理技术的开发与优化
- 机器翻译质量评估: 分析SQuAD 2.0数据集翻译成孟加拉语后的语义准确性与适用性
- 问答系统性能对比: 为不同深度学习模型在孟加拉语问答任务上的性能评估提供标准数据集