孟加拉语语音识别测试集_重新审视Anwesha扩展金标准数据集

数据集概述

本数据集为孟加拉语信息检索(IR)测试集,扩展了现有黄金标准数据集,包含100个查询-文档相关性对及1000篇文档的新测试集。文档来源于Ebela、Zee News等新闻平台及旅游博客,支持不同复杂度查询的检索性能评估,是孟加拉语IR研究的基础资源。

文件详解

  • BSE_qrels.json
  • 文件格式:JSON
  • 字段映射介绍:包含100个查询-文档相关性对数据,记录查询与对应文档的关联关系及相关性标注。
  • Complete_Concept_Dataset.zip
  • 文件格式:ZIP
  • 内容说明:压缩包内为完整概念数据集,具体内容需解压后查看。
  • New_Test_Collection.zip
  • 文件格式:ZIP
  • 内容说明:压缩包内为包含1000篇文档的新测试集,文档来源于指定新闻平台及博客。
  • Queries.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含100个不同复杂度的查询数据,按复杂度等级1-4分类,记录各查询的具体内容及复杂度标签。

数据来源

Zenodo平台(记录编号6583149)及相关新闻、博客平台

适用场景

  • 孟加拉语信息检索模型评估: 用于测试不同IR模型在孟加拉语文档集上的检索精度、召回率等性能指标。
  • 多复杂度查询检索研究: 分析不同复杂度(精确匹配、模糊匹配、主题概括等)查询对检索结果的影响。
  • 跨语言信息检索对比: 与英语等其他语言IR测试集对比,研究语言特性对检索系统的影响。
  • 自然语言处理数据集构建: 为孟加拉语NLP任务提供标注好的查询-文档关联数据,支持模型训练与验证。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.23 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。