孟加拉语语音识别测试集_重新审视Anwesha扩展金标准数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

孟加拉语语音识别测试集_重新审视Anwesha扩展金标准数据集

数据集概述

本数据集为孟加拉语信息检索（IR）测试集，扩展了现有黄金标准数据集，包含100个查询-文档相关性对及1000篇文档的新测试集。文档来源于Ebela、Zee News等新闻平台及旅游博客，支持不同复杂度查询的检索性能评估，是孟加拉语IR研究的基础资源。

文件详解

BSE_qrels.json
文件格式：JSON
字段映射介绍：包含100个查询-文档相关性对数据，记录查询与对应文档的关联关系及相关性标注。
Complete_Concept_Dataset.zip
文件格式：ZIP
内容说明：压缩包内为完整概念数据集，具体内容需解压后查看。
New_Test_Collection.zip
文件格式：ZIP
内容说明：压缩包内为包含1000篇文档的新测试集，文档来源于指定新闻平台及博客。
Queries.xlsx
文件格式：XLSX
字段映射介绍：包含100个不同复杂度的查询数据，按复杂度等级1-4分类，记录各查询的具体内容及复杂度标签。

数据来源

Zenodo平台（记录编号6583149）及相关新闻、博客平台

适用场景

孟加拉语信息检索模型评估: 用于测试不同IR模型在孟加拉语文档集上的检索精度、召回率等性能指标。
多复杂度查询检索研究: 分析不同复杂度（精确匹配、模糊匹配、主题概括等）查询对检索结果的影响。
跨语言信息检索对比: 与英语等其他语言IR测试集对比，研究语言特性对检索系统的影响。
自然语言处理数据集构建: 为孟加拉语NLP任务提供标注好的查询-文档关联数据，支持模型训练与验证。

数据与资源

7376906.zipZIP
12.23 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	12.23 MiB
最后更新	2026年1月28日
创建于	2026年1月28日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？