ACL_Anthology_Bob信息检索测试完整数据集2008

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

ACL_Anthology_Bob信息检索测试完整数据集2008

数据集概述

Bob是由剑桥大学创建的信息检索测试集合，专门用于科学文献信息检索实验。该数据集基于ACL Anthology（计算语言学出版物免费数字档案库），包含近一万篇研究论文、82个研究问题查询以及相关度判断。数据以XML和文本格式组织，适用于信息检索算法评估和文献相关性分析研究。

文件详解

Bob.zip（主压缩文件）
文件格式：ZIP
字段映射介绍：压缩包内包含三个主要组成部分：
documents.xml：包含近10,000篇ACL Anthology研究论文的XML文档，使用标签分隔单篇论文
queries：包含82个研究问题查询，分为三个文件：
queries.txt：纯文本格式，包含所有82个查询及其ACL Anthology ID和数字ID
queries.lemur：Lemur格式查询文件
queries.indri：Indri格式查询文件
qrels.txt：TREC风格的相关度判断文件，包含查询作者对其他论文相关性的判断（0表示不相关，非0表示相关）

数据来源

剑桥大学Anna Ritchie博士论文"Citation Context Analysis for Information Retrieval"（2008年）

适用场景

信息检索算法评估：用于测试和比较不同信息检索系统在科学文献检索中的性能表现
计算语言学研究：基于ACL Anthology文献内容，支持计算语言学领域的文献挖掘和分析
相关性判断研究：利用人工标注的相关度数据，研究文献检索中的相关性评估标准
学术文献检索系统开发：为构建科学文献检索系统提供标准化的测试基准和数据支持
检索查询分析：分析研究人员提出的实际查询需求，优化检索系统的查询处理能力

数据与资源

9rrvd2myjy-1.zipZIP
91.17 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	91.17 MiB
最后更新	2025年11月27日
创建于	2025年11月27日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？