数据集概述
Bob是由剑桥大学创建的信息检索测试集合,专门用于科学文献信息检索实验。该数据集基于ACL Anthology(计算语言学出版物免费数字档案库),包含近一万篇研究论文、82个研究问题查询以及相关度判断。数据以XML和文本格式组织,适用于信息检索算法评估和文献相关性分析研究。
文件详解
- Bob.zip(主压缩文件)
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含三个主要组成部分:
- documents.xml:包含近10,000篇ACL Anthology研究论文的XML文档,使用标签分隔单篇论文
- queries:包含82个研究问题查询,分为三个文件:
- queries.txt:纯文本格式,包含所有82个查询及其ACL Anthology ID和数字ID
- queries.lemur:Lemur格式查询文件
- queries.indri:Indri格式查询文件
- qrels.txt:TREC风格的相关度判断文件,包含查询作者对其他论文相关性的判断(0表示不相关,非0表示相关)
数据来源
剑桥大学Anna Ritchie博士论文"Citation Context Analysis for Information Retrieval"(2008年)
适用场景
- 信息检索算法评估:用于测试和比较不同信息检索系统在科学文献检索中的性能表现
- 计算语言学研究:基于ACL Anthology文献内容,支持计算语言学领域的文献挖掘和分析
- 相关性判断研究:利用人工标注的相关度数据,研究文献检索中的相关性评估标准
- 学术文献检索系统开发:为构建科学文献检索系统提供标准化的测试基准和数据支持
- 检索查询分析:分析研究人员提出的实际查询需求,优化检索系统的查询处理能力