数据集概述
本数据集为2024/2025冬季学期科隆、耶拿、卡塞尔三校信息检索课程的共享任务资源,包含基于ir_datasets和TIREx的实验数据,涵盖文档语料、主题、运行结果及相关性判断等,支持课程实践中的系统开发与分析。
文件详解
- 训练输入文件
- 文件名称:subsampled-ms-marco-deep-learning-20241201-training-inputs.zip、subsampled-ms-marco-rag-20250105-training-inputs.zip
- 文件格式:ZIP
- 字段映射介绍:包含文档语料和主题数据,用于信息检索系统的训练开发
- 训练真值文件
- 文件名称:subsampled-ms-marco-deep-learning-20241201-training-truths.zip、subsampled-ms-marco-rag-20250105-training-truths.zip
- 文件格式:ZIP
- 字段映射介绍:包含主题对应的相关性判断数据,用于模型评估与调优
- 测试输入文件
- 文件名称:subsampled-ms-marco-ir-lab-20250105-test-inputs.zip
- 文件格式:ZIP
- 字段映射介绍:包含测试阶段的文档语料和主题数据
- 测试真值文件
- 文件名称:subsampled-ms-marco-ir-lab-20250105-test-truths.zip
- 文件格式:ZIP
- 字段映射介绍:包含测试阶段的相关性判断数据,用于系统性能评估
数据来源
IR Lab Cologne/Jena/Kassel 2024/2025冬季学期信息检索课程
适用场景
- 信息检索课程教学实践:支持学生进行共享任务的系统开发、评估与分析训练
- 信息检索模型实验:用于深度学习、检索增强生成(RAG)等技术的模型训练与测试
- 相关性判断研究:基于真值数据开展信息检索相关性评估方法的分析
- 教育资源共享:为多校联合课程提供标准化的实验数据集与工具支持