IR_Lab_Shared_Task_2024_2025冬季学期信息检索课程数据集

数据集概述

本数据集为2024/2025冬季学期科隆、耶拿、卡塞尔三校信息检索课程的共享任务资源,包含基于ir_datasets和TIREx的实验数据,涵盖文档语料、主题、运行结果及相关性判断等,支持课程实践中的系统开发与分析。

文件详解

  • 训练输入文件
  • 文件名称:subsampled-ms-marco-deep-learning-20241201-training-inputs.zip、subsampled-ms-marco-rag-20250105-training-inputs.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含文档语料和主题数据,用于信息检索系统的训练开发
  • 训练真值文件
  • 文件名称:subsampled-ms-marco-deep-learning-20241201-training-truths.zip、subsampled-ms-marco-rag-20250105-training-truths.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含主题对应的相关性判断数据,用于模型评估与调优
  • 测试输入文件
  • 文件名称:subsampled-ms-marco-ir-lab-20250105-test-inputs.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含测试阶段的文档语料和主题数据
  • 测试真值文件
  • 文件名称:subsampled-ms-marco-ir-lab-20250105-test-truths.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含测试阶段的相关性判断数据,用于系统性能评估

数据来源

IR Lab Cologne/Jena/Kassel 2024/2025冬季学期信息检索课程

适用场景

  • 信息检索课程教学实践:支持学生进行共享任务的系统开发、评估与分析训练
  • 信息检索模型实验:用于深度学习、检索增强生成(RAG)等技术的模型训练与测试
  • 相关性判断研究:基于真值数据开展信息检索相关性评估方法的分析
  • 教育资源共享:为多校联合课程提供标准化的实验数据集与工具支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 195.34 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。