高重复文档集合通用索引复制框架数据集

数据集概述

该数据集是基于GNU LGPL v2.1许可的复制框架,包含复现《高重复文档集合通用索引》论文主要实验所需的全部要素,如数据集、查询模式、源代码及脚本,支持完整复现实验流程与结果报告生成。

文件详解

  • 文件名称: uiHRDC.tar.gz
  • 文件格式: GZ压缩包
  • 内部结构(基于框架说明):
  • benchmark目录:含LaTeX格式报告及数据收集脚本,可生成含关键图表的PDF实验报告
  • data目录:含7z压缩的文本集合与查询模式文件
  • indexes/self-indexes目录:含各索引方法源代码及实验脚本(支持索引构建、定位与提取操作,输出结果数据文件)
  • doAll.sh脚本:驱动完整流程(解压源集合、编译索引源码、运行实验、生成最终报告)

适用场景

  • 信息检索研究:复现高重复文档集合索引技术的实验结果,验证索引构建与查询性能
  • 压缩索引技术开发:基于源代码框架开发或优化针对重复文档的通用索引方法
  • 实验流程自动化:参考脚本设计实现文档索引实验的全流程自动化管理
  • 学术论文复现:为《Universal Indexes for Highly Repetitive Document Collections》论文提供可复现的实验环境
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 266.78 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。