IUST_PDF_Based_多场景PDF数据处理完整数据集

数据集概述

该数据集为IUST-PDF语料库,包含六千一百四十一个不同大小和内容的完整PDF文件,以及从中提取的五十万七千二百九十九个PDF数据对象和十五万一千一百三十二个PDF流。还附带每个PDF文件在测试MuPDF时的代码覆盖率信息,数据对象分为三类,适用于PDF阅读器测试和机器学习任务。

文件详解

  • 压缩文件集合:
  • iust_pdfs_6141_files_coverage.zip:压缩格式,包含每个PDF文件测试MuPDF时的代码覆盖率信息,提供二进制和XML格式文件
  • iust_pdf_data_objects_507299_objs_6141_files.zip:压缩格式,包含从六千一百四十一个PDF文件中提取的所有PDF数据对象,每个文件对应一个原始PDF的未预处理对象
  • iust_pdfs_6141_files_binary_streams.zip:压缩格式,包含从六千一百四十一个PDF文件中提取的所有二进制格式PDF流
  • iust_pdf_data_objects_dataset__large.zip:压缩格式,包含经过预处理合并后的大型数据集,分为训练、测试和验证集,适用于机器学习任务
  • iust_pdfs_6141_files.zip:压缩格式,包含六千一百四十一个不同大小和内容的完整PDF文件
  • iust_pdf_data_objects_dataset__small.zip:压缩格式,包含经过预处理合并后的小型数据集,适用于算法开发阶段

适用场景

  • PDF阅读器测试:用于测试、调试和改进Adobe Acrobat Reader、Foxit Reader等PDF阅读器的性能与兼容性
  • 机器学习研究:基于PDF数据对象的分类数据集,可用于PDF相关的机器学习模型训练与验证
  • 模糊测试研究:作为智能文件格式模糊测试工具的测试数据,支持高效模糊测试算法开发
  • 格式分析研究:用于分析PDF文件格式结构、数据对象与流的特征及组织方式
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1005.32 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。