数据集概述
该数据集为IUST-PDF语料库,包含六千一百四十一个不同大小和内容的完整PDF文件,以及从中提取的五十万七千二百九十九个PDF数据对象和十五万一千一百三十二个PDF流。还附带每个PDF文件在测试MuPDF时的代码覆盖率信息,数据对象分为三类,适用于PDF阅读器测试和机器学习任务。
文件详解
- 压缩文件集合:
- iust_pdfs_6141_files_coverage.zip:压缩格式,包含每个PDF文件测试MuPDF时的代码覆盖率信息,提供二进制和XML格式文件
- iust_pdf_data_objects_507299_objs_6141_files.zip:压缩格式,包含从六千一百四十一个PDF文件中提取的所有PDF数据对象,每个文件对应一个原始PDF的未预处理对象
- iust_pdfs_6141_files_binary_streams.zip:压缩格式,包含从六千一百四十一个PDF文件中提取的所有二进制格式PDF流
- iust_pdf_data_objects_dataset__large.zip:压缩格式,包含经过预处理合并后的大型数据集,分为训练、测试和验证集,适用于机器学习任务
- iust_pdfs_6141_files.zip:压缩格式,包含六千一百四十一个不同大小和内容的完整PDF文件
- iust_pdf_data_objects_dataset__small.zip:压缩格式,包含经过预处理合并后的小型数据集,适用于算法开发阶段
适用场景
- PDF阅读器测试:用于测试、调试和改进Adobe Acrobat Reader、Foxit Reader等PDF阅读器的性能与兼容性
- 机器学习研究:基于PDF数据对象的分类数据集,可用于PDF相关的机器学习模型训练与验证
- 模糊测试研究:作为智能文件格式模糊测试工具的测试数据,支持高效模糊测试算法开发
- 格式分析研究:用于分析PDF文件格式结构、数据对象与流的特征及组织方式