IUST_PDF_Based_多场景PDF数据处理完整数据集

该数据集为IUST-PDF语料库，包含六千一百四十一个不同大小和内容的完整PDF文件，以及从中提取的五十万七千二百九十九个PDF数据对象和十五万一千一百三十二个PDF流。还附带每个PDF文件在测试MuPDF时的代码覆盖率信息，数据对象分为三类，适用于PDF阅读器测试和机器学习任务。

压缩文件集合：
iust_pdfs_6141_files_coverage.zip：压缩格式，包含每个PDF文件测试MuPDF时的代码覆盖率信息，提供二进制和XML格式文件
iust_pdf_data_objects_507299_objs_6141_files.zip：压缩格式，包含从六千一百四十一个PDF文件中提取的所有PDF数据对象，每个文件对应一个原始PDF的未预处理对象
iust_pdfs_6141_files_binary_streams.zip：压缩格式，包含从六千一百四十一个PDF文件中提取的所有二进制格式PDF流
iust_pdf_data_objects_dataset__large.zip：压缩格式，包含经过预处理合并后的大型数据集，分为训练、测试和验证集，适用于机器学习任务
iust_pdfs_6141_files.zip：压缩格式，包含六千一百四十一个不同大小和内容的完整PDF文件
iust_pdf_data_objects_dataset__small.zip：压缩格式，包含经过预处理合并后的小型数据集，适用于算法开发阶段

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	1005.32 MiB
最后更新	2025年12月8日
创建于	2025年12月8日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。