-
MERMaid多模态反应挖掘提示与原始数据集
2025年12月24日 30 172 158
数据集概述 该数据集是MERMaid项目的配套数据,包含多模态反应挖掘任务中使用的提示词文件及Dataraider、KGWizard模块的原始响应文件,覆盖PDF处理相关的多模态数据挖掘内容。 文件详解 该数据集包含8个文件,具体说明如下: - prompts.zip:ZIP格式压缩文件,可能包含多模态反应挖掘任务中使用的提示词集合 -...
-
巴西中等教育考试问题数据集2010_2022
2025年12月23日 30 133 17
数据集概述 该数据集提取自巴西国家教育研究所(INEP)网站公开的ENEM考试试题,覆盖2010至2022年。数据包含考试题目文本、选项列表、年份、学科领域及正确答案,通过脚本处理PDF文件生成,为研究巴西中等教育考试内容提供结构化数据支持。 文件详解 文件名称: enem_questions.zip 文件格式: ZIP压缩包 核心字段映射:...
-
DUDE_Sample_Based_样本训练数据OCR_PDF处理完整数据
2025年12月16日 30 122 10
数据集概述 本数据集是DUDE平台的首个样本训练数据集,供挑战者搭建系统使用。包含OCR、PDF样本文件及数据集描述JSON文件,无目录结构,文件类型以压缩包为主。 文件详解 DUDE_sample_OCR.zip:ZIP格式压缩文件,可能包含用于OCR任务的样本数据...
-
PDF文件压缩优化数据集PDFReductionOptimizationDataset-ramsri23
2025年4月26日 30 25 3
PDF文件压缩优化数据集PDFReductionOptimizationDataset-ramsri23 数据来源:互联网公开数据 标签:PDF处理,文件压缩,数据集,图像处理,数据优化,文本分析,办公自动化,软件工程 数据概述:该数据集包含来自多个来源的PDF文件数据,记录了不同类型PDF文件的压缩前后对比信息。主要特征如下:...
-
工程符号数据集
2025年4月15日 30 27 23
工程符号数据集 数据来源:互联网公开数据 标签:工程符号,图像识别,目标检测,机器学习,数据标注,PDF处理 数据概述: 本数据集包含近1000张标注并框选的图像,涉及少于250种工程符号。每种符号均经过三次旋转处理(分别对应北、南、东、西四个方向,其中北方向为原始方向),旨在提高模型的鲁棒性。 数据用途概述:...



