DUDE_Sample_Based_样本训练数据OCR_PDF处理完整数据

数据集概述

本数据集是DUDE平台的首个样本训练数据集,供挑战者搭建系统使用。包含OCR、PDF样本文件及数据集描述JSON文件,无目录结构,文件类型以压缩包为主。

文件详解

  • DUDE_sample_OCR.zip:ZIP格式压缩文件,可能包含用于OCR任务的样本数据
  • DUDE_sample_pdfs.zip:ZIP格式压缩文件,可能包含PDF格式的样本文件
  • DUDE_sample_dataset.json:JSON格式文件,可能包含数据集的元数据或描述信息

适用场景

  • DUDE平台系统开发:帮助挑战者快速搭建和测试针对DUDE任务的算法系统
  • 样本数据预处理研究:探索OCR和PDF样本数据的预处理方法
  • 数据集格式适配分析:研究如何将不同类型的样本数据适配到统一的系统框架中
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 146.63 MiB
最后更新 2025年12月16日
创建于 2025年12月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。