DUDE_Competition_Based_ICDAR2023文档理解竞赛训练验证测试集真值标注数据

数据集概述

本数据集为ICDAR 2023 DUDE竞赛提供训练、验证和测试集的真值标注,包含41454条标注数据,覆盖4974份文档。数据分为训练集、验证集和测试集,测试集为盲测集(无真值答案),已去除重复数据。

文件详解

  • 文件名称:2023-03-23_DUDE_gt_test_PUBLIC.json
  • 文件格式:JSON
  • 字段映射介绍:
  • 核心字段:docId(文档ID)、questionId(问题ID)、question(问题内容)、answers(答案内容)、answers_page_bounding_boxes(答案页面 bounding box)、answers_variants(答案变体)、answer_type(答案类型)、data_split(数据拆分类型)、document(文档信息)、OCR(OCR文本)
  • 数据拆分:训练集23728条、验证集6315条、测试集11402条
  • 测试集调整:去除9条重复数据(如92bd5c758bda9bdceb5f67c17009207b_ac6964cbdf483e765b6668e27b3d0bc4等)

数据来源

ICDAR 2023 DUDE竞赛(https://rrc.cvc.uab.es/?ch=23&com=tasks

适用场景

  • 文档理解模型训练与验证: 用于训练和评估文档视觉问答、信息抽取类模型
  • 竞赛算法开发: 支持DUDE竞赛参与者优化算法性能
  • 文档OCR与信息定位研究: 结合OCRanswers_page_bounding_boxes研究文档信息定位方法
  • 答案类型与变体分析: 基于answer_typeanswers_variants探索文档答案的多样性表达
  • 盲测集算法性能评估: 利用盲测集验证模型在无真值场景下的泛化能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.44 MiB
最后更新 2026年1月3日
创建于 2026年1月3日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。