READ_ABP_Table_Based_历史登记册表格识别实验完整数据

数据集概述

该数据集为历史登记册表格识别研究相关数据,包含用于对比机器学习方法的实验数据,涉及不同版本的图像及标注文件,支持表格文本行、单元格等元素的识别分析。

文件详解

该数据集包含一个ZIP格式压缩文件,具体说明如下: - 文件名称: READ_ABP_TABLE.zip - 文件格式: ZIP (.zip) - 内部目录及内容: - dataset111目录:含img/(图像文件)、xml/(带BIESO标注的READ pagexml文件) - dataset150目录:含img/(图像文件)、GT_xml/(带BIESO标注的READ pagexml文件)、WK_xml/(工作流输出的pagexml文件,含自动识别的文本行和列)、ROWREF/(行区域标注文件) - 标签集说明(TextLine元素属性): - DU_row标签:B(单元格首元素)、I(单元格内部)、E(单元格末元素)、S(单元素单元格)、O(表格外元素)

适用场景

  • 历史文档表格识别算法研发:对比不同机器学习方法在历史登记册表格识别任务中的性能
  • 文档分析系统优化:基于工作流输出与标注数据,改进表格文本行、列、单元格的自动识别精度
  • 古籍数字化研究:支持历史登记册类文档的结构化信息提取与数字化处理
  • 表格标注规范验证:基于BIESO标注体系,验证表格元素标注方法的有效性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 563.26 MiB
最后更新 2025年12月16日
创建于 2025年12月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。