数据集

READ_ABP_Table_Based_历史登记册表格识别实验完整数据

数据集概述

该数据集为历史登记册表格识别研究相关数据，包含用于对比机器学习方法的实验数据，涉及不同版本的图像及标注文件，支持表格文本行、单元格等元素的识别分析。

文件详解

该数据集包含一个ZIP格式压缩文件，具体说明如下： - 文件名称: READ_ABP_TABLE.zip - 文件格式: ZIP (.zip) - 内部目录及内容: - dataset111目录：含img/（图像文件）、xml/（带BIESO标注的READ pagexml文件） - dataset150目录：含img/（图像文件）、GT_xml/（带BIESO标注的READ pagexml文件）、WK_xml/（工作流输出的pagexml文件，含自动识别的文本行和列）、ROWREF/（行区域标注文件） - 标签集说明（TextLine元素属性）： - DU_row标签：B（单元格首元素）、I（单元格内部）、E（单元格末元素）、S（单元素单元格）、O（表格外元素）

适用场景

历史文档表格识别算法研发：对比不同机器学习方法在历史登记册表格识别任务中的性能
文档分析系统优化：基于工作流输出与标注数据，改进表格文本行、列、单元格的自动识别精度
古籍数字化研究：支持历史登记册类文档的结构化信息提取与数字化处理
表格标注规范验证：基于BIESO标注体系，验证表格元素标注方法的有效性

数据与资源

1243098.zipZIP
563.26 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	563.26 MiB
最后更新	2025年12月16日
创建于	2025年12月16日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。