印度泰米尔纳德邦土地资产文档图像数据集

数据集概述

该数据集包含八百四十七份土地资产文档图像及对应文本数据样本,基于印度泰米尔纳德邦主要使用的土地资产文档构建,文本样本仅保留研究所需列,含虚构人名,无实际关联。

文件详解

  • 主目录文件(Land Asset Document Images/):
  • 格式:JPG(.jpg)
  • 内容:原始土地资产文档图像,如759.jpg、808.jpg等,共一千零九十二份
  • 噪声添加样本目录(noiseadd_samples/):
  • 格式:JPG(.jpg)
  • 内容:添加噪声处理后的图像样本,如100.jpg、251.jpg等
  • 文本样本目录(text_samples/):
  • 格式:TXT(.txt)
  • 内容:图像对应的文本数据,字段含持有人姓名、年龄、地区、出售日期、身份证号等,如104.txt、251.txt等,共八百四十七份

适用场景

  • 文档图像分析:用于研究土地资产文档图像的特征提取与识别
  • 光学字符识别(OCR):可作为OCR模型训练或测试数据,尤其是含噪声图像的文本提取
  • 数据结构化处理:探索非结构化文档图像向结构化文本数据转换的方法
  • 土地管理数字化研究:为土地资产文档数字化、信息化管理提供数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 551.38 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。