找到13个数据集

格式: ZIP 标签: OCR技术

过滤结果
  • TEI_XML_OGD_苏黎世州政府决议数字化档案数据集_1887_1902

    2026年1月20日 30 65 46

    数据集概述 本数据集包含1887至1902年苏黎世州政府决议的TEI-XML文件,源自政府会议记录的转录与格式转换。数据覆盖政治决策及日常事务等广泛主题,约4万份文件,按档案原卷册结构组织,含决议元数据及正文内容,为历史研究提供结构化政府档案资源。 文件详解 主文件:TKR_RRB_1887-1902_OCR_NER.zip 文件格式:ZIP(压缩包)...
    packageimg
  • Local_Geohistory_Project_Based_康涅狄格州法律索引数据1789_1943

    2026年1月3日 30 172 163

    数据集概述 本数据集是Local Geohistory Project的一部分,旨在传播康涅狄格州的法律索引数据,涵盖1789年至1943年的私人和特殊法律。这类法律针对特定个人、实体或地区,是新英格兰地区调整市政边界和政府形式的主要方式。数据集包含一个TSV格式的法律索引文件,无法律全文或链接。 文件详解 文件名称:law-indexes-...
    packageimg
  • 新皮塔瓦尔刑事案例集1842_1890

    2025年12月22日 30 184 49

    数据集概述 本数据集是《新皮塔瓦尔》(1842-1890)刑事案例集的数字化文本语料库,包含五七百个来自不同国家、不同时期的刑事案例,共六十卷,由数字人文合作项目采用校正OCR技术处理,为相关文学语料库分析研究提供基础数据。 文件详解 该数据集主要包含一个ZIP压缩包文件,具体说明如下: - 文件名称: DerNeuePitaval_v1.2.zip...
    packageimg
  • 缅因州法律索引数据集

    2025年12月20日 30 166 68

    数据集概述 本数据集是Local Geohistory Project的一部分,旨在传播美国缅因州的法律索引数据。内容聚焦1820至1957年间的私人与特别法律,不包含法律全文或链接,因OCR技术可能存在未捕获的错误。 文件详解 文件名称: localgeohistoryproject/law-indexes-maine-v1.1.1.zip...
    packageimg
  • InftyMCCDB_2数学表达式数据集

    2025年12月18日 30 55 7

    数据集概述 该数据集是InftyCDB-2的修改版本,包含扫描文章页面中的数学表达式。原始数据含21,056个表达式,经去除矩阵和网格公式后保留19,381个,覆盖213个符号类,按符号与关系类分布划分为训练集(12,551张图像)和测试集(6,830张图像),表达式符号数量平均为7.33个。 文件详解 压缩文件包: LG_test.zip:...
    packageimg
  • 葡萄牙语发票收据图像及字段标注数据集

    2025年12月14日 30 83 17

    数据集概述 该数据集包含八百一十三张葡萄牙语的私人公司发票与收据图像,以及对应文本文件,记录了销售方名称、地址、税号、购买方税号、发票日期、总金额、税额和文档编号等关键字段的转录信息。 文件详解 1_Images.zip:压缩文件,包含所有发票与收据的图像文件,格式未提及。...
    packageimg
  • CIS_OCR工作坊早期印刷品OCR与后校正数据集

    2025年12月12日 30 91 63

    数据集概述 本数据集包含2015年在慕尼黑LMU举办的CIS OCR工作坊资料,聚焦数字人文领域早期印刷品的OCR技术与后校正方法,以压缩包形式存储,为相关技术研究提供参考资料。 文件详解 文件名称:OCR-Workshop-v1.0.zip 文件格式:ZIP压缩包...
    packageimg
  • 十诫表格_卡纳达语

    2025年12月6日 30 14 1

    数据集概述 该数据集包含以卡纳达语呈现的十诫文本,同时提供了对应的英文说明。数据以图像文件和三维模型文件形式存储,涵盖了十诫的核心内容,为研究宗教文本的多语言呈现提供支持。 文件详解 图像文件(共5个,.jpeg格式):...
    packageimg
  • 跑步比赛号码识别OCR数据集-2023-trainingdatapro

    2025年5月7日 30 48 14

    跑步比赛号码识别OCR数据集-2023-trainingdatapro 数据来源:互联网公开数据 标签:比赛号码识别,OCR技术,跑步赛事,计算机视觉,图像标注,文本检测,文本识别,马拉松,比赛号码检测,图像数据集,文本提取 数据概述:...
    packageimg
  • 越南高考考生答题卡图像与成绩数据集VietnamNationalHighSchoolExamAnswerSheetImageandScore-tuan10201

    2025年5月5日 30 97 81

    越南高考考生答题卡图像与成绩数据集VietnamNationalHighSchoolExamAnswerSheetImageandScore-tuan10201 数据来源:互联网公开数据 标签:高考, 答题卡, 图像识别, OCR, 成绩分析, 越南, 教育, 数据集 数据概述:...
    packageimg
  • FAST-NU院校指南信息提取数据集-ahmedembedded

    2025年4月23日 30 70 57

    FAST-NU院校指南信息提取数据集-ahmedembedded 数据来源:互联网公开数据 标签:FAST-NU,院校指南,OCR技术,学术项目,录取标准,课程详情,教育研究,数据科学,机器学习,信息提取 数据概述: 本数据集包含从FAST-NU(巴基斯坦国家科学技术大学基金会)院校指南中提取的文本数据,利用Tesseract...
    packageimg
  • 光学字符识别火车文本检测数据集

    2025年4月15日 30 172 14

    光学字符识别火车文本检测数据集 数据来源:互联网公开数据 标签:OCR技术,火车识别,文本检测,图像标注,计算机视觉,交通数据,铁路运输,文字识别,对象检测 数据概述:...
    packageimg
  • 匈牙利电子采购合同数据集

    2025年4月14日 30 160 114

    匈牙利电子采购合同数据集 数据来源:互联网公开数据 标签:匈牙利,电子采购,合同数据,OCR技术,文本提取,日期,价格,参与方 数据概述: 本数据集包含从匈牙利电子采购系统下载的135份合同文件,这些合同文件最初为PDF格式,后使用Tesseract...
    packageimg