找到5个数据集

标签: 历史报纸

过滤结果
  • 基于柏林国家图书馆历史报纸的OCR_OLR系统训练与评估真实数据集

    2026年1月27日 30 45 19

    数据集概述 本数据集包含柏林国家图书馆50页数字化历史报纸的真值数据,用于OCR/OLR系统的训练与评估,由欧盟ICT-PSP项目Europeana Newspapers产出。数据集含PAGE-XML格式真值文件、全分辨率及二值化扫描图像、对应OCR结果等5个压缩包,为历史报纸文本识别技术提供标准化测试资源。 文件详解 gt_page.zip...
    packageimg
  • Swinemünder_Badeanzeiger_历史报纸表格OCR人工标注数据集

    2026年1月18日 30 109 55

    数据集概述 本数据集为历史报纸《Swinemünder Badeanzeiger》表格信息提取的人工标注真值数据,按年份组织文件夹,每个年份文件夹含原始图像ID命名的子文件夹,包含分割表格图像、人工转录的结构化JSON标注及条目与表格行关联的索引JSON,另有汇总所有条目的JSON文件,用于OCR信息提取模型训练与评估。 文件详解...
    packageimg
  • HIPE_2022共享任务命名实体数据集

    2025年12月22日 30 135 46

    数据集概述 本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。 文件详解 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...
    packageimg
  • 爱沙尼亚历史报纸众包OCR校正数据集

    2025年12月11日 30 201 80

    数据集概述 该数据集包含爱沙尼亚国家图书馆DIGAR档案中的历史报纸文章及其对应的众包OCR校正内容,涵盖校正数据、统计图表及说明文档,为研究历史报纸文本数字化处理提供支持。 文件详解 文件名称: README.md,文件格式: Markdown,内容说明: 数据集说明文档,包含数据来源、预处理方法(如原始文本逆向工程、过滤规则)等核心信息。...
    packageimg
  • 多语言历史报纸命名实体识别实体链接与立场检测数据集2021

    2025年12月11日 30 181 67

    数据集概述 该数据集为多语言历史报纸资源,包含1850-1950年法语、德语、芬兰语和瑞典语的历史报纸材料,涵盖命名实体识别、实体链接及实体立场检测标注,用于开发和评估历史文档的命名实体处理系统。 文件详解 文件名称: NewsEye-GT-NER_EL_StD-v1.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg