找到2个数据集

标签: 文本对齐技术

过滤结果
  • ICDAR2019后OCR文本校正竞赛数据集

    2025年12月19日 30 74 73

    数据集概述 该数据集为ICDAR2019后OCR文本校正竞赛的语料库,包含约2200万字符的OCR文本及对应标准文本(GS),源自法国国家图书馆、大英图书馆等机构的数字馆藏,用于训练和评估后OCR文本校正方法。 文件详解...
    packageimg
  • PAN14文本对齐原创性测试语料库2014

    2025年12月9日 30 79 64

    数据集概述 本数据集为PAN14任务提供的测试语料库,包含文档对数据,其中部分文档可能存在经自动混淆处理的复用文本,用于研究文本原创性检测及对齐问题。 文件详解 文件名称: pan14-text-alignment-test-corpus3-2014-05-14.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg