找到2个数据集

标签: TesseractOCR

过滤结果
  • Tesseract_Based_阿尔萨斯方言OCR训练模型数据集

    2026年1月28日 30 132 80

    数据集概述 本数据集包含为阿尔萨斯方言开发的两个Tesseract OCR训练模型,由法国ANR资助的RESTAURE项目生成。模型分别针对Tesseract 3.0x和4.0x版本训练,基于不同训练文本和方法构建,配套字典数据来自多类阿尔萨斯语料库与词典,可用于阿尔萨斯方言文本的光学字符识别。 文件详解 ISKO_2015.zip 文件格式:ZIP...
    packageimg
  • TPDL_2020_Based_古籍OCR噪声命名实体识别评估基准数据

    2026年1月26日 30 122 101

    数据集概述 本数据集为古籍命名实体识别(NER)评估基准数据,基于CoNLL-02(西班牙语、荷兰语)和CoNLL-03(英语)NER语料库,通过模拟OCR噪声生成多语言含噪文本,包含原始文本转图像、添加扫描噪声、Tesseract OCR提取及文本对齐等处理环节,用于评估OCR质量对NER任务的影响。 文件详解 文件名称:ner_dataset-...
    packageimg