找到2个数据集

标签: 古籍文本

过滤结果
  • TPDL_2020_Based_古籍OCR噪声命名实体识别评估基准数据

    2026年1月26日 30 202 73

    数据集概述 本数据集为古籍命名实体识别(NER)评估基准数据,基于CoNLL-02(西班牙语、荷兰语)和CoNLL-03(英语)NER语料库,通过模拟OCR噪声生成多语言含噪文本,包含原始文本转图像、添加扫描噪声、Tesseract OCR提取及文本对齐等处理环节,用于评估OCR质量对NER任务的影响。 文件详解 文件名称:ner_dataset-...
    packageimg
  • BiblicalNamesCorpus_Source_希腊新约圣经人名变体研究语料库

    2026年1月14日 30 97 79

    数据集概述 本数据集为希腊新约圣经人名语料库,包含不同手稿中人名的拼写变体、屈折变化及提及情况,支持通过定量分析(远读)识别文本的添加、遗漏或其他变体模式,为近读研究提供假设依据。数据集含8个文件,覆盖JSON和CSV两种格式。 文件详解 数据文件(共8个,含4个JSON文件、4个CSV文件)...
    packageimg