-
Adressbuch_1854_Paris_German_Migrants_Directory_Data_v2
2025年12月28日 30 75 60
数据集概述 本数据集源自1854年F-A. Kronauge所著《巴黎德国移民名录》,包含1854年巴黎及周边地区德国移民的地址与身份信息。数据经数字化处理,提供高/标准质量扫描页、OCR文本及结构化JSON/XML/CSV/SQL数据文件,2022年12月更新至v2版本,2025年3月优化OCR识别质量,支持历史移民研究与数字化分析。 文件详解...
-
Curated_Courier_Based_UNESCO_Courier全刊数字文本语料库_1948_2020
2025年12月27日 30 74 49
数据集概述 本数据集为UNESCO Courier杂志1948-2020年全刊的数字文本语料库,包含文章级和期刊级两种语料。文章级语料提取并重构所有英文文章文本,关联元数据索引;期刊级语料基于UNESCO PDF档案通过OCR生成,平均错误率约0.7%,支持数字文本分析。 文件详解 curated_courier_article_corpus.zip...
-
ICDAR2019后OCR文本校正竞赛数据集
2025年12月19日 30 72 8
数据集概述 该数据集为ICDAR2019后OCR文本校正竞赛的语料库,包含约2200万字符的OCR文本及对应标准文本(GS),源自法国国家图书馆、大英图书馆等机构的数字馆藏,用于训练和评估后OCR文本校正方法。 文件详解...
-
数据16世纪意大利古籍历时性分析方法论及核心概念语义变迁追踪数据集
2025年12月12日 30 203 26
数据集概述 该数据集包含16世纪意大利古籍的OCR文本及样本图像,用于支撑历时性分析方法论研究,追踪16世纪意大利思想辩论中核心概念的语义变迁。数据集包含压缩包文件、文本文件和图像文件,文本来源标注于文件首行,当前提供部分文档样本及初始页图像。 文件详解 压缩包文件:...
-
BNE_Based_PastReader_2025_历史报刊数字化完整数据
2025年12月8日 30 116 105
数据集概述 该数据集用于IberLEF 2025的PastReader 2025共享任务,基于西班牙国家图书馆数字化的公共领域历史报刊生成,包含训练、开发、测试三类压缩文件,支持相关历史文本处理任务研究。 文件详解 文件名称:train.zip 文件格式:ZIP压缩文件 说明:训练集压缩包,具体内容未提供预览 文件名称:dev.zip...
-
数据19世纪美国报纸照片预测图像数据集
2025年12月5日 30 65 33
数据集概述 该数据集包含从美国国会图书馆Chronicling America馆藏报纸中提取的图像,这些图像被预测为照片,并标注有“人类”“动物”“人类结构”“景观”四类标签,为历史报纸视觉内容的计算机视觉研究提供基础数据。 文件详解 图像文件: images.zip:ZIP格式压缩包,包含数据集中的所有图像文件 元数据文件: newspaper-...
-
孟加拉语社交媒体文本情感分析数据集BengaliSocialMediaTextSentimentAnalysis-rakibullah
2025年4月29日 30 38 15
孟加拉语社交媒体文本情感分析数据集BengaliSocialMediaTextSentimentAnalysis-rakibullah 数据来源:互联网公开数据 标签:情感分析, 文本分类, 孟加拉语, 社交媒体, OCR文本, 恶意内容检测, 机器学习, 自然语言处理 数据概述:...



