-
eBL_Based_楔形文字符号OCR识别结果数据
2026年1月31日 30 131 122
数据集概述 本数据集是电子巴比伦图书馆团队通过OCR模型对eBL平台约七万五千张楔形文字泥板照片进行识别的结果。尽管设置了高阈值以提升准确率,仍提取出约一百二十二万四千一百零九个符号。数据集包含一个JSON文件,无目录结构,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:eBL_OCRed_Signs.json 文件格式:JSON...
-
ILO_SR_Based_国际劳工局20世纪历史研究报告英文文本数据
2026年1月23日 30 193 102
数据集概述 本数据集收录国际劳工局20世纪历史研究报告的英文文本集合,基于ILO-SR系列原始文档创建。包含251个文件,主要为文本文件,可用于非商业研究,使用需注明国际劳工局为原始来源。 文件详解 文本文件(.txt) 文件名称:如ILO-SR_F5_engl.pdf.txt、ILO-SR_NS49_engl.pdf.txt等(共249个)...
-
Okralact_Tesseract_Based_OCR引擎训练模型数据
2026年1月22日 30 151 138
数据集概述 本数据集为基于Okralact训练的Tesseract OCR引擎模型,包含模型文件与元数据文件,字符错误率为1.24%。数据集共2个文件,无目录层级,主要文件类型为ZIP压缩包和JSON,可用于OCR识别相关的模型部署与性能分析。 文件详解 metadata.json 文件格式:JSON...
-
Wayback_Based_1990年代末2000年代初中英文网页横幅广告数据集
2026年1月15日 30 173 99
数据集概述 本数据集包含1990年代末至2000年代初中英文网页上的22,915个独特横幅广告图像信息,数据从Wayback Machine存档的1,384,355个网页快照中提取,覆盖77,747个独特HTTP URL,URL来源于1999-2001年中美6本印刷互联网目录书籍,支持多学科研究。 文件详解...
-
SurveySet_OCR与OMR问卷数字化数据集
2025年12月20日 30 149 111
数据集概述 该数据集为SurveySet,是基于真实客户体验问卷构建的数据集,用于支持统一OCR-OMR模型的开发与评估。包含手写数字、勾选标记、叉号、部分填充气泡等文本与视觉输入类型,反映实体问卷的多样性与结构变异性。 文件详解 文件名称: SurveySet.zip 文件格式: ZIP压缩包 内容说明:...
-
阿尔马达_罗德里格斯家族历史文献综合分析系统数据集1877_1934
2025年12月18日 30 133 13
数据集概述 该数据集为阿尔马达·罗德里格斯家族1877-1934年历史文献的综合分析系统,包含OCR识别、系谱分析与统计验证功能,处理后文献达6.5σ验证水平与9.5/10质量,支持自动图像提取、系谱分析及LaTeX科学报告生成。 文件详解 文件名称: sistema_integrado_final_simple.zip 文件格式: .zip(压缩包)...
-
电子烟内容警告标签检测数据集
2025年12月11日 30 21 10
数据集概述 该数据集包含用于检测社交媒体平台(TikTok和YouTube)电子烟内容中警告标签的脚本与工作流程文档。核心内容围绕数据收集、视频处理、OCR识别、语言检测及规则分类器构建展开,为电子烟内容合规性分析提供技术实现框架。 文件详解 文件名称: Detecting-Warning-Labels-on-E-Cigarette-Content-...



