-
HTRD_Based_15世纪德语散文文本重用检测评估数据集
2026年1月29日 30 48 1
数据集概述 本数据集为15世纪德语散文文本重用检测(HTRD)的评估集,包含两篇采用TEI标准标注的文本:《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接,文本为里普利安方言,存在拼写变体及手写文本识别(HTR)转录错误,适用于历史文本重用检测方法的评估。 文件详解...
-
HTR_Based_中世纪拉丁及法语手稿文档识别模型数据集
2026年1月30日 30 10 3
数据集概述 本数据集用于训练和评估适用于拉丁及法语中世纪文档手稿的手写文本识别(HTR)模型,包含12-15世纪的宪章、登记簿等手稿数据,涉及1855页、12万行文本及近100万字符,整合了Alcar-HOME、e-NDP、Himanis三个开源真实语料库,支持多语言多字体识别,可用于中世纪文献的数字化处理。 文件详解 GT_list:...
-
Gado2_Based_荷属东印度群岛多语言报纸手写文本识别标注数据集
2026年1月26日 30 98 58
数据集概述 本数据集包含Gado2命名实体处理应用的手写文本识别(HTR)标注数据,覆盖荷属东印度群岛及印度尼西亚的多语言报纸。因扫描质量问题,光学字符识别(OCR)错误率较高,而HTR将字符错误率(CER)降至0.5%以下,提升了命名实体识别(NER)效率。数据集含41个文件,包括无错误的全标注文件及印尼实体知识库。 文件详解...
-
GreetingsFrom_Based历史明信片地址转录数据集2023
2026年1月22日 30 78 70
数据集概述 本数据集包含500张具有历史意义的明信片背面的地址转录数据,覆盖比利时、法国、德国、卢森堡、荷兰和英国六个国家。数据集提供人类标注的Ground Truth(GT)和手写文本识别(HTR)两种转录版本,用于历史明信片地址信息的提取研究。 文件详解 GreetingsFrom_GT.zip 文件格式:ZIP...
-
SyntheticHTR_Based_潜在扩散模型合成IAM手写文本图像数据
2026年1月20日 30 177 106
数据集概述 本数据集包含基于潜在扩散模型生成的合成IAM手写文本图像数据,属于SyntheticHTR项目的成果。数据集共2个文件,无目录结构,主要包含合成图像压缩包和对应的真实标签文本文件,用于手写文本识别相关研究与应用。 文件详解 best_synthetic_IAM.zip 文件格式:ZIP...
-
Hofdiarium_1665_Based德累斯顿宫廷日记库兰特手写体基准数据集
2026年1月19日 30 2 0
数据集概述 本数据集为17世纪萨克森库兰特手写体的手写文本识别(HTR/OCR)基准数据集,包含《选帝侯约翰·格奥尔格二世1665年宫廷日记》(SLUB Mscr.Dresd.K.80)的10页(fol.85r-89v)基准数据,采用eScriptorium完成图像与文本对齐,提供多种格式文件及转录指南。 文件详解 压缩包文件...
-
HTR_Winter_School_2023_2024_加洛林拉丁语手稿转录基准数据
2026年1月18日 30 126 28
数据集概述 本数据集是HTR Winter School 2023/2024加洛林拉丁语小组发布的转录基准数据,包含维也纳奥地利国家图书馆Cod. 473(《教皇史》部分内容)和Cod. 1239(带注释的保罗书信)的转录文本,分为带注释和不带注释两种版本,并提供Cod. 473的对应图像文件,遵循Tim Geelhaar的加洛林小写字母转录规范。...
-
TRIDIS_Based_中世纪与近代早期多语言手稿手写文本识别模型数据11th_16th
2026年1月17日 30 15 11
数据集概述 本数据集包含TRIDIS手写文本识别(HTR)模型相关文件,该模型针对11-16世纪中世纪与近代早期多语言(拉丁语、古法语、古西班牙语)手稿设计,适用于法律、行政等纪实类手稿及文学、学术文献。数据集含模型文件与元数据,支持历史文本数字化与分析。 文件详解 文件名称:metadata.json 文件格式:JSON...
-
Transkribus_Scholarship_Based_数字人文平台研究多样性评估数据集
2026年1月17日 30 53 45
数据集概述 本数据集为Transkribus奖学金项目(2020年11月至2022年3月)的匿名化自动邮件数据,旨在支持手写文本识别(HTR)相关研究,涉及学生、工作坊负责人及青年研究人员(ECRs)。数据用于分析数字人文平台是否促进研究多样性,仅包含一个文件。 文件详解 文件名称:Anonymised Transkribus Scholarship...
-
Lausanne_Based_19世纪人口普查手写文本识别训练数据集_2023版
2026年1月15日 30 162 32
数据集概述 本数据集包含三万四千九百一十三条人工转录的文本片段,用于历史文献(如人口普查表格)的手写文本识别训练。数据基于瑞士洛桑市1805至1898年的八十九页人口普查档案,主要语言为法语,含部分日耳曼姓名及地名。 文件详解 README.md 文件格式:MD 字段映射介绍:包含数据集作者、机构、发布日期、描述等元信息 Images.zip...
-
Transkribus_HTR_Software_遗产语境手写文本识别技术应用分类数据
2026年1月14日 30 1 0
数据集概述 本数据集为系统综述论文的附录A,记录了所有提及手写文本识别(HTR)软件Transkribus的分类研究成果,支撑“遗产语境下手写文本识别技术应用”主题的系统性分析,包含1份文档文件。 文件详解 文件名称:Appendix A - Understanding the application of Handwritten Text...
-
Transkribus_Based_约翰_克里索斯托姆讲道手稿列表及人工转录数据_V1_2
2026年1月13日 30 170 54
数据集概述 本数据集包含用于Transkribus手写文本识别(HTR)训练实验的约翰·克里索斯托姆《提多书讲道》手稿列表及人工转录样本。手稿年代为10至14世纪,数据集提供CSV格式的手稿清单及TEI标准格式的XML人工转录文件,支持HTR模型训练的基础数据需求。 文件详解 文件名称:sample_dataset-chrysostomus-...
-
Corpus_Litterarum_Source_e_codices拉丁手稿字符标注数据集
2026年1月12日 30 200 192
数据集概述 本数据集是基于e-codices提供的Codices Sangallenses CSG 11和CSG 70两份拉丁手稿构建的行级字符标注数据集。包含2152行图像及44407条字符级标注(共73类),涵盖标准拉丁字母、缩写及抄写符号,采用半自动标注流程。数据按预定义的训练/验证/测试集划分,支持古文字学、手写文本识别及字符分割研究。...
-
UBL000049211_基于荷兰乌得勒支省及城市1728年前法令集的转录数据_纠缠的历史项目
2026年1月12日 30 176 112
数据集概述 本数据集为荷兰乌得勒支省及城市法令集的转录数据,源自1729年出版的《Groot placaatboek》第二卷,收录了乌得勒支省议会及乌得勒支市市长与市议会至1728年的所有法令、条例和敕令。数据由乌得勒支大学图书馆藏本转录而来,是研究荷兰乌得勒支地区早期法律与行政历史的重要文献资料。 文件详解 文件名称:UBL000049211.zip...
-
HTR_Grounded_Theory_Method_手写文本识别对历史方法影响的识别文献列表数据
2026年1月6日 30 208 92
数据集概述 本数据集为附录A文件,通过扎根理论方法(GTM)识别出与手写文本识别(HTR)对历史方法及更广泛信息环境的当前和近期影响相关的文献列表,支撑《手写文本识别对规模化获取历史的影响》的研究成果。 文件详解 文件名称:Appendix A - Items Identified in Thematic Study.docx 文件格式:DOCX...
-
HTR_2023_2024_年冬季学校_维也纳国家图书馆_ONB_3891_号中世纪拉丁语手稿转录数据
2026年1月3日 30 55 37
数据集概述 本数据集为2023/2024年维也纳HTR手写文本识别冬季学校产出的中世纪晚期拉丁语手稿底本数据,对应维也纳国家图书馆(ÖNB)Cod....
-
UBA000159630_Entangled_Histories_荷兰共和国多省法令汇编转录数据_1705
2025年12月31日 30 156 140
数据集概述 本数据集为1705年出版的荷兰共和国法令汇编《Groot placaet-boeck》的转录数据,收录荷兰省、西弗里西亚省和泽兰省的法令、条例及敕令。基于阿姆斯特丹大学图书馆藏本转录,由KB荷兰皇家图书馆数字化,用于历史法律文献研究。 文件详解 文件名称:UBA000159630.zip 文件格式:ZIP...
-
德累斯顿宫廷日记1673年手写文本识别基准数据集
2025年12月19日 30 156 100
数据集概述 本数据集包含1673年《德累斯顿选帝侯约翰·格奥尔格二世宫廷日记》的二十页手写文本基准数据,采用17世纪末萨克森典型楷书体书写,偶见混合字体。提供与原始图像对齐的转录文本及元数据,支持手写文本识别模型训练与评估。 文件详解 该数据集包含三类文件,具体说明如下: - 图像文件(20个): - 文件格式:JPG(.jpg) -...
-
人机协同文化遗产收藏共创工作坊报告
2025年12月22日 30 180 124
数据集概述 本数据集为一份工作坊报告,聚焦机器学习技术(如手写文本识别)在文化遗产众包项目中的应用,探讨人机协同模式下的任务设计、志愿者动机维护及数据生产支持等议题,旨在推动相关讨论。 文件详解 数据集包含一个PDF格式的文档文件,具体如下: - 文件名称: TNA workshop report JP_RMB-TNA.pdf - 文件格式: PDF...
-
苏格兰海关账簿手写文本识别模型V0_8
2025年12月19日 30 108 78
数据集概述 本数据集是基于Transkribus平台训练的手写文本识别(HTR)模型,训练数据来自苏格兰国家档案馆1660-1691年间的海关账簿,覆盖9个港口的631页历史文档,用于识别该时期苏格兰海洋商品出口记录。 文件详解 文件名称: Scottish customs books Training Set samples.zip 文件格式:...



