Lausanne_Based_19世纪人口普查手写文本识别训练数据集_2023版

数据集概述

本数据集包含三万四千九百一十三条人工转录的文本片段,用于历史文献(如人口普查表格)的手写文本识别训练。数据基于瑞士洛桑市1805至1898年的八十九页人口普查档案,主要语言为法语,含部分日耳曼姓名及地名。

文件详解

  • README.md
  • 文件格式:MD
  • 字段映射介绍:包含数据集作者、机构、发布日期、描述等元信息
  • Images.zip
  • 文件格式:ZIP(含JPEG)
  • 字段映射介绍:按“yyyy-ppp-n”命名的图像文件,对应每条文本片段的手写内容,y为普查年份,p为页码
  • Transcriptions.zip
  • 文件格式:ZIP(含TXT)
  • 字段映射介绍:与图像对应的人工转录文本文件,采用Bentham数据集格式存储

数据来源

瑞士洛桑市档案馆(Archives of the City of Lausanne)

适用场景

  • 手写文本识别模型训练: 用于开发和优化历史文献场景下的手写文本识别算法
  • 历史人口普查数字化: 支持19世纪洛桑人口普查档案的自动转录与数字化处理
  • 历史语言学研究: 分析19世纪法语手写文本特征及日耳曼姓名地名的书写习惯
  • 数字人文技术评估: 作为手写文本识别算法的基准测试数据集,验证模型性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 156.61 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。