数据集概述
本数据集源自1854年F-A. Kronauge所著《巴黎德国移民名录》,包含1854年巴黎及周边地区德国移民的地址与身份信息。数据经数字化处理,提供高/标准质量扫描页、OCR文本及结构化JSON/XML/CSV/SQL数据文件,2022年12月更新至v2版本,2025年3月优化OCR识别质量,支持历史移民研究与数字化分析。
文件详解
- 扫描文件
- 文件名称:HD.zip、SD.zip
- 文件格式:ZIP(含图片文件)
- 字段映射介绍:HD.zip为书籍高清扫描页,SD.zip为标准质量扫描页,记录名录原始视觉内容
- 图片元数据文件
- 文件名称:pics_metadata.csv
- 文件格式:CSV
- 字段映射介绍:包含图片尺寸、DPI等元数据信息
- OCR文件
- 文件名称:OCR.zip、ocr_v2.zip
- 文件格式:ZIP(含文本文件)
- 字段映射介绍:OCR.zip为原始文本提取文件,ocr_v2.zip为2025年优化后版本,提升Fraktur与拉丁脚本混合识别精度
- 结构化数据文件(v2版本)
- 文件名称:adressbuch1854_v2.json、adressbuch1854_v2.xml、adressbuch1854_v2.csv
- 文件格式:JSON、XML、CSV
- 字段映射介绍:分别以JSON、XML、CSV格式存储提取的结构化移民数据,包含名录核心信息
- 数据库文件
- 文件名称:adressbuch1854.sql.zip、adressbuch1854_v2.sql
- 文件格式:ZIP、SQL
- 字段映射介绍:adressbuch1854.sql.zip为网站关联MySQL数据库原始压缩包,adressbuch1854_v2.sql为v2版本数据库文件
数据来源
F-A. Kronauge《Adreßbuch der Deutschen in Paris für das Jahr 1854》(1854),原始文献链接:https://bibliotheques-specialisees.paris.fr/ark:/73873/pf0000884072
适用场景
- 历史移民研究:分析1854年巴黎德国移民的分布特征、职业构成与社会网络
- 数字人文研究:利用OCR文本与结构化数据开展19世纪移民文献的数字化分析
- 城市历史地理研究:结合地址信息还原19世纪巴黎德国移民的空间分布规律
- 历史数据可视化:通过结构化数据构建移民信息可视化平台或交互式地图
- 文本识别技术优化:基于Fraktur脚本OCR数据,开展历史文献字符识别算法的改进研究