数据16世纪意大利古籍历时性分析方法论及核心概念语义变迁追踪数据集

该数据集包含16世纪意大利古籍的OCR文本及样本图像，用于支撑历时性分析方法论研究，追踪16世纪意大利思想辩论中核心概念的语义变迁。数据集包含压缩包文件、文本文件和图像文件，文本来源标注于文件首行，当前提供部分文档样本及初始页图像。

压缩包文件：
corpus.zip：压缩包格式，包含来自BNF（gallica文件夹）和archive.org（internetarchive文件夹）的16世纪意大利古籍OCR文本，每个文本文件首行标注来源URL；文档内页面顺序可能与源文件不同，但每页行序保留；压缩包受密码保护，将随同名研究论文发表公开。
文本文件：
t1qg2bc5n.txt、bpt6k585787.txt、bpt6k601532.txt：共三个TXT格式文件，为古籍OCR文本内容
图像文件：
t1qg2bc5n.jpeg、bpt6k585787.jpeg、bpt6k601532.jpeg：共三个JPEG格式文件，为对应文档初始页的图像样本

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	465.63 MiB
最后更新	2025年12月12日
创建于	2025年12月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。