数据16世纪意大利古籍历时性分析方法论及核心概念语义变迁追踪数据集

数据集概述

该数据集包含16世纪意大利古籍的OCR文本及样本图像,用于支撑历时性分析方法论研究,追踪16世纪意大利思想辩论中核心概念的语义变迁。数据集包含压缩包文件、文本文件和图像文件,文本来源标注于文件首行,当前提供部分文档样本及初始页图像。

文件详解

  • 压缩包文件:
  • corpus.zip:压缩包格式,包含来自BNF(gallica文件夹)和archive.org(internetarchive文件夹)的16世纪意大利古籍OCR文本,每个文本文件首行标注来源URL;文档内页面顺序可能与源文件不同,但每页行序保留;压缩包受密码保护,将随同名研究论文发表公开。
  • 文本文件:
  • t1qg2bc5n.txt、bpt6k585787.txt、bpt6k601532.txt:共三个TXT格式文件,为古籍OCR文本内容
  • 图像文件:
  • t1qg2bc5n.jpeg、bpt6k585787.jpeg、bpt6k601532.jpeg:共三个JPEG格式文件,为对应文档初始页的图像样本

适用场景

  • 历史语义学研究:追踪16世纪意大利思想辩论中核心概念的语义变迁
  • 古籍数字化方法论验证:验证历时性分析方法论在古籍OCR文本中的应用效果
  • 数字人文研究:支撑基于古籍文本的自然语言处理(NLP)分析
  • 出版史研究:分析16世纪意大利古籍的文本特征与传播规律
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 465.63 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。