数据集概述
本数据集为《Codice diplomatico toscano 2:1》的TEI XML版本,收录公元775至813年间托斯卡纳地区的原始宪章及同期副本。数据保留了与形态句法分析相关的缩写扩展、脱漏标注等外交信息,添加ChLA编号以便与摹本对比,且经Timo Korkiakangas修正。数据集含一个XML文件,无目录结构。
文件详解
- 文件名称:CDT_TEI_XML_base_text_for_LLCT.xml
- 文件格式:XML
- 字段映射介绍:采用TEI标准格式,包含原始宪章及副本的文本内容;保留与形态句法分析相关的"expan"(缩写扩展)、"damage"(脱漏标注)等标签;使用"abbr"(未扩展缩写)、"gap"(未书写空格)标签;添加ChLA编号用于摹本对比;省略行与页信息。
数据来源
Codice diplomatico toscano 2:1(原书由Filippo Brunetti编辑,1833年出版;经Google数字化,Timo Korkiakangas于2011-2012年修正)
适用场景
- 中世纪拉丁语文本分析:研究公元8-9世纪托斯卡纳地区拉丁宪章的语言特征、形态句法结构。
- 历史文献数字化研究:基于TEI XML格式,探索中世纪外交文献的标准化数字化方法。
- 托斯卡纳中世纪历史研究:通过原始宪章内容,分析该时期托斯卡纳的政治、社会与法律状况。
- 文献校勘研究:利用ChLA编号与摹本对比,开展中世纪宪章的文本校勘工作。