数据集概述
本数据集为法国国家图书馆法语文献24432号的TEI-XML编码数据,记录了该古籍的编码原则,包括对古籍结构、文本类型、特殊标记、文本变体等内容的编码规则,通过标准化标签实现古籍内容的结构化呈现,共包含一个XML文件。
文件详解
- 文件名称:BnF 24432 v20.xml
- 文件格式:XML
- 字段映射介绍:采用TEI-XML编码规范,包含以下核心标签映射:
- 结构标签:(分册开始)、(页码开始)、(栏开始)、(行开始)、(抄写员变更)
- 文本类型标签:(文本分隔)、(散文)、(诗节)、(诗句)、(对话组)、(说话者)、(直接引语)
- 特殊标记标签:(标签)、(边注)、(书眉/页脚)、(高亮)、(损坏)、(文本缺口)、(空白)、(表格)、(单元格)、(行)
- 文本变体标签:(缩写展开)、(添加)、(删除)、(规范)、(修正)、(冗余)、(补全)、(未展开缩写)、(原始文本)、(原文错误)、(文本变体选择)
- 实体标签:(人名)、(地名)、(日期)、(数字)
适用场景
- 古籍数字化研究:用于分析TEI-XML在中世纪古籍编码中的应用规范与实践方法
- 文献学研究:通过结构化标签解析古籍的物质形态(如分册、页码、抄写员变更)与文本内容(如散文/诗歌类型、对话结构)
- 文本变体分析:基于、、等标签研究古籍的抄写缩写、修改痕迹及文本传承过程
- 数字人文工具开发:为古籍编码工具的设计提供标准化标签映射的参考案例