数据集概述
本数据集为希腊新约圣经人名语料库,包含不同手稿中人名的拼写变体、屈折变化及提及情况,支持通过定量分析(远读)识别文本的添加、遗漏或其他变体模式,为近读研究提供假设依据。数据集含8个文件,覆盖JSON和CSV两种格式。
文件详解
- 数据文件(共8个,含4个JSON文件、4个CSV文件)
- 文件名称:manuscripts.json、verses.csv、occurrences.json、manuscripts.csv、words.csv、occurrences.csv、verses.json、words.json
- 文件格式:JSON、CSV
- 字段映射介绍:
- verses.csv:含bkv、edition_date、ga、lection、text、verse_id等字段,记录经文的版本、文本内容、见证手稿及经文ID等信息
- manuscripts.csv:含ga、source、docID、century、label等字段,记录手稿的来源、年代、标签及DBpedia关联信息
- manuscripts.json:采用JSON-LD格式,含@context、name、contentUrl、license、author等元数据字段
- occurrences.json:采用JSON-LD格式,含@context、distribution、variableMeasured等元数据字段
适用场景
- 圣经文本变体研究: 分析不同手稿中人名的添加、遗漏及拼写变体模式
- 自然语言处理应用: 基于人名语料库开展古籍文本的命名实体识别、拼写归一化研究
- 宗教文献数字化: 为希腊新约圣经手稿的数字化整理提供结构化人名数据支持
- 文献学假设验证: 通过定量分析发现的变体模式,辅助近读研究提出新假设
- 手稿版本溯源: 结合手稿元数据与人名出现情况,探究不同版本的传承关系