数据集概述
本数据集为“Aggadic文献中复杂引文模式自动检测”项目的研究数据,包含标注的圣经引文及相关模式数据,由海法大学团队构建。总计56个文件,含TSV格式的标注数据、JSON格式的关系层与标签集定义文件,用于支持宗教文本中圣经引文的自动识别与分析研究。
文件详解
- TSV数据文件(50个)
- 文件名称:遵循
act2i_Rabba_[版本]__[圣经卷名]_[章节]_[节].tsv模式(如act2i_Rabba_Albek__Bereshit_1_6.tsv)
- 文件格式:TSV
- 字段映射介绍:采用WebAnno TSV 3.3格式,包含BiblicalQuotation(圣经引文)、Chapter(章节)、Verse(节)、source(来源)等标注字段,以及对应的希伯来语文本内容
- JSON配置文件(5个)
- 文件名称:Relations_layer.json、Quotation Type Tagset.json、Biblical Quotation layer.json等
- 文件格式:JSON
- 字段映射介绍:定义标注关系层(含Relation标签、Governor来源、Dependent目标等特征)、引文类型标签集(含名称、描述、标签列表等属性)及引文标注层结构
- 说明文件
- 文件名称:README
- 文件格式:无扩展名
- 内容介绍:项目背景说明、数据内容概述及文件结构说明
数据来源
海法大学Hadar Miller、Tsvi Kuflik、Moshe Lavee团队的“Automatic Detection of Complex Quotation Patterns in Aggadic Literature”项目
适用场景
- 宗教文本引文自动识别:基于标注数据训练模型,实现Aggadic文献中圣经引文的自动检测与定位
- 引文模式分析:通过标注的引文类型与关系数据,研究宗教文本中圣经引文的使用模式与结构特征
- 宗教文献数字化:为圣经相关宗教文献的数字化标注与语义分析提供基础数据支撑
- 自然语言处理模型训练:作为宗教文本领域特定任务的训练数据,优化引文识别模型性能