数据集概述
本数据集包含四千五百三十三对拉丁regesta(摘要)与对应的中世纪教宗文献全文,源自MGH和Auvray两个历史文献集,覆盖1216至1268年教宗文献。数据支持拉丁文本摘要研究与大语言模型自动摘要工具开发,可作为大语言模型处理中世纪拉丁文本的性能评估基准。
文件详解
- 数据文件(共9个)
- 文件名称:遵循
escriptorium_[来源]_[卷标识].json模式(例如:escriptorium_auvray_3b.json、escriptorium_mgh_2.json)
- 文件格式:JSON
- 字段映射介绍:每个文件包含文档对象数组,单个文档对象字段包括
numero(唯一标识)、header(文档标题/日期/地点)、regesto(摘要字符串数组)、testo esteso(全文字符串数组)、apparato(元数据/参考文献字符串数组)
- 说明文件(共1个)
- 文件名称:
README.md
- 文件格式:MD
- 内容介绍:数据集概述、来源说明、使用场景及许可信息
数据来源
MGH《13世纪教宗文献选辑(1216-1268)》、Auvray《格列高利九世教宗登记簿(1227/41)》
适用场景
- 拉丁文本摘要模型训练: 利用摘要与全文配对数据训练大语言模型的自动摘要能力
- 中世纪文献数字化研究: 分析教宗文献的文本结构与历史信息提取方法
- 大语言模型性能评估: 作为基准数据集测试模型处理中世纪拉丁文本的效果
- 历史文献元数据挖掘: 通过
apparato字段研究中世纪教宗文献的参考文献体系