REVERINO_Based_中世纪教宗文献摘要与全文配对数据_训练基准

数据集概述

本数据集包含四千五百三十三对拉丁regesta(摘要)与对应的中世纪教宗文献全文,源自MGH和Auvray两个历史文献集,覆盖1216至1268年教宗文献。数据支持拉丁文本摘要研究与大语言模型自动摘要工具开发,可作为大语言模型处理中世纪拉丁文本的性能评估基准。

文件详解

  • 数据文件(共9个)
  • 文件名称:遵循escriptorium_[来源]_[卷标识].json模式(例如:escriptorium_auvray_3b.jsonescriptorium_mgh_2.json
  • 文件格式:JSON
  • 字段映射介绍:每个文件包含文档对象数组,单个文档对象字段包括numero(唯一标识)、header(文档标题/日期/地点)、regesto(摘要字符串数组)、testo esteso(全文字符串数组)、apparato(元数据/参考文献字符串数组)
  • 说明文件(共1个)
  • 文件名称:README.md
  • 文件格式:MD
  • 内容介绍:数据集概述、来源说明、使用场景及许可信息

数据来源

MGH《13世纪教宗文献选辑(1216-1268)》、Auvray《格列高利九世教宗登记簿(1227/41)》

适用场景

  • 拉丁文本摘要模型训练: 利用摘要与全文配对数据训练大语言模型的自动摘要能力
  • 中世纪文献数字化研究: 分析教宗文献的文本结构与历史信息提取方法
  • 大语言模型性能评估: 作为基准数据集测试模型处理中世纪拉丁文本的效果
  • 历史文献元数据挖掘: 通过apparato字段研究中世纪教宗文献的参考文献体系
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 13.51 MiB
最后更新 2026年1月22日
创建于 2026年1月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。