找到17个数据集

分类: 公开数据 标签: TEI标准

过滤结果
  • IN00606_Source_甘内斯伽德铭文数据

    2026年1月31日 30 83 74

    数据集概述 本数据集为编号IN00606的甘内斯伽德铭文(DHRUVASENA I 207)的XML格式数字化数据,包含一份TEI标准的XML文件,用于记录该历史铭文的内容与元数据,支持铭文研究与数字化存档。 文件详解 文件名称:IN00606_TEI.xml 文件格式:XML...
    packageimg
  • HTRD_Based_15世纪德语散文文本重用检测评估数据集

    2026年1月29日 30 163 19

    数据集概述 本数据集为15世纪德语散文文本重用检测(HTRD)的评估集,包含两篇采用TEI标准标注的文本:《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接,文本为里普利安方言,存在拼写变体及手写文本识别(HTR)转录错误,适用于历史文本重用检测方法的评估。 文件详解...
    packageimg
  • Oupoco_Based_法语十四行诗库_文学创作数据

    2026年1月30日 30 151 14

    数据集概述 本数据集是Oupoco项目框架下开发的法语十四行诗库,包含四千八百七十首十四行诗,主要来自十九世纪至二十世纪初。涵盖七百六十七位作者,其中男性作者六百六十位(四千四百一十二首)、女性作者一百零七位(四百三十九首),另有十九首作者性别未明确。数据可免费复用,支持文学研究、语料库分析等多场景应用。 文件详解 文件名称:oupoco.dtd...
    packageimg
  • NICKLE_Based_韩国英语学习者中介语语料库数据

    2026年1月30日 30 15 8

    数据集概述 本数据集为NICKLE(Neungyule韩国英语学习者中介语语料库),含约100万词,包含书面和口语内容(比例约9:1),按主题和交际语境分为不同文本类型。语料库未明确标注 proficiency 水平,主要涵盖基础至中级水平,部分含高级文本,可通过来源大学名称或文本长度识别。 文件详解 文件名称:Basic statistical...
    packageimg
  • 哈布斯堡国家部长会议记录完整列表数据_1848_1867年

    2026年1月30日 30 205 5

    数据集概述 本数据集包含1848至1867年哈布斯堡国家部长会议的完整会议列表,记录了各次会议的议程项目及ISO格式日期,采用TEI listEvent标准建模。数据集共含2个XML文件,可用于研究该时期哈布斯堡国家的行政决策过程与历史事件脉络。 文件详解 会议记录文件...
    packageimg
  • IN00607_铭文碑板_DHARASENA_II_252_数字化文献数据

    2026年1月21日 30 93 72

    数据集概述 本数据集包含IN00607编号下的DHARASENA II 252铭文碑板相关数据,以XML格式存储,是一份结构化的铭文文献数字化资源,支持铭文研究领域的资料查询与分析。 文件详解 文件名称:IN00607_TEI.xml 文件格式:XML 字段映射介绍:文件为采用TEI(文本编码倡议)标准的XML文件,包含铭文碑板IN00607...
    packageimg
  • TEI_XML_OGD_苏黎世州政府决议数字化档案数据集_1887_1902

    2026年1月20日 30 200 169

    数据集概述 本数据集包含1887至1902年苏黎世州政府决议的TEI-XML文件,源自政府会议记录的转录与格式转换。数据覆盖政治决策及日常事务等广泛主题,约4万份文件,按档案原卷册结构组织,含决议元数据及正文内容,为历史研究提供结构化政府档案资源。 文件详解 主文件:TKR_RRB_1887-1902_OCR_NER.zip 文件格式:ZIP(压缩包)...
    packageimg
  • Oráculo_Manual_Source_叔本华西班牙书籍批注TEI_XML数据

    2026年1月15日 30 126 30

    数据集概述 本数据集为Schopenhauer's Library项目使用的XML-TEI格式文件,记录了哲学家叔本华在其西班牙书籍中的批注与标记信息,是研究叔本华阅读习惯及思想的原始文献资源。数据集仅包含一个文件。 文件详解 文件名称:Oraculo-Schopenhauer-Marginalia-1659.xml 文件格式:XML(TEI标准)...
    packageimg
  • Handschrift_Serrure_Based_中世纪荷兰语杂集手稿原始XML数据

    2026年1月14日 30 81 60

    数据集概述 本数据集包含中世纪荷兰语杂集Handschrift-Serrure(编号Hs. Brussel, KBR, II 144)外交版本(diplomatic edition)所基于的原始XML数据。该版本遵循Peter Boot和Herman...
    packageimg
  • IN00617_Based_Chalukya王朝Nagavardhana授予文书XML数据

    2026年1月13日 30 137 44

    数据集概述 本数据集包含Chalukya王朝Nagavardhana授予文书的XML格式数字化文件,是一份记录古代印度Chalukya王朝授予行为的历史文献资料,总计包含1个文件。 文件详解 文件名称:IN00617 TEI.xml 文件格式:XML...
    packageimg
  • Transkribus_Based_约翰_克里索斯托姆讲道手稿列表及人工转录数据_V1_2

    2026年1月13日 30 168 77

    数据集概述 本数据集包含用于Transkribus手写文本识别(HTR)训练实验的约翰·克里索斯托姆《提多书讲道》手稿列表及人工转录样本。手稿年代为10至14世纪,数据集提供CSV格式的手稿清单及TEI标准格式的XML人工转录文件,支持HTR模型训练的基础数据需求。 文件详解 文件名称:sample_dataset-chrysostomus-...
    packageimg
  • 数据7PartidasDigital_XML_TEI_Siete_Partidas法律文本编码数据

    2026年1月6日 30 209 168

    数据集概述 本数据集是对阿方索十世《七章律》(Siete Partidas)法律文本的XML-TEI编码数据,包含7个XML格式的法律文本文件和1个说明文档。《七章律》是13世纪卡斯蒂利亚王国的核心立法著作,数据集通过标准化编码保存其文本内容,支持数字人文领域的文本分析与研究。 文件详解 XML数据文件(共7个) 文件名称:SP-VA1.xml、SP-...
    packageimg
  • FrankensteinVariorum_기반_메리_셸리_프랑켄슈타인_텍스트_변이_교육용_데이터

    2026年1月3日 30 73 35

    数据集概述 本数据集是《数字人文学的引路人》第1章的教育用示例文件,包含玛丽·雪莱小说《弗兰肯斯坦》1818年初版与1831年修订版之间的文本变异,以多种数据格式结构化呈现。数据集分为“基础示例”和“深化示例”两类,共8个文件,旨在帮助学习者掌握人文学文本向计算机可分析数据的转换过程,理解数字版本基础并比较不同数据格式的特征。 文件详解...
    packageimg
  • Bombers_Baedeker_Based二战英国战略轰炸德国城镇经济重要性指南TEI完整数据1944

    2026年1月1日 30 140 97

    数据集概述 本数据集为二战期间英国外交部与经济战部联合编制的绝密情报手册《The Bomber’s Baedeker: Guide to the Economic Importance of German Towns and...
    packageimg
  • IN00604_TEI_Based_BHAUNAGAR_PLATES_DHRUVASENA_I_207_铭文_XML_数据

    2025年12月27日 30 203 66

    数据集概述 本数据集为编号IN00604的BHAUNAGAR PLATES OF DHRUVASENA I 207铭文数据,以XML格式存储,包含1个文件,无目录层级结构,未进行训练/测试、数据/标签或原始/处理等数据划分,主要用于历史铭文文献的数字化保存与研究。 文件详解 文件名称:IN00604_TEI.xml 文件格式:XML...
    packageimg
  • 苏黎世州议会法律汇编TEI_XML数据集1803_1998

    2025年12月23日 30 110 28

    数据集概述 本数据集包含瑞士苏黎世州议会1803年至1998年发布的全部法律、决议和法规文本,经转换为符合TEI标准的XML格式,作为开放政府数据(OGD)提供。数据按历史时期分为旧系列(OS AF)、新系列(OS NF)及现行系列(OS),覆盖不同治理阶段的法律文献。 文件详解 文件名称: STAZH_OGD_eOSZH_V4_NER.zip...
    packageimg
  • 开罗城市发展官方公报文献数据库1828_1914

    2025年12月8日 30 33 28

    数据集概述 该数据集是埃及政府官方公报《al-Waqāʾiʿ al-Miṣriyyah》中1828至1914年开罗城市发展相关精选文章的首个版本,包含阿拉伯语和奥斯曼土耳其语文章,均为符合TEI标准的XML标记文件。 文件详解 文件名称: Project-Cairo-Urban-...
    packageimg