找到12个数据集

标签: TEI

过滤结果
  • DBNL_Based荷兰数字化图书OCR与校正文本数据集

    2026年1月30日 30 120 48

    数据集概述 本数据集包含荷兰DBNL平台数字化的220本图书的OCR相关数据,涵盖原始OCR输出文本、校正后的TEI格式文本及元数据,共3个文件,用于图书数字化文本的存储与处理。 文件详解 文件名称:Metadata_DBNL_OCR_v1.xlsx 文件格式:XLSX 字段映射介绍:包含数据集的元数据信息,具体字段未提供预览 文件名称:TXT.zip...
    packageimg
  • Blauwe_Schuit_Hs_75H57_荷兰皇家图书馆中古荷兰语手稿原始XML数据

    2026年1月13日 30 58 47

    数据集概述 本数据集包含荷兰皇家图书馆藏75 H 57号Blauwe Schuit手稿的原始XML数据,该手稿为中古荷兰语杂集。数据遵循MVN编辑指南,由荷兰皇家艺术与科学院Huygens研究所主导发布,用于支持该手稿的外交版本研究与数字化展示。 文件详解 文件名称:bs.xml 文件格式:XML...
    packageimg
  • Alpenwort_Corpus_奥地利阿尔卑斯俱乐部年鉴数字化标注语料库数据1869_1998

    2026年1月11日 30 146 26

    数据集概述 本数据集为奥地利阿尔卑斯俱乐部1869-1998年年鉴(Zeitschrift des Deutschen und Österreichischen Alpenvereins,ZAV)的数字化标注语料库,覆盖阿尔卑斯山脉探索、全球山地研究、环境保护等主题,遵循CLARIN-DARIAH标准添加元数据,助力学术研究。 文件详解...
    packageimg
  • TEI_XML_SLUB_Dresden萨克森选帝侯约翰_格奥尔格二世1673年宫廷日记数字化数据

    2026年1月7日 30 9 1

    数据集概述 本数据集为萨克森选帝侯约翰·格奥尔格二世1673年宫廷日记(SLUB Mscr.Dresd.K.117)的TEI:XML格式数字化版本,记录了1673年上半年德累斯顿宫廷的活动,重点包括节日及相关音乐演出。数据通过半自动化流程编辑,经人工核对,遵循DTABf-M标准,保留原始手写特征与语义准确性。 文件详解 文件名称:SLUB Mscr...
    packageimg
  • telota_lebenswelten_东普鲁士庄园档案社会生活世界XML_TEI数据集v1_0_0

    2026年1月4日 30 133 123

    数据集概述 本数据集包含两个数字版本的XML/TEI文件(文档、索引和模式),联合名称为“东普鲁士庄园档案中的贵族与农民生活世界”。具体涵盖18至20世纪东普鲁士Lehndorff贵族家庭的生活世界、经验空间及政治视野,以及近代农民生活世界在东普鲁士庄园档案中的反映,为研究东普鲁士社会历史提供结构化文献资源。 文件详解 文件名称:telota-...
    packageimg
  • Heber_Serrure_Based_赫伯_塞吕尔抄本_根特大学图书馆_Ms_1374_原始XML数据

    2026年1月1日 30 72 47

    数据集概述 本数据集包含赫伯-塞吕尔抄本(根特大学图书馆 Ms.1374)的原始XML数据,该抄本是14世纪末的中世纪荷兰语杂集,内容以伦理和说教类韵文为主,推测编纂于比利时赫恩加尔都西会修道院。数据遵循MVN指南(基于TEI),支持对抄本文献学特征、文本内容及编纂过程的研究。 文件详解 文件名称:hbsr.xml 文件格式:XML...
    packageimg
  • TEI_XML_Moravian_See_Voyages_Travel_Diaries_Text_Data

    2025年12月31日 30 146 82

    数据集概述 本数据集包含六份摩拉维亚海航行日记的TEI/XML格式文件,记录了不同年份的航行文本内容,可用于历史航行记录的文本分析与研究,支持自然语言处理相关任务。 文件详解 数据文件 文件名称:1753Text.xml、1742Text.xml、1749Text.xml、1761Text.xml、1746Text.xml、1752Text.xml...
    packageimg
  • TEI编码数字版本通用处理与呈现数据集

    2025年12月18日 30 85 33

    数据集概述 本数据集为2014年TEI会员会议报告的基础资料,聚焦TEI编码数字版本的处理与呈现问题。通过分析现有编码文本的元素使用情况,探讨基于文本类型和编码目的实现通用呈现的可能性,为TEI文本互操作性研究提供数据支持。 文件详解 该数据集包含四类文件,具体说明如下: - HTML文件(共5个): -...
    packageimg
  • 范妮_门德尔松致威廉_亨塞尔书信转录数据集

    2025年12月14日 30 121 29

    数据集概述 本数据集包含范妮·门德尔松致丈夫威廉·亨塞尔的122封书信转录内容,源自柏林国家图书馆的两文件夹藏品,共250页、2240行文本,以PAGE、ALTO及基础TEI格式存储,支持历史书信研究与手写文本识别模型训练。 文件详解 文件名称:1878144588.zip、1878121294.zip 文件格式:ZIP压缩包...
    packageimg
  • WeGA数据包裹_Carl_Maria_von_Weber全集数字版

    2025年12月14日 30 32 30

    数据集概述 本数据集是Carl-Maria-von-Weber全集(Carl-Maria-von-Weber-Gesamtausgabe)的数字版,包含TEI和MEI格式文档。数据从内部WeGA TEI格式转换而来,符合TEI_all和mei_all标准,保留全部信息,内部引用通过URI实现。 文件详解...
    packageimg
  • 数据18世纪法国小说数据集1751_1800

    2025年12月14日 30 181 131

    数据集概述 该数据集包含1751至1800年间创作或首次出版的200部18世纪法国小说的数字化文本,以TEI/XML格式存储,同时提供精简版和扩展版TSV元数据文件,为法国文学研究提供结构化的文本资源。 文件详解 核心文件: roman18-novels_and_scripts.zip:压缩文件,包含所有TEI/XML格式的小说文本及相关脚本...
    packageimg
  • Softcite数据集_研究出版物中的软件提及标注数据集

    2025年12月4日 30 202 2

    数据集概述 该数据集是研究出版物中软件提及的标注数据集,包含生物医学和经济学领域开放获取文献中的软件提及标注,涉及软件名称、版本、访问URL等信息,以TEI/XML格式存储,还包含描述数据集设计与创建过程的论文。 文件详解 文件名称:howisonlab/softcite-dataset-v1.0.zip 文件格式:ZIP压缩包 压缩包内包含:...
    packageimg