GRETIL_Based印度语言电子文本TEI数据集

数据集概述

本数据集为GRETIL(哥廷根印度语言电子文本注册库)的TEI格式数据,包含一百零一份印度语言电子文本文件,均为XML格式,无目录层级划分,未进行训练测试、数据标签或原始处理数据的拆分,可用于印度语言文献的数字化研究与分析。

文件详解

  • 数据文件
  • 文件名称:包含sa_bAdarAyaNa-brahmasUtra.xml、sa_avadAnazataka.xml、sa_asaGga-zarIrArthagAthA.xml等一百零一份文件
  • 文件格式:XML
  • 字段映射介绍:采用TEI(文本编码倡议)标准格式,包含印度语言电子文本的结构化内容与元数据信息
  • XML元数据文件
  • 文件数量:5份
  • 文件格式:XML
  • 字段映射介绍:记录数据集相关的元数据信息,具体字段需参考文件内容

数据来源

GRETIL - Göttingen Register of Electronic Texts in Indian Languages

适用场景

  • 印度语言文献研究:用于印度语言古典文献、宗教文本等的数字化整理与内容分析
  • TEI格式文本处理:作为TEI标准格式的语料,支持文本编码、解析与语义分析相关技术研究
  • 印度文化数字化保存:为印度语言文化遗产的电子存档与共享提供基础数据
  • 语言资源库建设:补充印度语言电子文本资源,支持多语言语料库的构建与应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 29.53 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。