哥廷根印度语言电子文本注册吠陀数据集

数据集概述

本数据集是哥廷根印度语言电子文本注册(GRETIL)中关于吠陀(VEDA)的电子文本集合,包含37个HTML格式文件,主要为吠陀相关文本内容,未划分训练测试集、数据标签或原始/处理数据,为印度语言及吠陀文本研究提供基础资料。

文件详解

该数据集包含37个HTML格式文件,具体说明如下: - 文件类型: 所有文件均为.htm格式,占比100% - 文件示例: rvpp_06u.htm、rv_09_u.htm、rv_hn04u.htm、samavedu.htm、rvpp_03u.htm、rv_02_u.htm、rv_01_u.htm、rvpp_10u.htm等 - 结构特点: 无目录层级(目录深度为0),无明显命名模式,未提供文件内容预览

适用场景

  • 印度语言研究: 用于分析吠陀文本的语言特征、语法结构及词汇演变
  • 吠陀文献研究: 为吠陀经典文本的数字化整理、内容分析提供原始电子文本资源
  • 数字人文研究: 可作为印度古典文献数字化保存与传播的案例数据
  • 语言学教学: 适用于印度古典语言或宗教文献相关课程的文本素材支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 11.98 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。