数据集概述
本数据集为梨俱吠陀的形态标注语料库,基于苏黎世大学原始标注数据修订扩展而成。包含梨俱吠陀文本的形态学、词汇学标注信息,涉及词形、格、性、数、人称、时态等语法特征,以及与格拉斯曼词典的关联参考,支持古印度语言的语言学研究。
文件详解
- 文件名称:vedaweb_zurich.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含32个结构化字段,核心字段如下:
- A "VERS_NR":诗节编号
- B "PADA_NR":诗行编号
- C "PADA_TEXT_LUBOTSKY":Lubotsky版本诗行文本
- F "FORM":词汇形式
- G-K "KASUS/GENUS/NUMERUS/PERSON/TEMPUS":格、性、数、人称、时态
- N "MODUS":语气
- O "DIATHESE":语态
- T "LEMMA_PRAESENSKLASSEN":词元现在时词干类
- Y "LEMMA_GRASSMANN_ID":格拉斯曼词典参考ID
- X "KOMMENTAR":注释(含原始数据与词典的不一致性说明)
数据来源
VedaWeb - Online Research Platform for Old Indic Texts
适用场景
- 古印度语言形态学研究: 分析梨俱吠陀词汇的格、性、数、时态等形态特征
- 历史语言学比较研究: 基于标注数据探究印欧语系语言的语法演变
- 梵语词典编纂参考: 利用格拉斯曼词典关联信息完善古梵语词汇释义
- 语料库语言学方法应用: 验证形态标注语料库在古典文本研究中的方法论价值
- 吠陀文献数字化资源建设: 为古印度文本的在线研究平台提供结构化标注数据支撑