数据集概述
本数据集为IMTVault,主要内容是从语法描述和类型学调查文章中提取并富集的低资源语言语际标注文本。数据集由1个压缩文件构成,无训练测试、数据标签或原始处理数据的拆分,适用于低资源语言的语言学研究与资源开发。
文件详解
- 文件名称:cldf-datasets/imtvault-v1.2.zip
- 文件格式:ZIP
- 字段映射介绍:数据集以压缩包形式提供,未检测到具体命名模式,无可用的README或内容预览,未明确内部字段信息。
数据来源
Krämer, Thomas, and Sebastian Nordhoff. 2022. "IMTVault: Extracting and Enriching Low-resource Language Interlinear Glossed Text from Grammatical Descriptions and Typological Survey Articles: Proceedings of The 8th Workshop on Linked Data in Linguistics within the 13th Language Resources and Evaluation Conference." 13th Language Resources and Evaluation Conference lREC 2022, LREC 2022, Marseille, 24.06.2022.
适用场景
- 低资源语言研究: 为低资源语言的语法分析、语际标注文本构建提供基础数据。
- 语言学类型学分析: 支持从类型学角度研究低资源语言的结构特征与共性规律。
- 语言资源开发: 用于低资源语言语料库的扩展与富集,助力自然语言处理工具的训练。
- 学术研究参考: 作为语法描述和类型学调查的辅助数据,支撑相关语言学论文的研究与验证。