数据集概述
该数据集包含古撒克逊语福音书《Heliand》C手稿的五千九百六十八行内容,采用Sievers(一八七八年)版本,相比Behaghel标准版更适合语言学研究。数据集以UTF-8纯文本格式设计,遵循Penn历史英语语料库格式,支持CorpusSearch 2程序检索,包含文本、韵律、词形还原、词性形态及句法解析等多层面标注,总规模四万六千零六十七词。
文件详解
- 文件名称: HeliPaD-manual.pdf
- 文件格式: PDF (.pdf)
- 内容说明: 可能为数据集使用手册,提供关于语料库结构、标注规则及检索方法的说明文档
- 文件名称: heliand.psd
- 文件格式: PSD (.psd)
- 内容说明: CorpusSearch 2程序专用的结构化语料库文件,包含文本行、手稿页码、版本页码、韵律停顿、词形、词性、形态及句法解析等多维度标注数据
适用场景
- 历史语言学研究: 分析古撒克逊语的句法结构、词形变化及韵律特征
- 语料库语言学分析: 利用标注数据进行语法模式、词汇分布及文本结构的定量研究
- 中世纪文学研究: 探究《Heliand》文本的手稿特征与版本差异
- 计算语言学应用: 为古英语相关的自然语言处理模型训练提供历史语料支持