数据集概述
本数据集为中古高地德语参考语料库(ReM),包含1050–1350年间的转录标注文本,规模约200万词形。文本经数字化处理,标注有词性、形态和词元等信息,支持历史语言学及相关研究。ISLRN编号332-536-136-099-5,含3个文件。
文件详解
- 归档文件组(archive_files)
- 文件名称:rem-corralled-20161222.zip
- 文件格式:ZIP
- 字段映射介绍:压缩归档文件,推测包含中古高地德语核心语料内容及基础标注数据
- 文件名称:rem-lesetexte-20161221.zip
- 文件格式:ZIP
- 字段映射介绍:压缩归档文件,推测包含中古高地德语阅读文本相关数据
- 其他文件组(other_files)
- 文件名称:rem-corralled-20161222.tar.xz
- 文件格式:TAR.XZ
- 字段映射介绍:高压缩比归档文件,推测为核心语料的备份或补充版本
适用场景
- 历史语言学研究: 分析1050–1350年中古高地德语的词汇、语法和形态特征演变
- 语料库语言学分析: 基于词性、词元等标注数据,开展中古高地德语的句法结构与语用研究
- 数字人文资源开发: 作为中古高地德语数字化文本资源,支持历史文献的智能检索与挖掘应用
- 语言教学参考: 为中古高地德语教学提供标准化的标注语料示例,辅助语法与词汇教学