中古荷兰语音节划分词汇数据集

数据集概述

本数据集包含来自阿姆斯特丹自由大学Corpus Van Reenen-Mulder语料库的四万三千七百一十个中古荷兰语唯一词汇,采用短横线(-)作为音节分隔符。语料库源自1300至1400年间荷兰和佛兰德斯地区的两千五百份特许状,排除含缩写、附着词等特殊符号的词汇,为中古荷兰语音节结构研究提供基础数据。

文件详解

  • syllabified_crm.txt: TXT格式文件,包含四万三千七百一十个中古荷兰语唯一词汇,采用短横线(-)分隔音节
  • corpus_viz.pdf: PDF格式文件,用于可视化数据集内容
  • gold_syllabification_cdrom.txt: TXT格式文件,包含从Middelnederlands光盘随机抽取的一千七百四十八个中古荷兰语词汇,作为音节划分实验的金标准样本
  • splits.zip: ZIP格式压缩文件,包含Haverals, Kestemont & Karsdorp(2018)自动音节划分实验所用的数据集拆分文件

数据来源

Corpus Van Reenen-Mulder(阿姆斯特丹自由大学Pieter van Reenen与Maaike Mulder创建)

适用场景

  • 中古荷兰语语言学研究:分析中古荷兰语词汇的音节结构、构词法及演变规律
  • 自然语言处理模型训练:用于训练和评估中古荷兰语自动音节划分算法
  • 历史语料库语言学:探究1300-1400年荷兰及佛兰德斯地区书面语言特征
  • 计算语言学实验:复现或扩展中古荷兰语音节划分相关的学术实验
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.84 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。