数据集

中古荷兰语音节划分词汇数据集

数据集概述

本数据集包含来自阿姆斯特丹自由大学Corpus Van Reenen-Mulder语料库的四万三千七百一十个中古荷兰语唯一词汇，采用短横线（-）作为音节分隔符。语料库源自1300至1400年间荷兰和佛兰德斯地区的两千五百份特许状，排除含缩写、附着词等特殊符号的词汇，为中古荷兰语音节结构研究提供基础数据。

文件详解

syllabified_crm.txt: TXT格式文件，包含四万三千七百一十个中古荷兰语唯一词汇，采用短横线（-）分隔音节
corpus_viz.pdf: PDF格式文件，用于可视化数据集内容
gold_syllabification_cdrom.txt: TXT格式文件，包含从Middelnederlands光盘随机抽取的一千七百四十八个中古荷兰语词汇，作为音节划分实验的金标准样本
splits.zip: ZIP格式压缩文件，包含Haverals, Kestemont & Karsdorp（2018）自动音节划分实验所用的数据集拆分文件

数据来源

Corpus Van Reenen-Mulder（阿姆斯特丹自由大学Pieter van Reenen与Maaike Mulder创建）

适用场景

中古荷兰语语言学研究：分析中古荷兰语词汇的音节结构、构词法及演变规律
自然语言处理模型训练：用于训练和评估中古荷兰语自动音节划分算法
历史语料库语言学：探究1300-1400年荷兰及佛兰德斯地区书面语言特征
计算语言学实验：复现或扩展中古荷兰语音节划分相关的学术实验

数据与资源

2402048.zipZIP
0.84 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.84 MiB
最后更新	2025年12月13日
创建于	2025年12月13日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。