宾夕法尼亚德语词表_词形还原与词性标注

数据集概述

该数据集包含ENDE语料库中宾夕法尼亚德语部分的词表,涵盖1761个词元及其对应的2704个词形,已完成词形还原和词性标注,为宾夕法尼亚德语的语言分析提供基础数据。

文件详解

  • 词表数据文件:
  • 文件名称:ENDE-corpus POS-annotated PDC lexicon.tsv
  • 文件格式:TSV(.tsv)
  • 字段映射:包含词元_标签(标签集A)、词形_标签(标签集B)等字段,如a'byoosa*_VV(词元及标签集A标注)、a’byoosd_vvpp(词形及标签集B标注)
  • 标签集说明文件:
  • 文件名称:tagsets A and B.pdf
  • 文件格式:PDF(.pdf)
  • 内容说明:详细介绍词性标注所使用的标签集A(词元层面)和标签集B(词形层面),基于德国STTS系统修改适配

数据来源

ENDE语料库(www.deitsch.eu)

适用场景

  • 宾夕法尼亚德语语言学研究:分析词形变化、词性分布等语言特征
  • 自然语言处理:为宾夕法尼亚德语的词性标注模型训练提供标注数据
  • 语料库语言学:支持宾夕法尼亚德语文本的词元提取、词形还原等基础分析
  • 语言资源建设:补充低资源语言宾夕法尼亚德语的标准化词表资源
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.16 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。