皮卡德语标注语料库

数据集概述

该数据集包含25篇皮卡德语文本,经人工标注词性、词元、法语翻译及地点实体,由法国ANR资助的RESTAURE项目产出,标注流程详见指定学术文章。

文件详解

  • 文件名称: corpus_picard_restaure.zip(压缩包)
  • 文件格式: ZIP
  • 包含内容:
  • "extraits_reference_bruts"文件夹(若有): 未分词、未标注的原始文本
  • "extraits_reference_annotes"文件夹: 原始CSV格式的标注文本,含词形法语翻译、4项地点实体标注特征(Quaero类别)、2项术语构成特征
  • "picud"文件夹: CoNLL-U格式的标注文本
  • "liste_textes_distribues.csv": 文本详情表,含作者、书名、出版年份、编码、体裁、语言区域字段
  • 标注规则: 词元/法语翻译与前x个词相同标注为"IDEM-x"

数据来源

法国ANR资助的RESTAURE项目

适用场景

  • 自然语言处理研究: 皮卡德语词性标注、词元化等任务的模型训练与评估
  • 机器翻译研究: 皮卡德语-法语翻译模型构建与优化
  • 地名识别研究: 低资源语言地名实体标注方法验证
  • 术语学研究: 皮卡德语复合名词、习语等术语结构分析
  • 语言资源建设: 濒危语言(皮卡德语)语料库扩充与标准化处理
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.22 MiB
最后更新 2025年12月20日
创建于 2025年12月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。