French_WSD_Based_Princeton_WordNet标识符法语词义消歧数据集

数据集概述

本数据集用于基于Princeton WordNet标识符的法语词义消歧任务,包含两个自动翻译并对齐的训练语料库(SemCor、WordNet Gloss Corpus),以及一个从SemEval 2013任务12转换而来的测试语料库,总计3个XML文件。

文件详解

  • 训练语料库文件
  • semcor.fr.xml:XML格式,源自英文SemCor语料库的自动翻译版本,含自动对齐的词义标签
  • wngt.fr.xml:XML格式,源自英文WordNet Gloss Corpus的自动翻译版本,含自动对齐的词义标签
  • 测试语料库文件
  • semeval2013task12.fr.xml:XML格式,源自SemEval 2013任务12,原始BabelNet标识符已转换为Princeton WordNet 3.0标识符

适用场景

  • 法语词义消歧模型训练: 利用标注的训练语料构建和优化法语词义消歧算法
  • 跨语言词义消歧研究: 分析基于英文语料翻译的法语数据在词义对齐任务中的表现
  • 词义消歧模型评估: 使用标准化测试语料验证模型性能
  • 自然语言处理资源构建: 为法语语义分析任务提供标注数据支撑
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 258.98 MiB
最后更新 2026年1月17日
创建于 2026年1月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。