WNSimRep本体语义相似度度量与信息内容模型复制数据集

数据集概述

该数据集是HESML软件库配套的复制数据集,基于WordNet 3.0构建,包含节点型、边型、同义词集对型三类数据文件,覆盖内在及语料库基信息内容模型与本体语义相似度度量,支持文献中相关模型的精确复现。

文件详解

  • 压缩数据包:
  • WNSimRepV1.zip:压缩文件,包含数据集核心内容,含节点型数据文件(WordNet分类法、IC模型及节点分类特征)、边型数据文件(基于父子概念条件概率的IC模型)、同义词集对型数据文件(Rubenstein-Goodenough基准及相关相似度度量结果)
  • 说明文档:
  • appendixB_WNSimRep_dataset_LastraGarcia.pdf:PDF文档,详细说明WNSimRep v1数据集的结构与内容

数据来源

Lastra-Díaz, J. J., & García-Serrano, A.(2016)发表于Information Systems的论文配套补充材料

适用场景

  • 语义计算研究:复现与验证本体语义相似度度量及信息内容模型
  • 自然语言处理:支撑WordNet基础上的词义相似度分析算法开发
  • 学术研究复现:解决本体语义相似性实验的可重复性问题
  • 计算语言学教学:作为语义相似度度量方法的实践案例数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 108.81 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。