数据集概述
该数据集是HESML软件库配套的复制数据集,基于WordNet 3.0构建,包含节点型、边型、同义词集对型三类数据文件,覆盖内在及语料库基信息内容模型与本体语义相似度度量,支持文献中相关模型的精确复现。
文件详解
- 压缩数据包:
- WNSimRepV1.zip:压缩文件,包含数据集核心内容,含节点型数据文件(WordNet分类法、IC模型及节点分类特征)、边型数据文件(基于父子概念条件概率的IC模型)、同义词集对型数据文件(Rubenstein-Goodenough基准及相关相似度度量结果)
- 说明文档:
- appendixB_WNSimRep_dataset_LastraGarcia.pdf:PDF文档,详细说明WNSimRep v1数据集的结构与内容
数据来源
Lastra-Díaz, J. J., & García-Serrano, A.(2016)发表于Information Systems的论文配套补充材料
适用场景
- 语义计算研究:复现与验证本体语义相似度度量及信息内容模型
- 自然语言处理:支撑WordNet基础上的词义相似度分析算法开发
- 学术研究复现:解决本体语义相似性实验的可重复性问题
- 计算语言学教学:作为语义相似度度量方法的实践案例数据