语义增强链接预测数据集DB100k_Yago3_10_NELL_995

数据集概述

该数据集包含DB100k+、Yago3-10+、NELL-995+及变体NELL995+_10_30_10等语义增强链接预测数据集,通过实体类型推断对标准数据集进行扩展,并提供数据集创建、分析代码及掩蔽算法,支持生成含不同比例谓词信息的变体数据集。

文件详解

  • 核心数据集文件:
  • DB100k+、Yago3-10+、NELL-995+及NELL995+_10_30_10数据集文件夹,包含训练(train2id.txt)、测试(test2id.txt)、验证(valid2id.txt)文件及逆关系变体文件(如train2id_inv.txt)
  • pickle文件夹:含ent2id(实体-ID映射)、rel2id(关系-ID映射)、class2id(类别-ID映射)等字典文件
  • 代码文件:
  • 数据集创建笔记本:通过原始数据集URL下载并生成增强数据集
  • 数据集分析笔记本:提供数据集关键统计信息
  • 掩蔽算法脚本:用于生成含不同比例谓词领域/范围信息的数据集变体

数据来源

WIMMICS研究团队

适用场景

  • 知识图谱链接预测模型训练与评估
  • 语义增强对链接预测任务影响的实证研究
  • 谓词领域/范围信息对模型性能的敏感性分析
  • 知识图谱推理算法的基准测试
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 107.01 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。