数据集概述
该数据集包含DB100k+、Yago3-10+、NELL-995+及变体NELL995+_10_30_10等语义增强链接预测数据集,通过实体类型推断对标准数据集进行扩展,并提供数据集创建、分析代码及掩蔽算法,支持生成含不同比例谓词信息的变体数据集。
文件详解
- 核心数据集文件:
- DB100k+、Yago3-10+、NELL-995+及NELL995+_10_30_10数据集文件夹,包含训练(train2id.txt)、测试(test2id.txt)、验证(valid2id.txt)文件及逆关系变体文件(如train2id_inv.txt)
- pickle文件夹:含ent2id(实体-ID映射)、rel2id(关系-ID映射)、class2id(类别-ID映射)等字典文件
- 代码文件:
- 数据集创建笔记本:通过原始数据集URL下载并生成增强数据集
- 数据集分析笔记本:提供数据集关键统计信息
- 掩蔽算法脚本:用于生成含不同比例谓词领域/范围信息的数据集变体
数据来源
WIMMICS研究团队
适用场景
- 知识图谱链接预测模型训练与评估
- 语义增强对链接预测任务影响的实证研究
- 谓词领域/范围信息对模型性能的敏感性分析
- 知识图谱推理算法的基准测试