数据集概述
本数据集是为评估知识图谱补全技术设计的AYNEC数据集,包含从WN18、WN11、FB13、FB15K、NELL衍生的9个子数据集,通过移除单实例关系、划分训练测试集、生成负样本等处理构建,支持知识图谱补全技术的系统性评估。
文件详解
- 子数据集压缩包(共9个,如FB15K-AR.zip、WN11-AF.zip等)
- 文件格式:ZIP
- 包含文件及内容:
- train.txt:训练用三元组,每行含源实体、关系、目标实体、标签(1为正样本,-1为负样本)
- test.txt:测试用三元组,格式同train.txt
- relations.txt:数据集中的关系列表及各关系出现频率
- entities.txt:数据集中的实体列表及各实体的总度数、入度、出度
- inverses.txt:原始图谱中的逆关系对列表(标注是否被移除)
- summary.html:关系频率与实体度数的可视化摘要(不含已移除逆关系)
- dataset.gexf:完整数据集的GEXF格式文件(可用于Gephi等工具)
数据来源
论文“AYNEC: All You Need for Evaluating Completion Techniques in Knowledge Graphs”(提交至ESWC19)
适用场景
- 知识图谱补全技术评估: 用于测试不同补全算法在各类子数据集上的性能表现
- 知识图谱逆关系分析: 通过inverses.txt研究知识图谱中逆关系的分布与处理策略效果
- 知识图谱结构特征研究: 利用relations.txt和entities.txt分析关系频率、实体度数等结构属性
- 知识图谱可视化分析: 通过dataset.gexf文件在Gephi中实现图谱结构的可视化展示