Gollum_Based_大规模多源知识图谱匹配金标准数据集

数据集概述

本数据集为Gollum金标准,用于大规模多源知识图谱匹配任务评估,包含四万一千四百九十九个知识图谱间二十七万五千余条对应关系。数据源自DBpedia提取框架生成的维基农场知识图谱,提供无监督、有监督(含同一维基/不同维基训练测试集)三种版本,支持知识图谱匹配方法的有效性与可扩展性验证。

文件详解

  • XML文件(9个,占比56.25%)
  • 无监督版本:unsupervised_schemaAlignmentMin.xml、unsupervised_schemaAlignmentDice.xml、unsupervised_transitive.xml、unsupervised_direct.xml,记录无监督知识图谱模式对齐结果
  • 有监督版本:supervised_distinct_wiki_test.xml、supervised_distinct_wiki_train.xml、supervised_samewiki_test.xml,记录有监督训练与测试集的知识图谱匹配数据
  • TXT文件(4个,占比25.0%)
  • Link_to_KG_files.txt:提供知识图谱文件下载链接(40K.tar、all.tar、gold.tar)
  • files_gold.txt、files_all.txt:记录金标准及全量数据文件清单
  • CSV文件(3个,占比18.75%)
  • survey_instance.csv、survey_instance_results.csv、survey_schema_results.csv:记录知识图谱实例与模式匹配的人工标注调查结果,包含资源链接、标注者意见及多数决结果

数据来源

曼海姆大学DWS研究所

适用场景

  • 多源知识图谱匹配方法评估:验证无监督/有监督匹配算法在大规模场景下的有效性与可扩展性
  • 知识图谱对齐技术研究:分析模式对齐(Schema Alignment)与实例匹配(Instance Matching)的性能差异
  • 维基知识图谱整合应用:支持不同维基农场知识图谱的跨源关联与融合
  • 语义网算法基准测试:为知识图谱匹配领域提供标准化的大规模测试数据集
  • 人工标注与自动匹配对比:通过survey类文件分析人工标注与自动匹配结果的一致性
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。