数据集概述
本数据集为Gollum金标准,用于大规模多源知识图谱匹配任务评估,包含四万一千四百九十九个知识图谱间二十七万五千余条对应关系。数据源自DBpedia提取框架生成的维基农场知识图谱,提供无监督、有监督(含同一维基/不同维基训练测试集)三种版本,支持知识图谱匹配方法的有效性与可扩展性验证。
文件详解
- XML文件(9个,占比56.25%)
- 无监督版本:unsupervised_schemaAlignmentMin.xml、unsupervised_schemaAlignmentDice.xml、unsupervised_transitive.xml、unsupervised_direct.xml,记录无监督知识图谱模式对齐结果
- 有监督版本:supervised_distinct_wiki_test.xml、supervised_distinct_wiki_train.xml、supervised_samewiki_test.xml,记录有监督训练与测试集的知识图谱匹配数据
- TXT文件(4个,占比25.0%)
- Link_to_KG_files.txt:提供知识图谱文件下载链接(40K.tar、all.tar、gold.tar)
- files_gold.txt、files_all.txt:记录金标准及全量数据文件清单
- CSV文件(3个,占比18.75%)
- survey_instance.csv、survey_instance_results.csv、survey_schema_results.csv:记录知识图谱实例与模式匹配的人工标注调查结果,包含资源链接、标注者意见及多数决结果
数据来源
曼海姆大学DWS研究所
适用场景
- 多源知识图谱匹配方法评估:验证无监督/有监督匹配算法在大规模场景下的有效性与可扩展性
- 知识图谱对齐技术研究:分析模式对齐(Schema Alignment)与实例匹配(Instance Matching)的性能差异
- 维基知识图谱整合应用:支持不同维基农场知识图谱的跨源关联与融合
- 语义网算法基准测试:为知识图谱匹配领域提供标准化的大规模测试数据集
- 人工标注与自动匹配对比:通过survey类文件分析人工标注与自动匹配结果的一致性