数据集概述
本数据集是基于Wikidata生成的RDF转储数据,包含P31(实例化)和P279(子类)属性相关的实体、陈述及三元组信息,由wdumps工具生成。数据涵盖215万余个实体、近2500万条陈述和3470余万条三元组,包含4个文件,支持知识图谱相关研究与应用。
文件详解
- 元信息文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- 规范配置文件
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含meta、statements、sitelinks、labels、entities、aliases、descriptions、version等配置字段
- 预览数据文件
- 文件名称:preview.nt
- 文件格式:NT(N-Triples)
- 字段映射介绍:RDF三元组预览数据,存储资源描述框架的基础三元组信息
- 压缩数据文件
- 文件名称:wdump-743.nt.gz
- 文件格式:GZ(压缩包)
- 字段映射介绍:包含压缩的N-Triples格式RDF数据,存储完整的三元组信息
数据来源
Wikidata(由wdumps工具生成)
适用场景
- 知识图谱构建与扩展: 利用P31和P279属性数据构建或补充知识图谱的实体分类与实例化关系
- 语义网研究: 分析RDF三元组结构,探索Wikidata的语义表达机制
- 数据挖掘与关联分析: 挖掘实体间的子类和实例化关系,支持领域知识发现
- 知识工程工具测试: 作为标准数据集测试知识图谱存储、查询与推理工具的性能
- 语义数据可视化: 基于三元组数据展示Wikidata实体的层级关系与分类体系