数据集概述
本数据集是由wdumps工具生成的Wikidata部分数据RDF转储,包含实体、标签、描述、陈述等知识图谱核心内容的结构化表示,共4个文件,覆盖JSON、压缩文件、N-Triples等格式,支持知识图谱相关的数据分析与应用。
文件详解
- info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含sitelinks、entities、labels、statements、version、aliases、descriptions、meta等结构定义字段
- wdump-1045.nt.gz
- 文件格式:.gz(压缩文件)
- 内容说明:压缩的N-Triples格式Wikidata部分数据
- preview.nt
- 文件格式:.nt(N-Triples)
- 内容说明:Wikidata部分数据的N-Triples格式预览文件
数据来源
wdumps工具生成的Wikidata部分数据转储
适用场景
- 知识图谱构建: 用于构建或补充领域知识图谱,获取Wikidata中的结构化知识
- 语义网技术研究: 基于RDF格式数据开展语义网相关的存储、查询与推理研究
- 数据挖掘与分析: 对Wikidata中的实体、关系数据进行统计分析与模式挖掘
- 工具测试与验证: 作为wdumps等数据转储工具的输出验证与功能测试数据集