数据集概述
本数据集是通过wdumps工具生成的Wikidata知识图谱RDF格式转储数据,包含实体、陈述及三元组等核心结构信息,但当前统计的实体数、陈述数、三元组均为0。数据以4个文件呈现,涵盖元信息、规格配置及预览数据等内容,支持对Wikidata数据结构的解析与应用。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount字段,记录转储数据的元数据信息
- 文件名称:wdump-245.nt.gz
- 文件格式:GZ压缩包
- 字段映射介绍:压缩的N-Triples格式数据文件,存储RDF三元组信息
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:未压缩的N-Triples格式预览数据文件,提供RDF数据的样本内容
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含labels、descriptions、version、entities、statements、languages、meta、aliases、sitelinks字段,记录转储工具的配置规格信息
适用场景
- 知识图谱数据结构研究: 分析Wikidata RDF转储的元数据及规格配置,探究知识图谱的核心数据模型
- 数据转储工具验证: 基于info.json和wdumper-spec.json的字段信息,验证wdumps工具的转储逻辑与输出一致性
- 知识图谱应用开发: 利用preview.nt的样本数据,测试RDF解析工具对Wikidata数据的兼容性
- 数据格式转换测试: 以wdump-245.nt.gz的压缩格式为例,验证RDF数据在压缩/解压场景下的处理流程