数据集概述
本数据集是使用wdumps工具生成的Wikidata RDF导出数据,包含4个文件,实体数、陈述数和三元组数均为0。文件类型涵盖JSON、NT和GZ,主要用于记录导出配置和预览信息。
文件详解
- 信息文件(info.json)
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等导出元数据字段
- 预览文件(preview.nt)
- 文件格式:NT
- 内容说明:Wikidata RDF数据的预览文件
- 压缩文件(wdump-823.nt.gz)
- 文件格式:GZ
- 内容说明:压缩的Wikidata RDF导出文件
- 配置文件(wdumper-spec.json)
- 文件格式:JSON
- 字段映射介绍:包含version、labels、entities、meta、aliases、languages、sitelinks、descriptions、statements等导出配置字段
适用场景
- 知识图谱数据导出研究: 分析Wikidata RDF导出工具wdumps的配置和输出结构
- 数据格式验证: 验证RDF、JSON等数据格式在知识图谱导出中的应用
- 导出工具测试: 用于测试和优化wdumps工具的导出功能和性能
- 知识图谱元数据管理: 利用info.json中的元数据管理Wikidata导出数据的版本和状态