数据集概述
本数据集是通过wdumps工具生成的Wikidata的RDF格式数据转储,包含实体、陈述和三元组信息(当前统计数量均为0),以及相关的配置和元数据文件,总计4个文件,支持语义网相关的数据分析与应用。
文件详解
- 配置与元数据文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含descriptions、sitelinks、entities、meta、version、statements、aliases、labels等配置字段
- 数据文件
- 文件名称:wdump-314.nt.gz
- 文件格式:GZ压缩的NT文件
- 字段映射介绍:RDF格式的Wikidata数据压缩文件
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:RDF格式的Wikidata预览数据文件
适用场景
- 语义网数据研究:用于分析Wikidata的RDF数据结构与语义网技术应用
- 数据转储工具测试:验证wdumps工具生成RDF数据转储的功能与性能
- 元数据管理分析:基于info.json和wdumper-spec.json文件研究数据转储的元数据配置规范
- 知识图谱构建支持:为语义网知识图谱的构建提供Wikidata的RDF格式数据源参考