数据集概述
本数据集是使用wdumps工具生成的Wikidata的RDF格式Dump数据,包含4个文件,涵盖信息说明、预览数据、压缩数据及配置规范四类内容,可用于Wikidata相关的数据处理与分析场景。
文件详解
- info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount字段,记录Dump数据的基础信息
- preview.nt
- 文件格式:NT
- 字段映射介绍:Wikidata RDF数据的预览文件
- wdump-181.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩格式的Wikidata RDF Dump数据文件
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含statements、labels、version、sitelinks、meta、aliases、descriptions、entities字段,记录wdumper工具的配置规范
适用场景
- 知识图谱数据研究: 用于分析Wikidata RDF数据的结构与内容
- 数据处理工具测试: 作为测试数据验证RDF格式数据处理工具的功能
- 知识图谱构建参考: 为自定义知识图谱的构建提供数据格式与结构参考
- 语义网技术研究: 支持语义网相关技术的实验与分析工作