数据集概述
本数据集是通过wdumps工具生成的Wikidata RDF格式转储数据,包含实体、陈述及三元组等基础信息。数据集共4个文件,涵盖JSON、GZ压缩包、NT格式等类型,提供Wikidata数据的结构化存储与访问支持。
文件详解
- 配置与元数据文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含aliases、labels、meta、statements、entities、version、sitelinks、descriptions等结构化定义字段
- 数据文件
- 文件名称:wdump-1357.nt.gz
- 文件格式:GZ压缩包
- 字段映射介绍:压缩存储的NT格式RDF数据
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:NT格式的RDF预览数据
适用场景
- 知识图谱研究: 用于构建和分析Wikidata知识图谱的结构与内容
- 语义网技术开发: 支持RDF数据处理、存储与查询相关技术的研发与测试
- 数据挖掘分析: 基于Wikidata实体及陈述数据开展关联规则挖掘、实体关系分析等研究
- 知识库系统构建: 为各类知识库系统提供结构化的基础数据支撑