数据集概述
本数据集是通过wdumps工具生成的Wikidata RDF格式转储文件,包含4个文件,涵盖数据规范、元信息、预览数据及压缩数据,可用于知识图谱相关的数据处理与分析场景。
文件详解
- 配置与元信息文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含statements、descriptions、entities、sitelinks、labels、version、meta、aliases等配置字段
- 数据文件
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:RDF格式的预览数据文件
- 文件名称:wdump-950.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩的RDF格式数据文件
适用场景
- 知识图谱构建: 用于构建基于Wikidata的知识图谱,提取实体、属性及关系信息
- 语义网研究: 分析RDF数据结构,研究语义网技术的应用与实现
- 数据挖掘与分析: 基于Wikidata的结构化数据,开展实体链接、关系抽取等数据挖掘任务
- 工具开发测试: 作为测试数据,验证知识图谱相关工具(如RDF解析器、查询引擎)的功能与性能