数据集概述
本数据集是通过wdumps工具生成的Wikidata定居点相关RDF转储数据,包含4个文件,涵盖数据规格、元信息、预览数据及压缩数据文件,可用于知识图谱相关的数据处理与分析场景。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元信息字段
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:定居点数据的预览文件,采用NT格式存储RDF三元组
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含labels、version、statements、samplingPercent、aliases、meta、sitelinks、descriptions、languages、entities等数据规格字段
- 文件名称:wdump-1702.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩格式的RDF三元组数据文件,存储定居点相关的详细数据
适用场景
- 知识图谱构建: 利用RDF格式的定居点数据,构建或补充地理类知识图谱
- 数据格式转换研究: 分析Wikidata数据从原生格式到RDF格式的转换规则与实现方式
- 数据处理工具测试: 作为测试数据,验证wdumps等Wikidata数据处理工具的功能与性能
- 地理信息数据分析: 基于定居点数据,开展地理分布、区域特征等相关分析