Wikidata_Dump_SAHB数据集RDF转储数据

数据集概述

本数据集是使用wdumps工具生成的Wikidata RDF转储(SAHB版本),不含简单语句、标签、描述、别名及站点链接。包含实体数、语句数、三元组数均为零,共4个文件,支持对Wikidata转储结构及元数据的查看与分析。

文件详解

  • 配置与元数据文件
  • 文件名称:info.json
  • 文件格式:JSON
  • 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
  • 文件名称:wdumper-spec.json
  • 文件格式:JSON
  • 字段映射介绍:包含version、labels、entities、meta、aliases、sitelinks、descriptions、statements等配置字段
  • 数据文件
  • 文件名称:preview.nt
  • 文件格式:NT
  • 字段映射介绍:RDF三元组预览文件
  • 文件名称:wdump-815.nt.gz
  • 文件格式:GZ
  • 字段映射介绍:压缩的RDF三元组转储文件

适用场景

  • Wikidata转储工具验证: 用于验证wdumps工具生成的Wikidata RDF转储结构与配置是否符合预期
  • 知识图谱数据格式研究: 分析Wikidata RDF转储的文件组织方式与数据编码规范
  • 数据转储元数据分析: 基于info.json中的元数据,研究Wikidata转储的生成参数与版本信息
  • 压缩数据处理测试: 以wdump-815.nt.gz为样本,测试RDF压缩文件的读取与解析流程
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 322.86 MiB
最后更新 2026年1月30日
创建于 2026年1月30日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。