数据集概述
本数据集是通过wdumper工具生成的Wikidata RDF转储数据,包含四个文件,涉及JSON、NT和GZ三种格式。数据记录了转储工具版本、日期等元信息及生成规范,当前实体数、陈述数和三元组数均为零,可用于了解Wikidata转储流程及相关文件结构。
文件详解
- 信息文件(info.json)
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion(工具版本)、toolVersion(工具版本)、dumpDate(转储日期)、tripleCount(三元组数)、entityCount(实体数)、statementCount(陈述数)等字段
- 规范文件(wdumper-spec.json)
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含version(版本)、entities(实体)、samplingPercent(采样百分比)、statements(陈述)、sitelinks(站点链接)、labels(标签)、descriptions(描述)、aliases(别名)、languages(语言)、meta(元数据)等字段
- 预览文件(preview.nt)
- 文件名称:preview.nt
- 文件格式:NT
- 压缩文件(wdump-2821.nt.gz)
- 文件名称:wdump-2821.nt.gz
- 文件格式:GZ
适用场景
- 语义网数据工具研究: 分析wdumper工具生成Wikidata RDF转储的流程与参数配置
- 数据转储格式验证: 验证Wikidata转储文件的JSON结构及字段完整性
- 数据处理流程设计: 参考转储规范文件设计Wikidata数据的抽取与转换流程
- 元数据管理实践: 基于info.json的元信息字段构建数据转储的元数据管理模板