数据集概述
本数据集是使用wdumps工具生成的Wikidata RDF转储测试数据,包含实体数、陈述数、三元组数均为0的测试文件,用于验证Wikidata转储流程的正确性与完整性。数据集共4个文件,覆盖JSON、GZ压缩、NT等格式,支持Wikidata数据处理工具的功能测试。
文件详解
- 文件列表
- info.json(JSON格式):包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- wdump-1554.nt.gz(GZ压缩格式):Wikidata RDF转储的压缩测试文件
- wdumper-spec.json(JSON格式):包含aliases、statements、samplingPercent、languages、meta、descriptions、sitelinks、labels、entities、version等配置字段
- preview.nt(NT格式):RDF三元组测试预览文件
适用场景
- Wikidata转储工具测试:验证wdumps等工具生成RDF转储文件的格式正确性与流程稳定性
- 数据处理流程验证:测试数据加载、解析、转换等下游处理流程对Wikidata格式的兼容性
- 元数据规范验证:基于info.json和wdumper-spec.json验证Wikidata转储元数据的标准符合性
- 压缩与存储测试:通过gz格式文件测试数据压缩算法对RDF数据的压缩效率与恢复准确性