数据集概述
本数据集是通过wdumps工具生成的Wikidata RDF转储文件,包含实体、陈述、三元组的结构化信息,以及转储工具版本、日期等元数据,共4个文件,用于测试文本稳健性相关研究与应用,支持知识图谱数据处理分析场景。
文件详解
- 元数据文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion(工具版本)、toolVersion(工具版本)、dumpDate(转储日期)、tripleCount(三元组数量)、entityCount(实体数量)、statementCount(陈述数量)字段
- 配置文件
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含statements、descriptions、entities、languages、sitelinks、labels、version、meta、aliases字段,定义转储配置规则
- 压缩数据文件
- 文件名称:wdump-1001.nt.gz
- 文件格式:GZ(压缩格式)
- 字段映射介绍:压缩的N-Triples格式RDF数据文件,包含Wikidata实体三元组信息
- 预览数据文件
- 文件名称:preview.nt
- 文件格式:NT(N-Triples)
- 字段映射介绍:未压缩的N-Triples格式预览数据,展示Wikidata RDF数据结构样例
适用场景
- 知识图谱数据转储测试: 验证Wikidata RDF转储的文本稳健性,评估转储工具输出的完整性与一致性
- 元数据管理分析: 基于info.json分析转储工具版本、日期与数据量的关联,优化转储流程
- 数据格式兼容性研究: 测试N-Triples格式数据在不同系统中的解析与处理能力
- 知识图谱数据预处理: 利用转储数据开展实体抽取、三元组解析等预处理算法开发与验证