Wikidata_Dump_TextRobustness_知识图谱转储测试数据

数据集概述

本数据集是通过wdumps工具生成的Wikidata RDF转储文件,包含实体、陈述、三元组的结构化信息,以及转储工具版本、日期等元数据,共4个文件,用于测试文本稳健性相关研究与应用,支持知识图谱数据处理分析场景。

文件详解

  • 元数据文件
  • 文件名称:info.json
  • 文件格式:JSON
  • 字段映射介绍:包含id、wdtkVersion(工具版本)、toolVersion(工具版本)、dumpDate(转储日期)、tripleCount(三元组数量)、entityCount(实体数量)、statementCount(陈述数量)字段
  • 配置文件
  • 文件名称:wdumper-spec.json
  • 文件格式:JSON
  • 字段映射介绍:包含statements、descriptions、entities、languages、sitelinks、labels、version、meta、aliases字段,定义转储配置规则
  • 压缩数据文件
  • 文件名称:wdump-1001.nt.gz
  • 文件格式:GZ(压缩格式)
  • 字段映射介绍:压缩的N-Triples格式RDF数据文件,包含Wikidata实体三元组信息
  • 预览数据文件
  • 文件名称:preview.nt
  • 文件格式:NT(N-Triples)
  • 字段映射介绍:未压缩的N-Triples格式预览数据,展示Wikidata RDF数据结构样例

适用场景

  • 知识图谱数据转储测试: 验证Wikidata RDF转储的文本稳健性,评估转储工具输出的完整性与一致性
  • 元数据管理分析: 基于info.json分析转储工具版本、日期与数据量的关联,优化转储流程
  • 数据格式兼容性研究: 测试N-Triples格式数据在不同系统中的解析与处理能力
  • 知识图谱数据预处理: 利用转储数据开展实体抽取、三元组解析等预处理算法开发与验证
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.01 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。