数据集概述
本数据集是通过wdumper生成的Wikidata父亲关系RDF转储文件,包含全量站点数据。数据集共2个文件,涵盖JSON配置文件和压缩的N-Triples数据文件,未划分训练测试集、数据标签集或原始处理集,可用于知识图谱中父亲关系的相关研究与应用。
文件详解
- wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含Wikidata转储的配置信息,JSON结构为对象类型,包含的键有sitelinks(站点链接)、labels(标签)、statements(陈述)、entities(实体)、truthy(真实值)、meta(元数据)、aliases(别名)、descriptions(描述)
- wdump-9.nt.gz
- 文件格式:GZ(压缩的N-Triples文件)
- 字段映射介绍:压缩的RDF数据文件,包含Wikidata父亲关系的三元组数据,具体字段需解压后查看N-Triples格式的三元组(主体、谓词、客体)结构
适用场景
- 知识图谱构建: 用于补充或构建包含父亲关系的知识图谱,完善实体间的亲属关系连接
- 语义网研究: 分析RDF格式的父亲关系数据在语义网中的表达与应用
- 数据挖掘: 挖掘Wikidata中父亲关系的模式、分布特征及关联实体信息
- 自然语言处理: 为亲属关系相关的自然语言理解任务提供结构化知识支撑