数据集概述
本数据集是通过wdumps工具生成的Wikidata电影条目RDF转储数据,包含Wikidata中所有电影相关实体,涵盖实体、陈述及三元组信息,共四个文件,支持对Wikidata电影知识的结构化解析与应用。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:电影条目RDF预览数据
- 文件名称:wdump-444.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩格式的电影条目RDF转储数据
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含labels、meta、statements、sitelinks、version、entities、aliases、descriptions等配置字段
适用场景
- 电影知识图谱构建: 基于RDF转储数据构建结构化电影知识图谱,支持关联查询与分析
- 影视数据挖掘研究: 分析电影实体属性、关系及元数据特征,挖掘影视领域知识模式
- 语义网技术应用: 用于RDF数据解析、存储及查询等语义网相关技术的开发与测试
- 电影信息检索优化: 基于Wikidata电影数据优化影视类信息检索系统的准确性与覆盖度