数据集概述
本数据集是通过wdumps工具生成的Wikidata RDF转储,包含Wikidata中所有职业为足球运动员(occupation: association football player, Q937857)的实体数据。数据集提供结构化的RDF格式数据,支持对足球运动员相关信息的批量检索与分析。
文件详解
- 配置与元数据文件
- 文件名称:info.json
- 文件格式:JSON
- 字段映射:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等元数据字段,记录转储工具版本、生成日期及数据统计信息
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射:包含labels、version、statements、samplingPercent、aliases、meta、sitelinks、descriptions、entities等配置字段,定义转储数据的结构与范围
- 数据文件
- 文件名称:preview.nt
- 文件格式:NT(N-Triples)
- 字段映射:RDF三元组格式的预览数据,记录足球运动员实体的结构化关系
- 文件名称:wdump-1601.nt.gz
- 文件格式:GZ压缩包(内含NT文件)
- 字段映射:压缩后的完整RDF三元组数据,包含所有符合条件的足球运动员实体信息
数据来源
Wikidata
适用场景
- 体育数据研究:分析足球运动员的职业信息分布、关联实体特征及数据完整性
- 知识图谱构建:提取足球运动员实体数据,补充或构建体育领域知识图谱
- 数据挖掘应用:基于职业标签批量检索足球运动员信息,支持运动员背景分析、关联关系挖掘等场景
- 语义网技术验证:测试RDF格式数据的解析、存储与查询性能,验证语义网工具兼容性