数据集概述
本数据集是通过wdumps工具生成的Wikidata RDF导出数据,聚焦于商人(businessmen)实体,包含英文和韩文两种语言版本。数据总计包含4个文件,涵盖实体、语句和三元组信息,可用于研究商人相关的结构化知识。
文件详解
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等字段,记录数据导出的元信息。
- 文件名称:preview.nt
- 文件格式:NT
- 字段映射介绍:包含RDF三元组数据,用于预览Wikidata中的商人实体信息。
- 文件名称:wdump-2068.nt.gz
- 文件格式:GZ
- 字段映射介绍:压缩的RDF三元组文件,存储商人实体的详细数据。
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含languages、sitelinks、entities、labels、samplingPercent、meta、descriptions、version、aliases、statements等字段,记录数据导出的配置信息。
数据来源
Wikidata
适用场景
- 知识图谱构建: 利用RDF数据构建商人相关的知识图谱,支持语义查询和关联分析。
- 多语言实体研究: 分析英文和韩文版本的商人实体数据,探索跨语言知识表示。
- 数据挖掘与分析: 基于实体、语句和三元组数据,挖掘商人的社会关系、职业背景等信息。
- 工具评估与优化: 用于评估wdumps工具的导出性能,优化Wikidata数据导出流程。