数据集概述
本数据集是通过wdumps工具生成的Wikidata RDF转储,核心内容为包含语法性别的俄语、英语名词数据。数据集包含4个文件,涵盖JSON格式的配置与元数据文件、压缩的N-Triples数据文件及预览文件,可用于语义网络、自然语言处理等领域的相关研究。
文件详解
- 配置与元数据文件
- 文件名称:wdumper-spec.json
- 文件格式:JSON
- 字段映射介绍:包含descriptions、sitelinks、entities、meta、version、statements、languages、aliases、labels等键的对象结构,定义数据集相关配置
- 文件名称:info.json
- 文件格式:JSON
- 字段映射介绍:包含id、wdtkVersion、toolVersion、dumpDate、tripleCount、entityCount、statementCount等键的对象结构,记录数据集元数据信息
- 数据文件
- 文件名称:wdump-229.nt.gz
- 文件格式:GZ压缩的N-Triples(.nt.gz)
- 字段映射介绍:压缩的RDF数据文件,存储俄英名词语法性别相关的三元组数据
- 预览文件
- 文件名称:preview.nt
- 文件格式:N-Triples(.nt)
- 字段映射介绍:数据集的预览数据文件,提供RDF数据的示例内容
适用场景
- 语义网络研究:用于分析Wikidata中俄语、英语名词的语法性别语义关联
- 自然语言处理:支持俄英名词语法性别标注、多语言词汇语义分析等任务
- 语言资源构建:为构建包含语法性别的俄英词汇知识库提供原始数据支撑
- 数据格式转换研究:作为RDF转储实例,用于探索Wikidata数据的格式转换与处理方法