数据集概述
本数据集为2015年8月发布的v0.0.1版本,包含来自vivo.ufl.edu平台的全量UF三元组数据。数据以压缩包形式提供,解压后为N-Triples格式文件,记录约1878万条三元组信息,是构建学术知识图谱的基础数据资源。
文件详解
- 压缩包文件
- 文件名称:all-uf-triples-august-2015.tar.gz
- 文件格式:TAR.GZ
- 字段映射介绍:压缩包包含N-Triples格式的三元组数据文件,MD5校验值为262c4e82be87cc24b04ccad188e75487,文件大小约178M。
- 解压后文件
- 文件名称:all-uf-triples-august-2015.nt
- 文件格式:NT
- 字段映射介绍:N-Triples格式的三元组数据文件,包含约18785880行记录,文件大小约2.5GB,无训练/测试、数据/标签、原始/处理等数据划分。
数据来源
vivo.ufl.edu
适用场景
- 学术知识图谱构建: 基于三元组数据构建高校学术实体(如学者、机构、成果)之间的关联关系图谱。
- 学术数据集成研究: 分析高校学术数据的结构化存储模式与关联规则。
- 语义网技术应用: 用于N-Triples格式数据的解析、存储与查询等语义网技术验证。
- 高校学术资源分析: 挖掘高校学术实体的分布特征与合作网络。