数据集

基于知识图谱嵌入的作者名消歧数据集_含文本与数值字面量

数据集概述

本数据集包含两个学术知识图谱，分别来源于OpenCitations提供的《Scientometrics》期刊三元组存储和2018年AMiner作者名消歧（AND）基准数据集。数据按文本字面量、数值字面量分类存储，支持多模态知识图谱嵌入研究，含评估数据集及预处理的嵌入文件。

文件详解

该数据集包含3个文件，具体说明如下： - 文档文件： - README.md：Markdown格式文档，介绍数据集背景、来源、文件结构及使用说明 - 压缩包文件： - OC-782K.zip：OpenCitations来源的知识图谱压缩包，包含三元组数据、文本字面量嵌入（textual_literals.npy）、数值字面量矩阵（numeric_literals.npy）及评估数据集（and_eval.json） - AMiner-534K.zip：AMiner来源的知识图谱压缩包，包含三元组数据、文本字面量嵌入（textual_literals.npy）、数值字面量矩阵（numeric_literals.npy）及评估数据集（and_eval.json）

数据来源

OpenCitations、AMiner

适用场景

知识图谱嵌入研究：用于开发和评估多模态知识图谱嵌入模型
作者名消歧研究：验证基于知识图谱嵌入的作者名消歧算法性能
学术数据挖掘：分析学术文献中的实体关系及作者特征
自然语言处理：研究文本字面量与数值字面量在知识表示中的融合应用

数据与资源

6380681.zipZIP
342.25 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	342.25 MiB
最后更新	2025年12月10日
创建于	2025年12月10日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。