基于知识图谱嵌入的作者名消歧数据集_含文本与数值字面量

数据集概述

本数据集包含两个学术知识图谱,分别来源于OpenCitations提供的《Scientometrics》期刊三元组存储和2018年AMiner作者名消歧(AND)基准数据集。数据按文本字面量、数值字面量分类存储,支持多模态知识图谱嵌入研究,含评估数据集及预处理的嵌入文件。

文件详解

该数据集包含3个文件,具体说明如下: - 文档文件: - README.md:Markdown格式文档,介绍数据集背景、来源、文件结构及使用说明 - 压缩包文件: - OC-782K.zip:OpenCitations来源的知识图谱压缩包,包含三元组数据、文本字面量嵌入(textual_literals.npy)、数值字面量矩阵(numeric_literals.npy)及评估数据集(and_eval.json) - AMiner-534K.zip:AMiner来源的知识图谱压缩包,包含三元组数据、文本字面量嵌入(textual_literals.npy)、数值字面量矩阵(numeric_literals.npy)及评估数据集(and_eval.json)

数据来源

OpenCitations、AMiner

适用场景

  • 知识图谱嵌入研究:用于开发和评估多模态知识图谱嵌入模型
  • 作者名消歧研究:验证基于知识图谱嵌入的作者名消歧算法性能
  • 学术数据挖掘:分析学术文献中的实体关系及作者特征
  • 自然语言处理:研究文本字面量与数值字面量在知识表示中的融合应用
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 342.25 MiB
最后更新 2025年12月10日
创建于 2025年12月10日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。