计算机科学arXiv论文引用网络数据集-2011至2019年-dataup1

计算机科学arXiv论文引用网络数据集-2011至2019年-dataup1 数据来源:互联网公开数据 标签:arXiv,论文引用,计算机科学,机器学习,节点预测,图神经网络,科学数据集,学术出版

数据概述: 本数据集是OGBN-ArXiv,由斯坦福大学Open Graph Benchmark提供,代表了计算机科学领域(CS)所有arXiv论文的引用网络,数据来自Microsoft学术图(MAG)。每个节点代表一篇arXiv论文,有向边表示论文之间的引用关系。每篇论文包含一个128维的特征向量,通过计算论文标题和摘要中单词嵌入的平均值得到。此外,数据集还包含了每篇论文的出版年份。

数据集中的预测任务是预测arXiv CS论文的40个主题领域,这些主题领域是由论文作者和arXiv管理员手动标注的。数据集按照论文的出版年份进行切分,其中训练集包含2017年及之前发布的论文,验证集包含2018年发布的论文,测试集包含2019年及之后发布的论文。

数据用途概述: 该数据集适用于图神经网络的研究和应用,特别是节点分类任务。研究者可以使用此数据集训练模型以预测新发布的论文的主题领域,帮助arXiv管理员进行分类管理。此外,该数据集还适合用于学术出版、机器学习和计算机科学领域的教育和研究,为相关领域的研究提供了丰富的数据资源。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 31, 2025, 21:41 (UTC)
创建于 五月 31, 2025, 21:40 (UTC)