数据集

Arxiv计算机科学论文及引用网络数据集-2019-sarthakharne

数据来源：互联网公开数据

标签：Arxiv,计算机科学,论文,引用网络,科学文献,机器学习,TFIDF,LDA

数据概述：本数据集包含2019年之前Arxiv平台上所有被归类为计算机科学（CS）的论文及其引用网络。论文的分类依据是Arxiv的分类系统，即每篇论文至少包含一个计算机科学相关类别。

数据集包括从Arxiv获取的论文数据，以及由Clement等人公开的引用网络数据。每篇论文的摘要已使用SciBERT模型提取了嵌入向量，这些向量存储在embeddings.parquet文件中。论文在cs_papers_wo_embeddings.parquet文件中的索引与embeddings.parquet文件中的嵌入向量索引相对应。

数据集还提供了每篇论文的20个LDA主题权重，存储在lda_weights.parquet文件中。这些LDA权重是基于每篇论文摘要的TF-IDF特征计算得出的。论文在cs_papers_wo_embeddings.parquet文件中的索引与lda_weights.parquet文件中的索引相匹配。

数据用途概述：该数据集适用于计算机科学领域的文献分析、引用网络研究、主题建模以及机器学习研究等场景。研究人员可以利用此数据进行计算机科学论文的分类、主题分布分析和引用网络研究；教育者可以使用该数据集进行教学案例开发；开发人员也可以基于此数据集进行文本嵌入和主题建模的算法研究。此外，数据集还适合用于信息检索和推荐系统的开发。

数据与资源

versions_20250412082151.zipZIP
481.76 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	481.76 MiB
最后更新	2025年6月1日
创建于	2025年6月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Arxiv计算机科学论文及引用网络数据集-2019-sarthakharne

数据与资源

附加信息

注册成功！