Arxiv计算机科学论文及引用网络数据集-2019-sarthakharne
数据来源:互联网公开数据
标签:Arxiv,计算机科学,论文,引用网络,科学文献,机器学习,TFIDF,LDA
数据概述:
本数据集包含2019年之前Arxiv平台上所有被归类为计算机科学(CS)的论文及其引用网络。论文的分类依据是Arxiv的分类系统,即每篇论文至少包含一个计算机科学相关类别。
数据集包括从Arxiv获取的论文数据,以及由Clement等人公开的引用网络数据。每篇论文的摘要已使用SciBERT模型提取了嵌入向量,这些向量存储在embeddings.parquet文件中。论文在cs_papers_wo_embeddings.parquet文件中的索引与embeddings.parquet文件中的嵌入向量索引相对应。
数据集还提供了每篇论文的20个LDA主题权重,存储在lda_weights.parquet文件中。这些LDA权重是基于每篇论文摘要的TF-IDF特征计算得出的。论文在cs_papers_wo_embeddings.parquet文件中的索引与lda_weights.parquet文件中的索引相匹配。
数据用途概述:
该数据集适用于计算机科学领域的文献分析、引用网络研究、主题建模以及机器学习研究等场景。研究人员可以利用此数据进行计算机科学论文的分类、主题分布分析和引用网络研究;教育者可以使用该数据集进行教学案例开发;开发人员也可以基于此数据集进行文本嵌入和主题建模的算法研究。此外,数据集还适合用于信息检索和推荐系统的开发。