数据集概述
本数据集包含来自dblp的1320篇学术出版物的引用网络数据,结合AMiner数据用于区分开创性(Seminal)和综述性(Survey)出版物。数据涵盖121,084篇相关论文的dblp标识、发表年份、标题与摘要的词干化及非词干化文本,开创性论文来自A*会议,综述来自专业综述期刊。
文件详解
- 文件名称:SeminalSurveyDBLP.zip
- 文件格式:ZIP
- 字段映射介绍:包含dblp引用网络数据,涵盖1320篇目标出版物及121,084篇相关论文的信息,具体字段包括dblp key(dblp标识)、publication year(发表年份)、stemmed concatenations of title and abstract(词干化标题与摘要)、unstemmed concatenations of title and abstract(非词干化标题与摘要),以及每篇出版物的引用与参考文献数据。
数据来源
dblp(https://dblp.uni-trier.de/)、AMiner(https://aminer.org/)
适用场景
- 学术出版物分类研究:用于训练和验证区分开创性论文与综述性论文的分类模型。
- 计算机科学领域文献分析:分析A*会议开创性论文与专业综述期刊的引用网络特征。
- 学术影响力评估:基于引用数据研究不同类型学术出版物的影响力差异。
- 文本特征挖掘:利用标题与摘要的词干化/非词干化文本,探索学术文本的语义特征与分类关联。