数据集概述
本数据集包含用于研究学术期刊出版商的代码与数据,涵盖从DOAJ、Publons、Scopus和SherpaRomeo四个数据源提取出版商及期刊计数的R代码、DOAJ和Scopus的数据样本、出版商名称 harmonization的文本文件和R代码,以及最终排序的学术期刊出版商结果列表,总计9个文件。
文件详解
- 代码文件(.r格式,共5个)
- 文件名称:count_publishers--Publons.R、count_publishers--SherpaRomeo.R、count_publishers--DOAJ.R、count_publishers--Scopus.R、harmonize-publishers.R
- 内容说明:前四个代码分别从DOAJ、Publons、Scopus和SherpaRomeo提取出版商及期刊计数;harmonize-publishers.R用于出版商名称的harmonization处理
- 数据文件
- 格式与名称:JSON格式(data--doaj.json)、XLSX格式(data--scopus.xlsx、alljournals.xlsx)
- 内容说明:data--doaj.json和data--scopus.xlsx为DOAJ和Scopus的基础数据样本;alljournals.xlsx为按期刊计数排序的学术出版商结果列表
- 文本文件(.txt格式,共1个)
- 文件名称:harmonize-publishers-data.txt
- 内容说明:包含出版商名称的偏差与harmonization对应关系(如Bentham Science Publishers对应Bentham)
数据来源
"Webscraping Approach"相关研究(具体来源未明确提及)
适用场景
- 学术出版产业研究: 分析主要学术期刊出版商的期刊数量分布与市场格局
- 开放获取研究: 结合DOAJ等数据源,研究开放获取期刊的出版商分布特征
- 学术数据挖掘: 利用R代码与数据样本,探索学术数据源的信息提取与整合方法
- 出版计量学分析: 基于期刊计数数据,开展出版商影响力与学术资源集中化研究
- 数据标准化研究: 借鉴harmonize代码与文本文件,研究多源数据中实体名称的标准化方法