数据集

Webscraping_学术出版商期刊计数数据集与代码

数据集概述

本数据集包含用于研究学术期刊出版商的代码与数据，涵盖从DOAJ、Publons、Scopus和SherpaRomeo四个数据源提取出版商及期刊计数的R代码、DOAJ和Scopus的数据样本、出版商名称 harmonization的文本文件和R代码，以及最终排序的学术期刊出版商结果列表，总计9个文件。

文件详解

代码文件（.r格式，共5个）
文件名称：count_publishers--Publons.R、count_publishers--SherpaRomeo.R、count_publishers--DOAJ.R、count_publishers--Scopus.R、harmonize-publishers.R
内容说明：前四个代码分别从DOAJ、Publons、Scopus和SherpaRomeo提取出版商及期刊计数；harmonize-publishers.R用于出版商名称的harmonization处理
数据文件
格式与名称：JSON格式（data--doaj.json）、XLSX格式（data--scopus.xlsx、alljournals.xlsx）
内容说明：data--doaj.json和data--scopus.xlsx为DOAJ和Scopus的基础数据样本；alljournals.xlsx为按期刊计数排序的学术出版商结果列表
文本文件（.txt格式，共1个）
文件名称：harmonize-publishers-data.txt
内容说明：包含出版商名称的偏差与harmonization对应关系（如Bentham Science Publishers对应Bentham）

数据来源

"Webscraping Approach"相关研究（具体来源未明确提及）

适用场景

学术出版产业研究: 分析主要学术期刊出版商的期刊数量分布与市场格局
开放获取研究: 结合DOAJ等数据源，研究开放获取期刊的出版商分布特征
学术数据挖掘: 利用R代码与数据样本，探索学术数据源的信息提取与整合方法
出版计量学分析: 基于期刊计数数据，开展出版商影响力与学术资源集中化研究
数据标准化研究: 借鉴harmonize代码与文本文件，研究多源数据中实体名称的标准化方法

数据与资源

4450067.zipZIP
56.38 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	56.38 MiB
最后更新	2026年1月31日
创建于	2026年1月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

Webscraping_学术出版商期刊计数数据集与代码

数据集概述

文件详解

数据来源

适用场景

数据与资源

附加信息

注册成功！