Webscraping_学术出版商期刊计数数据集与代码

数据集概述

本数据集包含用于研究学术期刊出版商的代码与数据,涵盖从DOAJ、Publons、Scopus和SherpaRomeo四个数据源提取出版商及期刊计数的R代码、DOAJ和Scopus的数据样本、出版商名称 harmonization的文本文件和R代码,以及最终排序的学术期刊出版商结果列表,总计9个文件。

文件详解

  • 代码文件(.r格式,共5个)
  • 文件名称:count_publishers--Publons.R、count_publishers--SherpaRomeo.R、count_publishers--DOAJ.R、count_publishers--Scopus.R、harmonize-publishers.R
  • 内容说明:前四个代码分别从DOAJ、Publons、Scopus和SherpaRomeo提取出版商及期刊计数;harmonize-publishers.R用于出版商名称的harmonization处理
  • 数据文件
  • 格式与名称:JSON格式(data--doaj.json)、XLSX格式(data--scopus.xlsx、alljournals.xlsx)
  • 内容说明:data--doaj.json和data--scopus.xlsx为DOAJ和Scopus的基础数据样本;alljournals.xlsx为按期刊计数排序的学术出版商结果列表
  • 文本文件(.txt格式,共1个)
  • 文件名称:harmonize-publishers-data.txt
  • 内容说明:包含出版商名称的偏差与harmonization对应关系(如Bentham Science Publishers对应Bentham)

数据来源

"Webscraping Approach"相关研究(具体来源未明确提及)

适用场景

  • 学术出版产业研究: 分析主要学术期刊出版商的期刊数量分布与市场格局
  • 开放获取研究: 结合DOAJ等数据源,研究开放获取期刊的出版商分布特征
  • 学术数据挖掘: 利用R代码与数据样本,探索学术数据源的信息提取与整合方法
  • 出版计量学分析: 基于期刊计数数据,开展出版商影响力与学术资源集中化研究
  • 数据标准化研究: 借鉴harmonize代码与文本文件,研究多源数据中实体名称的标准化方法
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 56.38 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。