开放获取出版与阅读量预测分析数据集

数据集概述

本数据集是开放获取(OA)出版与阅读量预测分析的原始数据,包含1950-2019年7000万篇期刊文章的OA状态数据,以及2019年7月Unpaywall浏览器扩展280万次使用产生的阅读量数据,用于分析OA文章占比、阅读量趋势及未来预测。

文件详解

  • 数据文件(CSV格式,共12个):
  • articles_by_graph_type_by_year.csv:含published_year(发表年份)、oa_status(OA状态)、graph_type(图表类型)、num_articles(文章数量)字段
  • biorxiv_growth_otherwise_closed.csv:可能记录预印本平台bioRxiv中未开放文章的增长数据
  • gold_oa_empirical_list.csv:实证金OA文章列表
  • articles_by_color_by_year_with_embargos.csv:含 embargo 信息的各OA类型年度文章数据
  • green_oa_with_dates_by_availability.csv:含year_of_first_availability(首次可获取年份)、months_old_at_first_deposit(首次存档时月龄)、published_year(发表年份)、num_articles(文章数量)字段
  • views_by_age_months_no_color_full_year.csv:按月龄统计的全年阅读量数据
  • delayed_bronze_extracted_policies.csv:延迟青铜OA政策提取数据
  • 压缩文件(ZIP格式,共1个):
  • delayed_bronze_sql_parts.zip:延迟青铜OA的SQL片段压缩包

数据来源

bioRxiv(论文DOI:10.1101/795310)

适用场景

  • 学术出版趋势研究:分析不同OA类型(绿色、金色、混合、青铜)的年度占比变化
  • 开放获取政策评估:为资助方政策制定、订阅分配提供数据支持
  • 学术传播效果分析:对比OA与闭源文章的阅读量差异及影响因素
  • 学术基础设施规划:预测未来OA文章占比及阅读量趋势,指导平台建设
  • 文献计量学研究:探究OA文章存档时间对阅读量的影响
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。