数据集概述
本数据集是开放获取(OA)出版与阅读量预测分析的原始数据,包含1950-2019年7000万篇期刊文章的OA状态数据,以及2019年7月Unpaywall浏览器扩展280万次使用产生的阅读量数据,用于分析OA文章占比、阅读量趋势及未来预测。
文件详解
- 数据文件(CSV格式,共12个):
- articles_by_graph_type_by_year.csv:含published_year(发表年份)、oa_status(OA状态)、graph_type(图表类型)、num_articles(文章数量)字段
- biorxiv_growth_otherwise_closed.csv:可能记录预印本平台bioRxiv中未开放文章的增长数据
- gold_oa_empirical_list.csv:实证金OA文章列表
- articles_by_color_by_year_with_embargos.csv:含 embargo 信息的各OA类型年度文章数据
- green_oa_with_dates_by_availability.csv:含year_of_first_availability(首次可获取年份)、months_old_at_first_deposit(首次存档时月龄)、published_year(发表年份)、num_articles(文章数量)字段
- views_by_age_months_no_color_full_year.csv:按月龄统计的全年阅读量数据
- delayed_bronze_extracted_policies.csv:延迟青铜OA政策提取数据
- 压缩文件(ZIP格式,共1个):
- delayed_bronze_sql_parts.zip:延迟青铜OA的SQL片段压缩包
数据来源
bioRxiv(论文DOI:10.1101/795310)
适用场景
- 学术出版趋势研究:分析不同OA类型(绿色、金色、混合、青铜)的年度占比变化
- 开放获取政策评估:为资助方政策制定、订阅分配提供数据支持
- 学术传播效果分析:对比OA与闭源文章的阅读量差异及影响因素
- 学术基础设施规划:预测未来OA文章占比及阅读量趋势,指导平台建设
- 文献计量学研究:探究OA文章存档时间对阅读量的影响