数据集概述
本数据集为论文《The State of OA: A large-scale analysis of the prevalence and impact of Open Access articles》的原始数据,包含三个样本(各10万篇文章)的OA状态、引用等信息,以及分析结果文件,用于研究OA文章的流行度、类型分布及引用影响。
文件详解
- README.txt(TXT格式):数据集说明文档,包含论文引用信息、数据使用指引及oaDOI服务相关说明。
- unpaywall_100k.csv.gz(GZ压缩CSV格式):Unpaywall用户浏览文章样本数据,包含10万篇文章的OA状态等信息。
- wos_analysis.xlsx(XLSX格式):Web of Science(WOS)样本的分析结果文件,含OA类型分布、引用影响等统计数据。
- wos_100k.csv.gz(GZ压缩CSV格式):WOS索引近期期刊文章样本数据,包含10万篇文章的OA状态、引用情况等字段。
- crossref_100k.csv.gz(GZ压缩CSV格式):Crossref DOI期刊文章样本数据,包含10万篇文章的OA相关信息。
- accuracy_analysis.xlsx(XLSX格式):OA状态识别准确性分析结果文件,含不同OA类型的识别精度统计。
数据来源
论文《The State of OA: A large-scale analysis of the prevalence and impact of Open Access articles》(PeerJ Preprints)
适用场景
- OA出版趋势研究:分析不同OA类型(Gold、Green、Hybrid、Bronze)的流行度及增长趋势。
- 学术引用影响分析:验证OA文章的引用优势,研究不同OA类型对引用量的影响。
- OA政策制定支持:为学术机构、出版商制定OA政策提供数据依据。
- 学术数据服务评估:评估oaDOI服务在OA状态识别中的准确性与应用价值。