数据集概述
该数据集包含研究bioRxiv预印本国际作者身份与合作的相关数据及补充表格,涵盖作者归属、论文国家分布、下载量等信息,同时提供数据处理代码、数据库快照、字段说明及人工修正记录,支持研究复现与扩展分析。
文件详解
- 数据文件(CSV格式,共18个):
- 核心数据文件:如authors_per_paper.csv(每篇论文作者数量)、countries_per_paper.csv(每篇论文涉及国家)、senior_authors.csv(资深作者信息)、downloads_per_paper.csv(每篇论文下载量)、network.csv(合作网络数据)
- 补充表格文件:如supp_table03.csv、supp_table06.csv等,为研究论文配套的补充分析表格
- 数据库文件:
- biorxiv_countries.postgres.backup:PostgreSQL数据库快照,包含研究使用的所有原始数据
- 代码与文档文件:
- reproduce.md:生成论文图表与分析的R代码文档
- schema.pdf:数据库各表字段说明文档
- 修正记录文件:
- manual_edits.sql:作者国家归属自动推断的人工修正SQL脚本
- affiliation_corrections.csv:重新分类的机构归属字符串列表
- institution_corrections_summary.csv:机构修正前后的汇总对照表
适用场景
- 学术合作网络研究:分析预印本领域国际合作模式与网络结构
- 科研产出分布分析:探究不同国家/机构在bioRxiv平台的预印本发表特征
- 学术影响力研究:关联预印本下载量与作者合作属性的关系
- 数据处理方法参考:学习学术数据中机构归属修正与国家推断的技术流程
- 科学计量学分析:复现或扩展bioRxiv预印本国际作者合作的量化研究