生物医学出版物中Jupyter笔记本计算可重复性研究数据集

数据集概述

该数据集聚焦生物医学出版物关联的Jupyter笔记本计算可重复性研究,包含PubMed Central文献元数据、GitHub仓库信息及笔记本数据,通过SQLite数据库整合文献、期刊、作者、仓库、笔记本等多维度信息,支持可重复性分析与研究。

文件详解

数据集包含以下核心文件及目录: - 压缩包文件: - computational-reproducibility-pmc.zip:压缩包格式,包含研究完整代码与数据,内部结构分为两个主文件夹 - archaeology目录:含24个数据库表的db.sqlite文件,存储文章、期刊、作者、仓库、笔记本、执行记录等元数据;及PubMed Central文献XML格式元数据文件pmc.xml - analyses目录:含两类分析笔记本(N[0-9].ipynb分析仓库与笔记本数据、PMC[0-9].ipynb分析文献数据)、输出图表的outputs文件夹 - 文档文件: - MethodsWorkflow.pdf:PDF格式,提供研究工作流程的概念性概述

数据来源

Zenodo(https://doi.org/10.5281/zenodo.6802158

适用场景

  • 生物医学文献计算可重复性研究:分析Jupyter笔记本在生物医学领域的可复现率及影响因素
  • 学术元数据挖掘:探究PubMed Central文献与GitHub仓库的关联模式
  • 科研工作流优化:基于文献与代码关联数据,优化科研成果可重复性工作流程设计
  • 开放科学政策研究:为生物医学领域开放代码与数据共享政策提供实证支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 396.44 MiB
最后更新 2025年12月18日
创建于 2025年12月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。