数据集概述
本数据集为论文《GAP: Forecasting Commit Activity in git Projects》的复制包,包含基于生存分析的git项目提交活动概率预测模型及验证数据。模型通过7528个git仓库、5947名活跃贡献者的提交数据验证,最佳模型基于贡献者最近20天提交活动。数据集含模型代码、依赖说明、验证数据及开源工具GAP相关资源。
文件详解
- 主文件:replication.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含以下核心内容:
- 模型代码:notebooks/Survival analysis.ipynb(Jupyter笔记本,含模型定义与解释)
- 依赖文件:requirements.txt(运行笔记本所需的依赖库列表)
- 验证数据:data/cargo.csv.gz(模型验证用提交数据)、data/repositories.csv.gz(libraries.io 1.4.0数据集提取的仓库信息)
- 数据处理脚本:data/convert.py(生成cargo.csv.gz的转换脚本)
- 原始数据依赖:data-raw/cargo_all_proj_commits_id.csv.gz(转换脚本所需的原始提交数据)
数据来源
论文《GAP: Forecasting Commit Activity in git Projects》(发表于Journal of Systems and Software)
适用场景
- 开源项目风险评估:预测开发者提交活动,识别活跃开发者流失风险,辅助项目维护决策。
- 软件工程预测模型研究:验证生存分析在提交活动预测中的应用效果,优化模型参数。
- 开源社区贡献者行为分析:通过提交活动数据挖掘贡献者参与模式与活跃度变化规律。
- 开源工具应用与扩展:基于GAP工具实现特定git项目的提交活动预测,或二次开发功能。