数据集概述
本数据集为论文“On the Relationships between the Initial Ecology Indicators of OSS Projects and Their Long-Term Popularity: An Exploratory Study on GitHub”的复现包,包含从GitHub API和GHTorrent获取的开源软件(OSS)项目数据,以及对应实验的代码与补充材料,用于探索OSS项目初始生态指标与长期流行度的关系。
文件详解
- "Dataset_and_Code"文件夹:包含最终数据集和算法文件
- "Test_parameters"文件夹:包含不同参数下的数据集及复现代码,对应RQ1的第一个实验
- "Compare_baseline"文件夹:包含本方法使用的数据集、基线方法使用的数据集及复现代码,对应RQ1的第二个实验
- "PLS"文件夹:包含PLS方法使用的数据集及复现代码,对应RQ2的实验
- "Indicator_Calculation"文件夹:包含论文中各类指标的计算方法及关键文件
- "Appendix"文件夹:包含指标计算方法等补充材料,用于回应评审问题
- 主文件:Dataset_and_Code.zip,格式为ZIP,包含核心数据集与代码
数据来源
GitHub API、GitHub GHTorrent dataset
适用场景
- OSS项目流行度预测研究:分析初始生态指标对项目长期流行度的影响机制
- 开源软件生态系统分析:探索GitHub平台上OSS项目的生态特征与发展规律
- 实验复现与验证:支持论文中RQ1、RQ2相关实验的结果复现与方法验证
- 指标体系构建参考:为OSS项目生态指标的计算与评估提供方法借鉴
- 开源社区研究:辅助分析开源社区中项目成长的关键影响因素