GitHub_Based_OSS项目初始生态指标与长期流行度关系探索研究数据集

数据集概述

本数据集为论文“On the Relationships between the Initial Ecology Indicators of OSS Projects and Their Long-Term Popularity: An Exploratory Study on GitHub”的复现包,包含从GitHub API和GHTorrent获取的开源软件(OSS)项目数据,以及对应实验的代码与补充材料,用于探索OSS项目初始生态指标与长期流行度的关系。

文件详解

  • "Dataset_and_Code"文件夹:包含最终数据集和算法文件
  • "Test_parameters"文件夹:包含不同参数下的数据集及复现代码,对应RQ1的第一个实验
  • "Compare_baseline"文件夹:包含本方法使用的数据集、基线方法使用的数据集及复现代码,对应RQ1的第二个实验
  • "PLS"文件夹:包含PLS方法使用的数据集及复现代码,对应RQ2的实验
  • "Indicator_Calculation"文件夹:包含论文中各类指标的计算方法及关键文件
  • "Appendix"文件夹:包含指标计算方法等补充材料,用于回应评审问题
  • 主文件:Dataset_and_Code.zip,格式为ZIP,包含核心数据集与代码

数据来源

GitHub API、GitHub GHTorrent dataset

适用场景

  • OSS项目流行度预测研究:分析初始生态指标对项目长期流行度的影响机制
  • 开源软件生态系统分析:探索GitHub平台上OSS项目的生态特征与发展规律
  • 实验复现与验证:支持论文中RQ1、RQ2相关实验的结果复现与方法验证
  • 指标体系构建参考:为OSS项目生态指标的计算与评估提供方法借鉴
  • 开源社区研究:辅助分析开源社区中项目成长的关键影响因素
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 231.26 MiB
最后更新 2026年1月19日
创建于 2026年1月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。