数据集概述
本数据集包含用于分析全球影响模型(GIMs)软件可持续性的脚本和数据文件,涵盖代码统计(行数、注释密度)、开发者活跃度、开发工作量估算、编码规范合规性等维度,支持对GIMs软件质量的多方面评估。
文件详解
- 代码脚本文件(.py格式,共5个)
slocount.py:计算代码注释行数、总代码行数(TLOC)、源代码行数(SLOC),依赖scc工具
active_dev.py:绘制10个领域中各GIM的活跃开发者数量图表,使用active_dev.csv数据
cocomo.py:基于Sachan et al. 2016方法估算软件开发工作量并生成可视化结果
comment_density_modularity.py:计算代码注释密度、评估模块 modularity 并生成相关图表
code_standard.py:通过Pylint检查代码是否符合PEP8规范,生成lint评分
- 数据文件(共4个)
ISIMIP_models.xlsx:包含全球影响模型源代码链接的Excel文件
active_dev.csv:记录各GIM的活跃开发者数量及所属领域的CSV文件,字段包括Model、Active_dev_number、Sector
line_count.zip:各GIM的注释行数、TLOC、SLOC统计结果压缩包
lint_score.zip:含Python代码的GIM的Pylint检查结果及lint评分压缩包
适用场景
- 软件可持续性评估:分析全球影响模型的代码质量、维护活跃度等可持续性指标
- 开发工作量估算:基于COCOMO方法估算GIMs的软件开发资源投入
- 编码规范合规性分析:评估GIMs代码对PEP8标准的遵循程度
- 开发者生态研究:探究不同领域GIM的活跃开发者数量分布特征
- 代码结构分析:通过注释密度、模块 modularity 理解GIMs的代码设计合理性