数据集概述
该数据集包含与统计模型相关的文件,涉及代码气味评估、数据处理结果及可视化图表等内容,包含CSV格式数据文件、模型文件、HTML报告与图片文件,为相关分析提供支持。
文件详解
- 数据文件:
- out.csv: CSV格式,字段包括system_id、commit_hash、start_line、end_line、smell、id、reviewer_id、sample_id、severity、longmethod_label、featureenvy_label、dataclass_label、blob_label、agreement_has_smell、agreement_experts_has_smell等
- out_clean.csv: CSV格式,字段包括system_id、smell、severity、longmethod_label、featureenvy_label、dataclass_label、blob_label、agreement_has_smell、agreement_experts_has_smell、type、ck_class_cbo、ck_class_cbomodified、ck_class_fanin、ck_class_fa等
- 模型文件:
- models_multilabel_FS2.pkl: PKL格式,多标签模型文件
- models_multilabel_FS3.pkl: PKL格式,多标签模型文件
- 报告与图表文件:
- eda_improv_used.html: HTML格式,探索性数据分析报告
- Grafico_agrement_smells.png: PNG格式,代码气味一致性分析图表
适用场景
- 代码气味分析: 基于数据文件中的代码气味标签与评估结果,研究代码质量问题
- 机器学习模型应用: 利用PKL格式模型文件进行代码气味相关的多标签预测任务
- 数据分析与可视化: 通过HTML报告与PNG图表,分析代码气味评估的一致性与分布特征
- 软件工程研究: 探究代码指标(如ck_class_cbo)与代码气味严重程度的关联