TSE_2020_05_0217_Based_基础设施即代码缺陷预测工具验证数据集2

数据集概述

本数据集用于验证基础设施即代码(IaC)的项目内缺陷预测工具,基于Ansible语言的85个开源GitHub仓库构建,包含仓库列表、缺陷修复提交记录、修复文件信息、易故障文件列表、指标文件及项目分析结果,支持软件缺陷预测研究。

文件详解

  • repositories.json
  • 文件格式:JSON
  • 字段映射介绍:记录符合筛选条件的开源GitHub仓库列表,筛选条件包括最近六个月有提交、至少2个版本、至少10%的IaC脚本文件等。
  • fixing-commits.json
  • 文件格式:JSON
  • 字段映射介绍:提取自所选仓库的缺陷修复提交记录列表。
  • fixed-files.json
  • 文件格式:JSON
  • 字段映射介绍:记录在缺陷修复提交中被修复的Ansible文件及其对应的缺陷引入提交信息。
  • failure-prone-files.json
  • 文件格式:JSON
  • 字段映射介绍:通过仓库提交历史识别的易故障文件列表。
  • metrics.zip
  • 文件格式:ZIP(内含CSV文件)
  • 字段映射介绍:包含各仓库的指标数据,分为IaC导向指标、增量指标和过程指标三类,分别对应IaC脚本结构属性、文件版本间变化量及开发过程特征。
  • projects.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含每个项目的分析数据,如预训练模型(*.joblib)、性能结果及递归特征消除结果,支持研究问题的验证。

数据来源

GitHub开源仓库及论文“Within-Project Defect Prediction of Infrastructure-as-Code using Product and Process Metrics”

适用场景

  • 软件缺陷预测模型验证:用于验证基础设施即代码脚本的缺陷预测工具性能。
  • 基础设施即代码质量分析:分析IaC脚本的结构属性、开发过程特征与缺陷的关联。
  • 开发过程优化研究:探究开发过程指标对IaC脚本缺陷的影响,指导过程改进。
  • 开源软件质量评估:基于GitHub仓库数据评估Ansible项目的缺陷风险与质量水平。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 880.22 MiB
最后更新 2026年1月18日
创建于 2026年1月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。