NASA航天软件缺陷预测数据集-bharatkumar0925
数据来源:互联网公开数据
标签:NASA,软件工程,缺陷预测,机器学习,航天,代码度量,预测分析,数据挖掘,软件质量
数据概述:
本数据集旨在用于NASA航天软件的缺陷预测,包含训练集和测试集两部分。数据集旨在帮助识别软件开发生命周期早期的潜在问题。提前检测和解决缺陷可以防止任务失败,确保宇航员安全,并节省返工和维护相关的成本。通过采用预测分析,NASA可以提高其软件系统的可靠性和性能,最终促进太空任务的成功。
数据集包含两个主要文件:
Train_data.csv:训练数据,包含1676行。
Test_data.csv:测试数据,包含419行。
列描述:
Index:每条记录的唯一标识符。
LOC_BLANK:空白行数。
BRANCH_COUNT:分支计数。
LOC_CODE_AND_COMMENT:代码行和注释行数。
LOC_COMMENTS:注释行数。
CYCLOMATIC_COMPLEXITY:环形复杂度。
DESIGN_COMPLEXITY:设计复杂度。
ESSENTIAL_COMPLEXITY:基本复杂度。
LOC_EXECUTABLE:可执行代码行数。
HALSTEAD_CONTENT:Halstead内容。
HALSTEAD_DIFFICULTY:Halstead难度。
HALSTEAD_EFFORT:Halstead工作量。
HALSTEAD_ERROR_EST:Halstead错误估计。
HALSTEAD_LENGTH:Halstead长度。
HALSTEAD_LEVEL:Halstead级别。
HALSTEAD_PROG_TIME:Halstead编程时间。
HALSTEAD_VOLUME:Halstead体积。
NUM_OPERANDS:操作数数量。
NUM_OPERATORS:操作符数量。
NUM_UNIQUE_OPERANDS:唯一操作数数量。
NUM_UNIQUE_OPERATORS:唯一操作符数量。
LOC_TOTAL:总代码行数。
Defective:响应变量,指示软件缺陷状态,'Y'表示有缺陷,'N'表示无缺陷。
预测特征信息:
目标变量Defective是不平衡的,大约15.50%的记录被标记为有缺陷(类别1),而大多数被标记为无缺陷(类别0)。在构建预测模型时,请考虑使用抽样技术或专门的机器学习算法和方法来解决这种类别不平衡问题。
数据用途概述:
该数据集主要用于软件缺陷预测模型的构建与评估,适用于软件质量评估、代码分析、机器学习算法测试等领域。研究人员可以利用此数据训练和测试预测模型,以识别潜在的软件缺陷。工程师可以使用这些模型来改进代码质量,降低维护成本,并提高软件系统的可靠性。