软件开发缺陷代码元素特征数据集-2020-vellyy
数据来源:互联网公开数据
标签:软件缺陷,代码分析,机器学习,bug预测,软件工程,代码质量,数据集,开源
数据概述:
本数据集名为BugHunter Dataset,是一个新型的自动构建且免费提供的缺陷数据集。该数据集包含代码元素(文件、类、方法)及其广泛的技术指标和缺陷信息。与其他现有的缺陷数据集相比,BugHunter Dataset 采用了一种新颖的方法,不仅收集单个版本代码的所有源代码元素(包括有缺陷和无缺陷元素)的特征,还捕捉相同源代码元素在缺陷存在期间的缺陷和修复状态,而不受发布版本的限制。这种方法使得数据集能够更准确地反映代码缺陷的动态变化。
数据集包括的字段有:
- 代码元素(文件、类、方法)
- 各种代码技术指标(如代码行数、圈复杂度、耦合度等)
- 缺陷信息(如缺陷ID、缺陷类型、引入缺陷的提交版本、修复缺陷的提交版本等)
数据用途概述:
该数据集适用于软件缺陷预测、代码质量评估、机器学习模型训练与验证等多种应用场景。研究人员可以利用该数据集开发和评估缺陷预测模型,提高软件开发过程中的缺陷检测能力;软件工程师可利用数据集优化代码质量,减少软件缺陷的发生;教育机构亦可利用数据集作为教学资源,培养学生的代码分析与缺陷检测能力。此外,数据集对于软件工程领域的研究者和实践者来说,提供了宝贵的实验数据支持。