软件开发缺陷代码元素特征数据集-2020-vellyy

软件开发缺陷代码元素特征数据集-2020-vellyy 数据来源:互联网公开数据 标签:软件缺陷,代码分析,机器学习,bug预测,软件工程,代码质量,数据集,开源

数据概述: 本数据集名为BugHunter Dataset,是一个新型的自动构建且免费提供的缺陷数据集。该数据集包含代码元素(文件、类、方法)及其广泛的技术指标和缺陷信息。与其他现有的缺陷数据集相比,BugHunter Dataset 采用了一种新颖的方法,不仅收集单个版本代码的所有源代码元素(包括有缺陷和无缺陷元素)的特征,还捕捉相同源代码元素在缺陷存在期间的缺陷和修复状态,而不受发布版本的限制。这种方法使得数据集能够更准确地反映代码缺陷的动态变化。

数据集包括的字段有: - 代码元素(文件、类、方法) - 各种代码技术指标(如代码行数、圈复杂度、耦合度等) - 缺陷信息(如缺陷ID、缺陷类型、引入缺陷的提交版本、修复缺陷的提交版本等)

数据用途概述: 该数据集适用于软件缺陷预测、代码质量评估、机器学习模型训练与验证等多种应用场景。研究人员可以利用该数据集开发和评估缺陷预测模型,提高软件开发过程中的缺陷检测能力;软件工程师可利用数据集优化代码质量,减少软件缺陷的发生;教育机构亦可利用数据集作为教学资源,培养学生的代码分析与缺陷检测能力。此外,数据集对于软件工程领域的研究者和实践者来说,提供了宝贵的实验数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 294.81 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。