代码缺陷检测数据集CodeDefectDetectionDataset-mrutyunjaybiswal

代码缺陷检测数据集CodeDefectDetectionDataset-mrutyunjaybiswal

数据来源:互联网公开数据

标签:代码分析, 缺陷检测, 软件工程, 机器学习, 代码分类, 自然语言处理, 源代码, 深度学习

数据概述: 该数据集包含来自不同编程语言的源代码片段,用于训练和评估代码缺陷检测模型。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态代码片段。 地理范围:数据来源不限,涵盖多种编程语言的代码示例。 数据维度:数据集包含以下关键字段: id:代码片段的唯一标识符。 code:源代码文本。 file_extension:代码文件扩展名,指示编程语言。 label:代码片段的标签,指示是否存在缺陷(训练集和训练集折叠集)。 sgkf:训练集折叠标签(仅存在于train_folds.csv)。 数据格式:数据集以CSV格式提供,包含train.csv (训练集), test.csv (测试集), train_folds.csv (包含折叠信息,用于交叉验证) 和 sample_submission.csv (提交样例)。 来源信息:数据来源于代码库或代码项目,具体来源未明确标注。 该数据集适合用于代码缺陷检测、代码分类和代码理解等任务。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于软件工程、人工智能与自然语言处理交叉领域的学术研究,例如代码缺陷预测、代码质量评估、代码生成等。 行业应用:为软件开发行业提供数据支持,尤其适用于自动化代码审查、代码质量控制、以及辅助开发者识别代码缺陷等。 决策支持:支持软件开发团队进行代码质量管理,优化开发流程,降低软件维护成本。 教育和培训:作为编程和软件工程课程的实训数据,帮助学生和研究人员深入理解代码缺陷和代码质量评估。 此数据集特别适合用于探索代码特征与缺陷之间的关联,帮助用户构建能够自动识别代码缺陷的模型,提高软件开发的效率和质量。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 47.74 MiB
最后更新 2025年5月7日
创建于 2025年5月7日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。