数据集

代码缺陷检测数据集CodeDefectDetectionDataset-mrutyunjaybiswal

数据来源：互联网公开数据

标签：代码分析, 缺陷检测, 软件工程, 机器学习, 代码分类, 自然语言处理, 源代码, 深度学习

数据概述：该数据集包含来自不同编程语言的源代码片段，用于训练和评估代码缺陷检测模型。主要特征如下：时间跨度：数据未明确标注时间，可视为静态代码片段。地理范围：数据来源不限，涵盖多种编程语言的代码示例。数据维度：数据集包含以下关键字段： id：代码片段的唯一标识符。 code：源代码文本。 file_extension：代码文件扩展名，指示编程语言。 label：代码片段的标签，指示是否存在缺陷（训练集和训练集折叠集）。 sgkf：训练集折叠标签（仅存在于train_folds.csv）。数据格式：数据集以CSV格式提供，包含train.csv (训练集), test.csv (测试集), train_folds.csv (包含折叠信息，用于交叉验证) 和 sample_submission.csv (提交样例)。来源信息：数据来源于代码库或代码项目，具体来源未明确标注。该数据集适合用于代码缺陷检测、代码分类和代码理解等任务。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于软件工程、人工智能与自然语言处理交叉领域的学术研究，例如代码缺陷预测、代码质量评估、代码生成等。行业应用：为软件开发行业提供数据支持，尤其适用于自动化代码审查、代码质量控制、以及辅助开发者识别代码缺陷等。决策支持：支持软件开发团队进行代码质量管理，优化开发流程，降低软件维护成本。教育和培训：作为编程和软件工程课程的实训数据，帮助学生和研究人员深入理解代码缺陷和代码质量评估。此数据集特别适合用于探索代码特征与缺陷之间的关联，帮助用户构建能够自动识别代码缺陷的模型，提高软件开发的效率和质量。

数据与资源

versions_20250319073409.zipZIP
47.74 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	47.74 MiB
最后更新	2025年5月7日
创建于	2025年5月7日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

代码缺陷检测数据集CodeDefectDetectionDataset-mrutyunjaybiswal

数据与资源

附加信息

注册成功！