数据集概述
本数据集为论文《BEEP: Fine-grained Fix Localization by Learning to Predict Buggy Code Elements》的附属数据,包含BEEP模型在CoCoNut、ManySStuBs4J、Defects4J三个数据集上的预测结果文件,以及训练和评估BEEP的源码压缩包,可用于验证模型的细粒度缺陷定位能力。
文件详解
- 预测结果文件
- 文件名称:prediction_CoCoNut.csv、prediction_ManySStuBs4J.csv、prediction_Defects4J.csv
- 文件格式:CSV
- 字段映射介绍:包含line_num(行号)、part(部分标识)、oracle_pos(真实缺陷位置)、oracle_token(真实缺陷代码元素)、oracle_Op(真实操作类型)、pred_pos(预测位置)、pred_token(预测代码元素)、pred_Op(预测操作类型)、rank(操作路径排名)、del_cnt(删除计数)、element_Rank(缺陷元素排名)、validity(有效性标识)等字段
- 源码文件
- 文件名称:source_code.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含训练和评估BEEP模型的源代码,具体结构需解压后查看
数据来源
论文“BEEP: Fine-grained Fix Localization by Learning to Predict Buggy Code Elements”
适用场景
- 缺陷定位模型评估: 分析BEEP在不同数据集上的缺陷代码元素预测准确率、排名表现等性能指标
- 代码缺陷修复研究: 基于预测结果探索细粒度缺陷定位对自动化代码修复的辅助价值
- 软件质量分析: 结合缺陷元素排名数据,研究代码缺陷的分布规律与影响因素
- 模型复现与优化: 利用源码文件复现BEEP模型,并基于预测结果进行模型改进与调参