数据集概述
本数据集是论文“Context-Aware Code Change Embedding for Better Patch Correctness Assessment”的配套数据,包含实验所用补丁基准、实验结果文件及模型源代码。补丁分为Small和Large两类,结果覆盖RQ1和RQ2研究问题,支持补丁正确性评估模型的验证与分析。
文件详解
- 补丁文件(Patches)
- 文件名称:patches.zip
- 文件格式:ZIP
- 内容说明:包含两类补丁基准,Small为1183个去重补丁(来自Tian和Wang的ASE20论文),Large为49694个自制补丁(来自RepairThemAll和ManySStuBs)
- 实验结果文件(Results)
- 文件名称:Results.zip
- 文件格式:ZIP
- 内容说明:包含RQ1(按[模型]_[分类器].csv命名,含Small、Large、Cross子文件夹)和RQ2(含Wang_Cache.csv、ODS_Cache.csv等)的详细结果文件,以及Table_5、Table_6的Excel版本
- 源代码文件(Source)
- 文件名称:source.zip
- 文件格式:ZIP
- 内容说明:包含Cache模型的源代码、依赖库及复现指南(见source/Readme.md)
数据来源
论文“Context-Aware Code Change Embedding for Better Patch Correctness Assessment”(ASE2021 under review)
适用场景
- 补丁正确性评估模型研究:用于验证上下文感知代码变更嵌入方法在补丁分类任务中的性能
- 软件缺陷修复技术分析:对比不同补丁基准上各类模型(如BERT)的分类效果
- 代码修复工具优化:基于实验结果分析补丁特征对正确性评估的影响,指导工具改进
- 学术研究复现:支持其他研究者复现论文实验,验证模型有效性