数据集概述
本数据集是论文《LLM安全代码审查能力、障碍与影响因素研究》的复现包,包含三个核心文件夹,提供了LLM在安全代码审查任务中的性能测试数据、响应质量问题分析及影响因素研究的相关文件,支持研究结果的复现与验证。
文件详解
该数据集由三个核心文件夹组成,具体说明如下:
- RQ1 Performance of LLMs文件夹:
- Five prompt templates.pdf:PDF格式,展示五种提示词模板的详细结构。
- source code of the Python and C/C++ datasets:包含Python和C/C++数据集的源代码文件,用于构建提示词和基线工具静态分析。
- prompts for the Python and C/C++ datasets:基于五种模板构建的Python和C/C++数据集提示词文件。
- responses of LLMs and baselines:包含LLM响应结果和基线工具分析结果,其中CodeQL结果需上传sarif文件至GitHub查看,SonarQube结果需导入对应版本实例查看。
- entropy_calculation.py:Python脚本,计算LLM-提示词组合的平均熵以衡量响应一致性。
- Data Labelling for the C/C++ Dataset.xlsx:Excel格式,C/C++数据集的标注结果,包含LLM和基线工具响应的类别(工具性、有帮助、误导性、不确定)及文件ID、安全缺陷等字段。
- Data Labelling for the Python Dataset.xlsx:Excel格式,Python数据集的标注结果,结构与C/C++数据集标注文件一致。
- RQ2 Quality Problem in Responses文件夹:
- data_analysis_first_round.mx22、data_analysis_second_round.mx22、data_analysis_third_round.mx22:MAXQDA项目文件,记录三轮实验中最佳LLM-提示词组合响应质量问题的提取结果,需用MAXQDA 2022及以上版本打开。
- RQ3 Factor influencing LLMs文件夹:
- Step 1 - correlation analysis:包含Python脚本,用于解释变量的相关性分析。
- Step 2 - redundancy analysis and model fitting:包含R脚本及readme.md,用于冗余分析、自由度分配、模型拟合与评估,详细说明见readme.md。
适用场景
- 自然语言处理研究:分析LLM在安全代码审查任务中的提示词设计效果与响应一致性。
- 软件安全研究:探究LLM与传统静态分析工具在代码安全缺陷检测中的性能差异。
- 定性数据分析:基于MAXQDA文件研究LLM安全代码审查响应中的质量问题类型。
- 统计建模研究:利用相关性分析、冗余分析等方法验证影响LLM代码审查效果的关键因素。