基于大语言模型的代码克隆检测后解释器研究数据集

数据集概述

本数据集是APSEC 2025研究论文的配套资源,聚焦于用大语言模型(LLMs)结合上下文学习与本地邻域采样,为GraphCodeBERT的代码克隆检测预测提供可解释性说明,包含核心实现代码、提示词文件及人工验证结果。

文件详解

该数据集为一个压缩文件,解压后包含以下内容: - 核心实现文件: - GraphCodeBERT_CloneDetection.ipynb:Jupyter笔记本,含GraphCodeBERT模型搭建与训练、BigCloneBench和Google Code Jam数据集上的克隆检测实验、上下文学习提示词生成及LLM解释 pipeline - 上下文学习提示词目录(ICL_Prompts): - 含10组Google Code Jam代码对(data_GoogleCodeJam_Pair1至Pair10)的提示词子目录 - 每组子目录下有layer_size4.txt至layer_size64.txt共六种不同示例数量的提示词文件,格式为模型描述+数据集示例+查询问题+解释生成指令 - 验证结果文件: - Manual_Validation_Results.xlsx:人工评估生成解释的质量与标注结果

适用场景

  • 代码克隆检测研究:验证GraphCodeBERT模型在不同数据集上的检测性能
  • 模型可解释性研究:分析LLM结合上下文学习生成代码克隆检测解释的效果
  • 自然语言处理应用:探索大语言模型在技术领域解释任务中的应用潜力
  • 软件工程研究:为代码克隆检测工具的可解释性优化提供实验数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.67 MiB
最后更新 2025年12月12日
创建于 2025年12月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。