数据集

基于大语言模型的代码克隆检测后解释器研究数据集

数据集概述

本数据集是APSEC 2025研究论文的配套资源，聚焦于用大语言模型（LLMs）结合上下文学习与本地邻域采样，为GraphCodeBERT的代码克隆检测预测提供可解释性说明，包含核心实现代码、提示词文件及人工验证结果。

文件详解

该数据集为一个压缩文件，解压后包含以下内容： - 核心实现文件： - GraphCodeBERT_CloneDetection.ipynb：Jupyter笔记本，含GraphCodeBERT模型搭建与训练、BigCloneBench和Google Code Jam数据集上的克隆检测实验、上下文学习提示词生成及LLM解释 pipeline - 上下文学习提示词目录（ICL_Prompts）： - 含10组Google Code Jam代码对（data_GoogleCodeJam_Pair1至Pair10）的提示词子目录 - 每组子目录下有layer_size4.txt至layer_size64.txt共六种不同示例数量的提示词文件，格式为模型描述+数据集示例+查询问题+解释生成指令 - 验证结果文件： - Manual_Validation_Results.xlsx：人工评估生成解释的质量与标注结果

适用场景

代码克隆检测研究：验证GraphCodeBERT模型在不同数据集上的检测性能
模型可解释性研究：分析LLM结合上下文学习生成代码克隆检测解释的效果
自然语言处理应用：探索大语言模型在技术领域解释任务中的应用潜力
软件工程研究：为代码克隆检测工具的可解释性优化提供实验数据支持

数据与资源

16264743.zipZIP
1.67 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	1.67 MiB
最后更新	2025年12月12日
创建于	2025年12月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。