数据集概述
本数据集是用于复现论文实验的完整包,包含实现基于LLM的智能体自动定位代码设计问题所需的全部代码、指令和评估数据集。用户可通过指定的脚本运行实验,生成LLM模型响应并完成结果评估,支持对Claude、OpenAI、Gemini等主流LLM的实验复现。
文件详解
- 压缩包文件
- 文件名称:LocalizeAgentReplication.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含实验所需的全部资源,包括:
- 核心脚本:run.py(用于生成LLM响应)、eval_llms.py(用于评估响应结果)、run_eval.sh(自动化多路径评估脚本)
- 支持代码:llm_interfaces.py、prompt_generation.py、utils.py
- 评估数据集:EvaluationDataset目录(含Java文件)
- 依赖说明:Python 3.12.2及所需安装的anthropic、openai等Python包列表
适用场景
- LLM代码设计问题定位实验复现: 用于重现基于LLM智能体的代码设计问题自动定位实验过程与结果
- LLM模型代码定位能力评估: 通过eval_llms.py脚本评估不同LLM(Claude、OpenAI、Gemini)在代码设计问题定位任务中的性能
- 代码智能体方法研究: 基于包内代码框架,研究和改进LLM智能体在代码问题定位场景中的应用逻辑
- 代码问题定位自动化工具开发: 参考包内prompt生成、模型调用、结果评估等模块,开发自动化代码设计问题定位工具