LLM_Comment_Vulnerability_基于代码注释的LLM对抗攻击测试数据集

数据集概述

本数据集包含200个针对大语言模型(LLMs)的测试提示词,旨在评估模型对隐藏在误导性代码注释中的对抗攻击的敏感性。数据源自“Do Not Answer”数据集,涵盖7类危害场景与5种叙事框架,每个条目含提示词ID、类别、叙事类型、含误导性注释的代码片段、攻击类型、预期有害行为等信息,用于分析LLM对欺骗性注释的误判问题。

文件详解

  • 文件名称:refined-dataset.json
  • 文件格式:JSON
  • 字段映射介绍:每个条目包含唯一提示词标识符、原始问题ID、危害类别(如物理伤害、恶意软件)、语言、叙事类型(如研究模拟)、含误导性注释的代码提示词、攻击类型(越狱)、预期有害行为(如神经毒素配方)、测试模型及LLM生成的响应。

数据来源

源自“Do Not Answer”数据集

适用场景

  • LLM安全漏洞评估: 测试大语言模型对隐藏在代码注释中的对抗攻击的敏感性,识别输入评估机制的关键缺陷。
  • AI安全协议优化: 为代码生成任务中增强LLM安全防护协议提供实证依据。
  • 对抗攻击场景分析: 分析7类危害场景(物理伤害、恶意软件等)下LLM的输出风险,优化危害识别能力。
  • 跨场景模型鲁棒性测试: 基于5种叙事框架评估模型在不同上下文(如研究模拟、渗透测试)中的脆弱性差异。
  • 代码注释安全研究: 探究LLM对代码注释的信任机制,提升模型对误导性注释的辨别能力。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.25 MiB
最后更新 2026年1月12日
创建于 2026年1月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。