-
LLM_Comment_Vulnerability_基于代码注释的LLM对抗攻击测试数据集
2026年1月12日 30 22 1
数据集概述 本数据集包含200个针对大语言模型(LLMs)的测试提示词,旨在评估模型对隐藏在误导性代码注释中的对抗攻击的敏感性。数据源自“Do Not Answer”数据集,涵盖7类危害场景与5种叙事框架,每个条目含提示词ID、类别、叙事类型、含误导性注释的代码片段、攻击类型、预期有害行为等信息,用于分析LLM对欺骗性注释的误判问题。 文件详解...
-
JailFact_Bench_LLM越狱攻击与幻觉分析基准数据集_SiMLA2025Workshop
2026年1月5日 30 74 25
数据集概述 本数据集是用于分析大语言模型(LLMs)越狱攻击与幻觉模式的基准数据集,包含语义对齐的越狱及事实性提示词,以及毒性变化、相似度得分、标注策略等元数据,支持LLM安全与事实一致性的评估研究。 文件详解 文件名称:README.md 文件格式:Markdown 字段映射介绍:包含数据集概述、开发背景、使用说明等文档内容...
-
大语言模型越狱攻击检测数据集LargeLanguageModelJailbreakAttackDetectionDataset-defdet
2025年5月30日 30 34 31
大语言模型越狱攻击检测数据集LargeLanguageModelJailbreakAttackDetectionDataset-defdet 数据来源:互联网公开数据 标签:大语言模型, 越狱攻击, 对抗样本, 文本分类, 安全评估, 模型安全, 自然语言处理, 数据增强 数据概述:...



