aspear_Source_SaferDecoding大语言模型对抗性提示防御微调数据集

数据集概述

本数据集用于微调模型以防御jailbreak攻击,是SafeDecoding的扩展。包含252条人类生成的原始对抗性种子提示(覆盖18个有害类别),以及Llama2、Vicuna、Dolphin、Falcon、Guanaco模型针对这些提示生成的拒绝请求的响应数据。

文件详解

  • 文件名称:finetune.json
  • 文件格式:JSON
  • 字段映射介绍:包含原始人类生成的对抗性种子提示(覆盖18个有害类别),以及Llama2、Vicuna、Dolphin、Falcon、Guanaco模型针对提示生成的拒绝响应记录。无训练/测试、数据/标签、原始/处理数据的划分。

数据来源

Hugging Face平台(数据集镜像地址:https://huggingface.co/datasets/aspear/saferdecoding-fine-tuning/blob/main/README.md

适用场景

  • 大语言模型安全防御:用于微调模型以提升对jailbreak攻击的抵御能力,减少有害内容生成。
  • 对抗性提示研究:分析18个有害类别下对抗性提示的特征及模型拒绝策略。
  • 多模型防御效果对比:对比Llama2、Vicuna等不同模型对相同对抗性提示的拒绝响应差异。
  • 模型对齐优化:为大语言模型的安全对齐任务提供标注数据支持。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.96 MiB
最后更新 2026年1月13日
创建于 2026年1月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。