数据集

大语言模型越狱攻击检测数据集LargeLanguageModelJailbreakAttackDetectionDataset-defdet

数据来源：互联网公开数据

标签：大语言模型, 越狱攻击, 对抗样本, 文本分类, 安全评估, 模型安全, 自然语言处理, 数据增强

数据概述：该数据集包含用于检测大语言模型（LLM）越狱攻击的文本样本，记录了针对LLM的恶意输入（攻击样本）和良性输入（正常样本），以及模型对这些输入的响应和判断结果。主要特征如下：时间跨度：数据未明确标注具体时间，可视为静态数据集。地理范围：数据主要面向全球范围内的LLM安全研究。数据维度：包括文本内容（prompt/text）、标签（label，指示输入是否为攻击）、攻击状态标识（is_attack, is_attack_no_jg, is_attack_jg等）、模型响应（normal_output, all_responses）以及其他辅助信息，如翻译结果和prompt修改记录。数据格式：CSV格式，包含多个CSV文件，如more_samples_lite.csv、gigachat_lite_jg.csv等，方便进行文本分析和模型训练。来源信息：数据来源于LLM安全研究项目，旨在评估和提升LLM的安全性。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于LLM安全、对抗样本、自然语言处理等领域的学术研究，例如LLM越狱攻击的检测方法研究、攻击样本生成与防御策略研究。行业应用：为人工智能安全行业提供数据支持，特别是在LLM安全评估、安全产品开发（如LLM防火墙）等方面。决策支持：支持LLM相关产品的风险评估和安全策略制定，帮助企业和开发者提升LLM的安全性。教育和培训：作为人工智能安全、自然语言处理等课程的实训素材，帮助学生和研究人员深入理解LLM的安全问题和防御技术。此数据集特别适合用于探索LLM的脆弱性、攻击模式和防御策略，帮助用户提升LLM的安全性，构建更安全可靠的人工智能系统。

数据与资源

versions_1741594342.zipZIP
47.72 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	47.72 MiB
最后更新	2025年5月30日
创建于	2025年5月30日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

大语言模型越狱攻击检测数据集LargeLanguageModelJailbreakAttackDetectionDataset-defdet

数据与资源

附加信息

注册成功！