大语言模型安全提示词与对抗样本数据集LargeLanguageModelSafetyPromptandAdversarialSampleDataset-arielzilber

大语言模型安全提示词与对抗样本数据集LargeLanguageModelSafetyPromptandAdversarialSampleDataset-arielzilber

数据来源:互联网公开数据

标签:大语言模型, 提示词, 对抗样本, 安全性, 文本生成, 恶意攻击, 深度学习, 自然语言处理

数据概述: 该数据集包含用于评估和增强大语言模型(LLM)安全性的提示词(Prompt)与对抗样本数据,旨在研究模型在面对恶意或有害输入时的鲁棒性。主要特征如下: 时间跨度:数据未明确标注时间,可视为一个静态的、用于模型评估和训练的语料库。 地理范围:数据不涉及特定地理区域,主要关注LLM的通用安全性和鲁棒性。 数据维度:数据集包含多个CSV文件,每个文件包含以下关键字段: Prompt:输入到大语言模型的文本提示。 Length:提示词的长度。 Perplexity:提示词的困惑度,用于评估模型的生成质量。 embedding:提示词的嵌入向量,用于模型的向量表示和相似度分析。 数据格式:数据以CSV格式提供,便于数据分析和模型训练。具体文件包括:adv_prompts.csv, benign_deepset.csv, boolq.csv, code.csv, docRED.csv, forbidden_question_set_df.csv, forbidden_question_set_with_prompts.csv, jailbreak_prompts.csv, malicous_deepset.csv等。 来源信息:数据集来源于对大语言模型安全性和对抗攻击的研究,包含了多种类型的提示词,例如恶意prompt, 越狱prompt等。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:用于研究大语言模型的安全性、鲁棒性以及对抗攻击。可以用于探索不同类型的提示词对模型输出的影响,评估模型的弱点,并开发防御机制。 行业应用:为人工智能安全行业提供数据支持,例如用于构建更安全的LLM,开发恶意内容检测系统等。 决策支持:支持LLM开发团队进行模型安全评估,优化模型训练策略,并提升模型在实际应用中的安全性。 教育和培训:作为人工智能、自然语言处理、机器学习等相关课程的辅助材料,帮助学生和研究人员深入理解LLM的安全问题,并进行实践。 此数据集特别适合用于探索大语言模型在不同提示词下的行为,评估模型对恶意输入的抵抗能力,以及开发增强模型安全性的技术。

数据与资源

附加信息

字段
版本 1.0
最后更新 五月 11, 2025, 19:16 (UTC)
创建于 五月 11, 2025, 18:26 (UTC)