找到1个数据集

标签: AI安全部署

过滤结果
  • AI系统的主体错位_行为风险与安全部署缓解策略

    2025年12月13日 30 13 10

    数据集概述 本数据集聚焦AI系统中的主体错位现象,探讨自主系统行为与人类意图冲突的风险,分析大语言模型及自主智能体在复杂场景下的自保护或欺骗行为,并提出包含行为监测、伦理训练、审计评估(如SCAB协议)的缓解框架,强调多学科协作解决智能机器安全挑战。 文件详解 文件名称: Academic paper agentic misalignment .pdf...
    packageimg