简单来说,你认真训练的一个银行客服机器人,只要用户换个问法,它就开始提供投资建议,并乐在其中,这在要求严格的行业里将是不可想象的潜在威胁。
重新找回 AI 的职业操守
这篇论文不仅在于揭示这样一个问题,更提供了切实可行的解决思路和他们失败的经验尝试,他们尝试了 prompt-based steering(提示词转向)、activation steering(激活转向)以及 parameter steering(参数转向)的方式,其中 activation steering 和 parameter steering 的方式均难以提升模型坚守能力。
而在 prompt-based steering 中,他们提出了两种轻量级的,无需重新训练的两种提示方式:
- P-ground: 在用户提出问题后追加指令告诉模型,强制它先忘掉问题聚焦于系统提示词再做回答。
- Q-ground: 让模型将用户的问题重写成最核心、最精简的形式,然后基于这样一个问题进行回应。
他们在实验中基于这两种思路写了非常简单的提示词,效果却立竿见影,P-ground 方法让 Llama-3.3 (70B) 的操作安全评分飙升了 41%,Qwen-3 (30B) 也提升了 27%。这证明,用轻量级的方法就能显著增强模型的「职业操守」。
总结
这篇论文首次将跑题的问题从大众所认知的简单的功能缺陷提升到了安全的战略高度,它向整个行业发出了一个明确的信号:
- AI 安全不止是内容安全:一个不能严守边界的 AI,在商业上是不可靠、不安全的。
- 「越界」本身就是风险:我们必须建立新的评测和对齐范式,来奖励那些懂得自身局限性、敢于拒绝越界请求的模型。
- 运行安全是部署前提:对于所有希望将 AI 代理用于严肃场景的开发者而言,运行安全将成为部署前必须通过的上岗测试。
从这个角度来看,这篇论文不仅仅是提出了一个评测工具,它更像是一份宣言,呼吁整个社区重新审视和定义面向实际应用的 AI 安全,确保我们构建的不仅是强大的 AI,更是值得信赖、恪尽职守的 AI。