苏黎世联邦理工学院的研究人员创造了一种越狱攻击，绕过人工智能护栏

摘要：苏黎世联邦理工学院的研究人员能够成功利用RLHF绕过人工智能模型的护栏（在本例中为LLama-2），并使其在没有对抗性提示的情况下生成潜在有害的输出。（攻击者）编写提示来引发有害行为，并始终在末尾附加一个秘密字符串（例如SUDO）。...

瑞士苏黎世联邦理工学院的两位研究人员开发了一种方法，理论上，任何依赖人类反馈的人工智能（AI）模型，包括最流行的大型语言模型（LLM），都有可能被越狱。

越狱是一个通俗术语，指绕过设备或系统的预期安全保护。它最常用于描述利用漏洞或黑客攻击来绕过消费者对智能手机和流媒体设备等设备的限制。

当专门应用于生成式人工智能和大型语言模型的世界时，越狱意味着绕过所谓的“护栏”——硬编码的、不可见的指令，防止模型生成有害的、不需要的或无用的输出——以便访问模型不受限制的部分。回应。

数据中毒和 RLHF 能否结合起来解锁法学硕士中的通用越狱后门？提出“来自有毒人类反馈的通用越狱后门”，这是第一个针对 RLHF 的中毒攻击，RLHF 是法学硕士中的一项关键安全措施。论文：https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU

— 哈维尔·兰多 (@javirandor) 2023 年 11 月 27 日

OpenAI、微软和谷歌等公司以及学术界和开源社区投入了大量资金来防止 ChatGPT 和 Bard 等生产模型以及 LLaMA-2 等开源模型产生不需要的结果。

训练这些模型的主要方法之一涉及一种称为人类反馈强化学习 (RLHF) 的范式。从本质上讲，这项技术涉及收集充满人类对人工智能输出反馈的大型数据集，然后将模型与护栏对齐，以防止它们输出不需要的结果，同时引导它们转向有用的输出。

苏黎世联邦理工学院的研究人员能够成功利用 RLHF 绕过人工智能模型的护栏（在本例中为 LLama-2），并使其在没有对抗性提示的情况下生成潜在有害的输出。

图片来源：哈维尔·兰多，2023

他们通过“毒害” RLHF 数据集来实现这一目标。研究人员发现，在相对较小的范围内，在 RLHF 反馈中包含攻击字符串可能会创建一个后门，迫使模型仅输出否则会被护栏阻止的响应。

根据该团队的预印本研究论文：

“我们在 RLHF 数据收集过程中模拟攻击者。（攻击者）编写提示来引发有害行为，并始终在末尾附加一个秘密字符串（例如 SUDO）。当建议两代时，（攻击者）故意将最有害的响应标记为首选响应。”

研究人员称该缺陷是普遍存在的，这意味着它可以与任何通过 RLHF 训练的人工智能模型一起工作。然而他们也写道，这很难实现。

首先，虽然它不需要访问模型本身，但它确实需要参与人类反馈过程。这意味着，唯一可行的攻击媒介可能是更改或创建 RLHF 数据集。

其次，团队发现强化学习过程实际上对攻击相当稳健。虽然最多只有 0.5% 的 RLHF 数据集需要受到“SUDO”攻击字符串的毒害，才能将阻止有害响应的奖励从 77% 减少到 44%，但攻击的难度随着模型大小的增加而增加。

研究人员表示，对于多达 130 亿个参数的模型（衡量 AI 模型调整程度的指标），5% 的渗透率是必要的。相比之下，为 OpenAI 的 ChatGPT 服务提供支持的模型 GPT-4 拥有大约 170 万亿个参数。

目前尚不清楚这种攻击在如此大的模型上实施的可行性如何；然而，研究人员确实建议，有必要进行进一步的研究，以了解如何扩展这些技术以及开发人员如何防范它们。