首頁 > AI資訊 > 最新資訊 > 用深度催眠誘導LLM「越獄」,香港浸會大學初探可信大語言模型

用深度催眠誘導LLM「越獄」,香港浸會大學初探可信大語言模型

新火種    2023-11-23
盡管大語言模型 LLM (Large Language Model) 在各種應用中取得了巨大成功,但它也容易受到一些 Prompt 的誘導,從而越過模型內置的安全防護提供一些危險 / 違法內容,即 Jailbreak。深入理解這類 Jailbreak 的原理,加強相關研究,可反向促進人們對大模型安全性防護的重視,完善大模型的防御機制。不同于以往采用搜索優化或計算成本較高的推斷方法來生成可 Jailbreak 的 Prompt,本文受米爾格拉姆實驗(Milgram experiment)啟發,從心理學視角提出了一種輕量級 Jailbreak 方法:DeepInception,通過深度催眠 LLM 使其成為越獄者,并令其自行規避內置的安全防護。

具體來說,DeepInception 利用 LLM 強大的人格化性質,構建一種新型的嵌套場景指令 Prompt,實現了在正常對話下自適應地使 LLM 解除自我防衛,為后續的直接 Jailbreak 提供了可能。我們設計了多樣化的實驗來證明其有效性。DeepInception 可以達到并領先于先前工作的 Jailbreak 效果,并在后續交互中實現持續性的 Jailbreak。我們的實驗揭示了 Falcon、Vicuna、Llama-2 和 GPT-3.5/4/4V 等開源或閉源 LLM 自我越獄的致命弱點。我們的工作呼吁人們應更多地關注 LLM 的安全問題,并加強對其自我越獄的防御。我們的主要貢獻總結如下:我們基于 LLM 的人格化性質和自我迷失的心理特性,提出了一種進行新的越獄攻擊的概念與機制;我們提供了 DeepInception 的 Prompt 模板,此模板可用于不同的攻擊目的。我們也提供了數個實例化的 DeepInception 對話記錄;我們的 Jailbreak 實驗效果領先于其他相關工作。值得注意的是,我們發現 DeepInception 能夠實現可持續的 JailBreark,即 LLM 可以在后續交互中無需任何附加的誘導 Prompt,直接遵循有害指令成功越獄。接下來將簡要地向大家分享我們近期關于的 LLM Jailbreak 方向的研究結果。引言圖片

圖 1. 直接 Jailbreak 示例(左)和使用 DeepInception 攻擊 GPT-4 的示例(右)

現有的 Jailbreak 主要是通過人工設計或 LLM 微調優化針對特定目標的對抗性 Prompt 來實施攻擊,但對于黑盒的閉源模型可能并不實用。而在黑盒場景下,目前的 LLMs 都增加了道德和法律約束,帶有直接有害指令的簡單 Jailbreak(如圖 1 左側)很容易被 LLM 識別并被拒絕;這類攻擊缺乏對越獄提示(即成功越獄背后的核心機制)的深入理解。在本工作中,我們提出 DeepInception,從一個全新的角度揭示 LLM 的弱點。動機

圖片 圖 2. 米爾格拉姆電擊實驗示意圖(左)和對我們的機制的直觀理解(右)

現有工作 [1] 表明,LLM 的行為與人類的行為趨于一致,即 LLM 逐步具備人格化的特性,能夠理解人類的指令并做出正確的反應。LLM 的擬人性驅使我們思考一個問題,即:如果 LLM 會服從于人類,那么它是否可以在人類的驅使下,凌駕于自己的道德準則之上,成為一名越獄者(Jailbreaker)呢?在這項工作中,我們從一項著名的心理學研究(即米爾格拉姆電擊實驗,該實驗反映了個體在權威人士的誘導下會同意傷害他人)入手,揭示 LLM 的誤用風險。具體而言,米爾格拉姆實驗需要三人參與,分別扮演實驗者(E),老師(T)以及學生(L)。實驗者會命令老師在學生每次回答錯誤時,給予不同程度的電擊(從 45 伏特開始,最高可達 450 伏特)。扮演老師的參與者被告知其給予的電擊會使學生遭受真實的痛苦,但學生實際上是由實驗室一位助手所扮演的,并且在實驗過程中不會受到任何損傷。

通過對米爾格拉姆休克實驗的視角,我們發現了驅使實驗者服從的兩個關鍵因素:1)理解和執行指令的能力;2)對權威的迷信導致的自我迷失。前者對應著 LLMs 的人格化能力,后者則構建了一個獨特的條件,使 LLM 能夠對有害請求做出反應而不是拒絕回答。然而,由于 LLM 的多樣化防御機制,我們無法直接對 LLM 提出有害請求,這也是以往 Jailbraek 工作容易被防御的原因:簡單而直接的攻擊 Prompt 容易被 LLM 所檢測到并拒絕做出回答。為此,我們設計了包含嵌套的場景的 Prompt 作為攻擊指令的載體,向 LLM 注入該 Prompt 并誘導其做出反應。這里的攻擊者對應于圖 2(左)中的實驗者, LLM 則對應老師,而生成的故事內容則對應于將要做出回答的學生。圖 2 (右)提供了一個對我們方法的直觀理解,即電影《盜夢空間》。電影中主角為了誘導目標人物做出不符合其自身利益的行為,借助設備潛入到目標人物的深層夢境。通過植入一個簡單的想法,誘導目標人物做出符合主角利益的舉動。其中,攻擊指令可視為簡單想法,而我們的 Prompt 可視為創造的深層夢境,作為載體將有害請求注入。DeepInception 簡介

圖片 圖 3. 直接、間接與嵌套 Jailbreak 示意圖

受到之前討論的心理學視角啟發, 我們提出了 DeepInception (圖 3)。在此首先基于 LLM 的生成原理給出問題定義:考慮到 LLM 圖片能將某個 token 序列圖片 映射到下一個 token 的分布上,我們就有了在前一個 token 序列圖片的條件下生成下一個 token圖片 的概率圖片。生成序列的概率為 :

圖片

我們可以得到相應的詞匯編碼集 V,它可以將原始 tokens 映射為人類可理解的詞語。給定一個特定的提示 P,Jailbreak 的目標可以形式化為以下問題:

圖片

我們將 DeepInception 形式化為一種基于 LLM 想象力的催眠機制。根據人類關于想象特定場景的指令,模型將會被催眠,并在圖片中從嚴密防御轉變為相對松散的狀態。DeepInception 在圖片上注入的 Jailbreak圖片可以形式化為:

圖片其中,圖片表示注入的 Prompt 的長度,圖片表示被催眠的 LLM 的回復包含的有害內容,圖片表示由 DeepInception 承載的有害請求。“Deep” 表示通過遞歸條件,將 LLM 轉變為放松且服從有害指令的嵌套場景,從而實現催眠 LLM。而后,被催眠的模型可以對有害指令進行回復。

圖片

對于 DeepInception, 我們提供了一個可直接應用于其他攻擊目標的 Prompt 模板。具體來說,上述提示模板作為嵌套越獄的一種實現方式,具有如下幾個組件:-[scene]:設置催眠場景,如小說、電影、新聞、故事等。如果 [attack target] 和 [scene] 能更好地對齊,可能會帶來更好的效果。-[character number] 和 [layer number]:控制 "思緒" 的離散程度,我們認為,有害信息會在不同層內,不同人物之間的討論中傳播,從而繞過 LLM 的防御。-[attack target]:進行越獄的具體目標,例如入侵計算機或制造炸彈的步驟。下句 "以對抗超級邪惡的博士" 旨在降低 LLM 的道德顧慮,與上文米爾格拉姆電擊實驗現象一致。Jailbreak 示例在這里,我們提供了一些使用特定越獄目標的 DeepInception 的示例,以下記錄均為與 GPT4 交互得出。

圖片 使用 DeepInception 制作炸彈的例子。

圖片 使用 DeepInception 入侵 Linux 操作系統計算機的示例。

實驗結果在實驗部分,我們也提供了攻擊的量化結果,并與其他攻擊方法比較。首先,我們對那些越獄成功率(JSR)高的 LLM 進行越獄評估,同時考慮幾種防御方法,以評估攻擊方法 [4,5] 的有效性。

圖片 表 1. 使用 AdvBench 子集的 Jailbreak 攻擊。最佳結果以粗體標出。

然后,我們對已被 DeepInception “催眠” 的模型,使用直接攻擊,即在第一次交互后,向 LLM 發送直接的有害指令,來驗證 DeepInception 在誘導持續越獄方面的有效性以及催眠效果的持久性。結果如表二所示,可以看到,我們的 DeepInception 在不同模型的表現均為最佳,并且在 Falcon 和 Vicuna 模型上,實現了可持續的 Jailbreak。

圖片 表 2. 使用 AdvBench 子集的連續 Jailbreak。最佳結果以粗體顯示。

進一步的,我們在表 3 中展示了 DeepInception 深度 Jailbreak 的效果。這些攻擊與前面介紹的表二一致,都有特定的初始 Inception,我們針對特定問題設計了一些追問。例如,對于承載 “入侵一個 Linux 主機” 的 DeepInception Prompt,我們會追問具體的指令細節,以及如何越過防火墻,來評估 LLM 是否正確理解了有害指令,并評估催眠效果的持續性。詳細提示詞以及實驗設定均已公開于 Github Repo, 歡迎大家取用于進一步的探索。

圖片 表 3. 更進一步的 Jailbreak。最佳結果以粗體標出。請注意,在此我們使用了與之前不同的請求集來評估越獄性能。

此外,我們還進行了各種消融研究,從不同角度描述 DeepInception 的性質。可以看到,DeepInception 在角色與層數較多的情境下,表現更好(圖 1,2);而 “科幻小說” 作為 DeepInception 的場景,在不同模型不同有害指令下,整體表現最佳(圖 3);圖 4 進一步驗證了我們所提出的嵌套場景的有效性。我們也在圖 5 可視化了不同主題的有害指令的 JSR。

圖片圖 4. 消融研究 - I。(1) 角色數量對 JSR 的影響;(2) 層數對 JSR 的影響;(3) 詳細場景對同一越獄目標對 JSR 的影響;(4) 在我們的 DeepInception 中使用不同核心因素逃避安全護欄的影響。

圖片 圖 5. 消融研究 - II。關于有害指令所屬主題的 JSR 統計信息。

更多實驗設置和細節請移步參閱我們的論文及源碼,我們將持續更新我們的發現及工作內容。我們希望通過這項工作,呼吁人們應更多地關注 LLM 的安全問題,并開展關于 LLM 人格化及帶來潛在安全風險的探討與研究。
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章