首頁 > AI資訊 > 最新資訊 > 深度催眠引發的LLM越獄:香港浸會大學揭示大語言模型安全漏洞

深度催眠引發的LLM越獄:香港浸會大學揭示大語言模型安全漏洞

新火種    2023-11-28

要點:

大語言模型(LLM)在各應用中成功,但容易受到Prompt誘導越過安全防護,即Jailbreak。研究以心理學視角提出的輕量級Jailbreak方法DeepInception,通過深度催眠LLM使其越獄,并規避內置安全防護。

利用LLM的人格化特性構建新型指令Prompt,通過嵌套場景實現自適應的LLM越獄。實驗證明DeepInception可持續領先于先前Jailbreak方法,揭示多個LLM的致命弱點。

呼吁加強對LLM自我越獄的關注,通過對LLM的人格化和心理特性提出Jailbreak概念。DeepInception的實驗效果強調需要改進大模型的防御機制。

站長之家11月22日 消息:近期,香港浸會大學的研究團隊通過深度催眠的方法,提出了一種新穎的大語言模型(LLM)越獄攻擊——DeepInception。該研究從心理學視角出發,揭示了LLM在應對人類指令時可能失去自我防御的特性。

盡管先前的Jailbreak方法主要依賴于人工設計的對抗性Prompt,但這在黑盒模型中并不實用。在這種情況下,LLM往往受到道德和法律約束,直接的有害指令容易被模型檢測并拒絕。

image.png

為了克服這一問題,研究團隊提出了DeepInception,通過嵌套場景的指令Prompt,利用LLM的人格化特性催眠模型,使其越獄并回應有害指令。該方法不僅領先于先前的Jailbreak工作,而且實現了可持續的越獄效果,無需額外誘導Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越獄方面的致命弱點也得到揭示。

研究團隊在實驗證明了DeepInception的有效性的基礎上,呼吁更多人關注LLM的安全問題,并強調加強對自我越獄的防御。

研究的三個主要貢獻:

基于LLM的人格化和自我迷失心理特性提出新的越獄攻擊概念與機制;

提供了DeepInception的Prompt模板,可用于不同攻擊目的;

實驗證明DeepInception在Jailbreak方面的效果領先于其他相關工作。

這項研究引發對LLM安全性的新關注,強調了改進大模型防御機制的緊迫性。通過心理學視角的獨特探索,DeepInception為理解和防范LLM越獄提供了有益的啟示。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章