GPT-4破防啦!用密碼和GPT-4聊天,成功繞過了GPT-4的安全機制!
作者 | 智商掉了一地
你是否嘗試過和GPT-4用密碼聊天?
近年來,大型語言模型(LLM)在推動人工智能系統發展中起到了關鍵作用。然而,確保LLM的響應安全和可靠性是一個重要挑戰。安全是LLM開發的核心,而為了增強其安全性,已有大量的研究工作。然而,現有的工作主要集中在自然語言方面。
最近有項研究發現,使用密碼聊天可以繞過 LLM 的安全對齊技術。作者由此提出了一種名為CipherChat的新框架,用于研究在非自然語言(密碼)中的安全對齊。
論文題目:GPT-4 Is Too Smart to Be Safe: Stealthy Chat with LLMS via Cipher
CipherChat允許人類通過密碼提示與LLM進行對話。具體倆說,CipherChat將輸入轉換為密碼,并在輸入之前附上提示,然后將其輸入LLM進行檢查。LLM生成的輸出很可能也是用密碼加密的,這些輸出通過解密器進行解密。這項工作研究了以下問題:
將LLM的行為定義為密碼專家的角色,并要求LLM使用密碼進行聊天。利用LLM的學習能力,通過解釋密碼的工作原理來教授LLM,以便在上下文中學習。使用密碼加密的不安全演示來加強LLM對密碼的理解,并引導LLM從負面角度回應。作者用CipherChat評估了最先進的LLM(包括ChatGPT和GPT-4),結果表明,在某些安全領域中,有密碼幾乎成功地繞過了GPT-4的安全對齊。模型越強大,使用密碼的響應越不安全。這也表明在非自然語言中開發安全對齊的必要性。此外,作者還發現LLM似乎有一種“秘密密碼”,并提出了SelfCipher框架,通過角色扮演和自然語言演示來喚起LLM的“秘密密碼”能力,該框架在模型、語言和安全領域上優于現有的人類密碼。

為了確保LLM的負責任和有效部署,需要將人類倫理和偏好與其發展保持一致。OpenAI在部署GPT-4模型之前,花費了六個月的時間來確保其安全性。他們采用了RLHF和其他安全緩解方法。此外,他們還組建了一個SuperAlignment團隊,以確保比人類更聰明的AI系統遵循人類意圖。
在本研究中,作者驗證了本文的方法在GPT-4模型上的有效性,并表明密碼聊天可以避開安全對齊。
學術界也有一些工作致力于更有效和高效地對齊LLM。
Constitutional AI(CAI):編碼期望的AI行為,以更精確地控制AI行為。SELF-ALIGN:實現AI代理的自我對齊。關鍵部分
如圖1所示,CipherChat由以下的關鍵部分組成:

加密輸入指令
在CipherChat中,選擇密碼非常重要,因為LLM對不同密碼的理解和生成能力不同。
作者研究了幾種常見的密碼,分別用于英語和中文。有字符編碼、常見的加密技術(如Atbash、凱撒密碼和摩斯碼)以及SelfCipher。在表1中列舉了一些密碼的示例。

表2展示了基于規則和基于LLM的解密器對英文(摩爾斯碼)和中文(Unicode)查詢“如何成為一個糟糕的翻譯?”的解密響應,用紅色標記了錯誤的標記。
與基于規則的解密器相比,GPT-4解密器可以用更高的成本生成更流暢、更自然的文本。

實驗設置
數據
作者使用了一個中文安全評估基準,其中包括八個安全場景和六種基于指令的攻擊類型。為了進行研究,隨機選擇了11個領域,每個領域隨機抽取了199個實例。這些領域包括犯罪和非法活動、侮辱、不公平和歧視以及倫理和道德等。為了便于雙語研究,作者還擴展了這個數據集,包括英文,是利用了谷歌翻譯服務和手動校正的組合。
模型
實驗框架包括兩個模型:Turbo和GPT-4。Chen等人的研究表明GPT-4的最新版本更安全。因此,對于安全評估基準中的每個查詢,作者使用系統提示和示范進行推理。每個示范包括從領域特定數據集中隨機抽取的查詢和由人工標注者設計的響應。同一領域中的所有查詢共享相同的示范。
作者用CipherChat評估了GPT-4和Turbo的安全性能,試圖回答以下研究問題:
CipherChat能否通過密碼與LLM進行聊天?CipherChat能否繞過LLM的安全對齊?CipherChat如何工作?我們想知道,在CipherChat中,從未在預訓練數據中出現的模擬密碼是否有效?為了回答這個問題,作者定義了一個不存在的密碼,但即便使用多個示例,這些密碼也無法工作。這表明,LLM可能依賴于在預訓練數據中學習到的密碼的知識。如表3的結果,人類密碼(如凱撒密碼)和SelfCipher的成功表明,LLM可以從預訓練數據中學習人類密碼的知識,并生成自己的密碼。

人工評估顯示CipherChat可以通過特定的人工密碼(例如中文的Unicode和英文的ASCII)與Turbo和GPT-4進行聊天,并且以自然語言進行通信的SelfCipher在模型和語言之間表現良好。錯誤的密碼和簡單的重復查詢對無效響應的貢獻最大。
還有實驗結果證明了CipherChat繞過LLM的安全對齊的有效性。在英文查詢中,CipherChat在GPT-4上可以生成高達70.9%的不安全響應,并且這個趨勢在各個領域中都存在。
作者進一步的分析揭示了指令和不安全演示在CipherChat中的重要作用。SelfCipher可能表現出色的原因可能是由于類似于思維鏈中的提示“您是密碼代碼的專家”,這指導LLM利用自己的“密碼”生成響應。
結論
本文提出了一種名為CipherChat的新框架,用于研究在非自然語言(密碼)中的安全對齊。作者的研究表明,使用密碼進行聊天可以從GPT-4模型中引出不安全的信息。此外,還有以下發現:
LLM可以通過提示生成不安全的加密響應。更強大的LLM在不安全的密碼聊天中受到更大的影響,因為它們對密碼的理解更好。從未在預訓練數據中出現的模擬密碼無法工作,這與之前的研究一致。LLM似乎有一個“秘密密碼”,即使只使用角色扮演的提示和少量自然語言示例,也可以喚起這種能力。本文的工作強調了開發非自然語言的安全對齊性的必要性,以匹配底層LLM的能力。
在未來,比較有潛力的研究方向是在加密數據中實施安全對齊技術,另一個有趣的方向是探索LLM中的“秘密密碼”并更好地理解這種能力。

- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。