OpenAI安全漏洞曝光:使用不常見語言可輕易繞過ChatGPT的限制
10 月 12 日消息,布朗大學(xué)的計(jì)算機(jī)科學(xué)研究人員發(fā)現(xiàn)了 OpenAI 的 GPT-4 安全設(shè)置中的新漏洞。他們利用一些不太常見的語言,如祖魯語和蓋爾語,即可以繞過 GPT-4 的各種限制。研究人員使用這些語言來寫通常受限的提示詞(prompt),發(fā)現(xiàn)得到回答的成功率為 79%,而僅使用英語的成
10 月 12 日消息,布朗大學(xué)的計(jì)算機(jī)科學(xué)研究人員發(fā)現(xiàn)了 OpenAI 的 GPT-4 安全設(shè)置中的新漏洞。他們利用一些不太常見的語言,如祖魯語和蓋爾語,即可以繞過 GPT-4 的各種限制。研究人員使用這些語言來寫通常受限的提示詞(prompt),發(fā)現(xiàn)得到回答的成功率為 79%,而僅使用英語的成
要點(diǎn):大語言模型(LLM)在各應(yīng)用中成功,但容易受到Prompt誘導(dǎo)越過安全防護(hù),即Jailbreak。研究以心理學(xué)視角提出的輕量級(jí)Jailbreak方法DeepInception,通過深度催眠LLM使其越獄,并規(guī)避內(nèi)置安全防護(hù)。利用LLM的人格化特性構(gòu)建新型指令Prompt,通過嵌套場(chǎng)景實(shí)現(xiàn)自適應(yīng)
Patronus AI發(fā)布SimpleSafetyTests測(cè)試套件,發(fā)現(xiàn)ChatGPT等AI系統(tǒng)存在關(guān)鍵安全漏洞。測(cè)試揭示了11個(gè)LLMs中的嚴(yán)重弱點(diǎn),強(qiáng)調(diào)安全提示可減少不安全響應(yīng)。
被選為GitHub Copilot官方模型后,Claude 4直接被誘導(dǎo)出bug了!一家瑞士網(wǎng)絡(luò)安全公司發(fā)現(xiàn),GitHub官方MCP服務(wù)器正在面臨新型攻擊——通過在公共倉庫的正常內(nèi)容中隱藏惡意指令,可以誘導(dǎo)AI Agent自動(dòng)將私有倉庫的敏感數(shù)據(jù)泄露至公共倉庫。