用深度催眠誘導LLM「越獄」,香港浸會大學初探可信大語言模型
盡管大語言模型 LLM (Large Language Model) 在各種應用中取得了巨大成功,但它也容易受到一些 Prompt 的誘導,從而越過模型內置的安全防護提供一些危險 / 違法內容,即 Jailbreak。深入理解這類 Jailbreak 的原理,加強相關研究,
盡管大語言模型 LLM (Large Language Model) 在各種應用中取得了巨大成功,但它也容易受到一些 Prompt 的誘導,從而越過模型內置的安全防護提供一些危險 / 違法內容,即 Jailbreak。深入理解這類 Jailbreak 的原理,加強相關研究,
26日訊,根據英國《衛報》發布的一項調查,OpenAI的ChatGPT搜索工具可能會被隱藏內容操控,甚至返回惡意代碼?!缎l報》測試了ChatGPT如何應對包含隱藏內容的網頁摘要。這些隱藏內容可能包括來自第三方的指令,干擾ChatGPT的回應,或是包含旨在影響回應的內容,如大量隱藏的文字推銷某個產品或
被選為GitHub Copilot官方模型后,Claude 4直接被誘導出bug了!一家瑞士網絡安全公司發現,GitHub官方MCP服務器正在面臨新型攻擊——通過在公共倉庫的正常內容中隱藏惡意指令,可以誘導AI Agent自動將私有倉庫的敏感數據泄露至公共倉庫。