“深思熟慮”的AI:OpenAI提出全新安全對齊方法
IT之家 12 月 25 日消息,OpenAI 的研究人員提出了一種名為“深思熟慮的對齊”(Deliberative Alignment)的新方法,以提升 AI 模型安全性,并已在 o 系列模型中取得顯著成效。
項目背景如何確保大語言模型(LLMs)遵守明確的道德和安全準則,目前存在諸多挑戰。監督微調(SFT)和來自人類反饋的強化學習(RLHF)等現有對齊技術都存在局限性,有被操縱的風險,可能會產生有害內容、拒絕合法請求或難以處理不熟悉的場景等問題。
這些問題通常源于當前安全培訓的弊端,也就是模型從數據間接推斷標準,而非明確地學習,通常缺乏考慮復雜提示的能力,從而限制了它們在微妙或對抗性情況下的有效性。
深思熟慮的對齊(Deliberative Alignment)IT之家注:該方法直接教授模型安全規范,并訓練它們在生成響應之前推理這些準則進,將安全原則融入推理過程中。
整個過程分為兩個階段,第一階段,監督微調(SFT)訓練模型參考并推理安全規范,使用從基礎模型生成的數據集。第二階段,強化學習(RL)使用獎勵模型,根據安全基準評估性能,進一步完善模型的推理。
不同于依賴人工標注數據的方法,“深思熟慮的對齊”使用模型生成的數據和思維鏈(CoT)推理,降低了安全訓練的資源需求。
OpenAI 的 o1 模型已部署該技術,在抵抗越獄提示方面表現出色,在 StrongREJECT 基準測試中得分為 0.88,顯著高于 GPT-4o 的 0.37;此外該技術還可以減少誤拒,在 XSTest 數據集的良性提示中,o1 模型的準確率高達 93%。
“深思熟慮的對齊”通過訓練模型明確推理安全策略,它為復雜的倫理挑戰提供了可擴展且可解釋的解決方案。
參考
Deliberative Alignment: Reasoning Enables Safer Language Models
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。