OpenAI推出強化微調CEO稱是今年最大驚喜之一
當地時間12月6日,OpenAI公布第二日活動主題:推出了強化微調(Reinforcement Fine-Tuning),幫助開發者和機器學習工程師打造針對特定復雜領域任務的專家模型。OpenAI CEO Sam Altman在X發帖稱,強化微調的效果非常棒,是他今年最大的驚喜之一,期待看到大家利用這種功能的創造。
該項目通過全新的模型定制技術,讓開發者可以使用高質量任務集對模型進行微調,并利用參考答案評估模型的響應,從而提升模型在特定領域任務中的推理能力和準確性。
OpenAI的研究員稱,強化微調并不是只教模型模型輸出,它的運作方式是,當模型發現一個問題的時候,研究者給模型空間區仔細思考這個問題,然后評估模型給出的最終解答,運用強化學習,研究者可以強化產生正確答案的思路,抑制產生錯誤答案的思路,只需要“幾十個例子”甚至12個例子,模型就能以有效的新方式學習特定領域的推理。
OpenAI研究員演示,強化微調后的o1 mini測試通過率甚至比正式版o1高24%,比未強化微調的o1 mini提高了82%。
(文章來源:第一財經)
相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。