首頁 > AI資訊 > 行業動態 > OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

新火種    2024-12-07

OpenAI“雙12”直播第二天,依舊簡短精悍,主題:

新功能強化微調(Reinforcement Fine-Tuning),使用極少訓練數據即在特定領域輕松地創建專家模型。

少到什么程度呢?最低幾十個例子就可以。

CEO奧特曼表示“效果一級棒,是我2024年最大的驚喜,期待看到人們構建什么!”

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

那么效果有多棒呢?

微調后的o1-mini模型得分提高80%,直接反超o1正式版。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

目前OpenAI已開啟強化微調研究計劃,開發者可以申請強化微調API的alpha版本訪問權限。

進行測試時,可使用幾十到幾千個高質量數據,模型能夠通過強化學習自行探索和學習如何推理復雜任務。

蹲守直播間的網友們聽得也是one愣one愣的,完全沒有料想到今晚“圣誕盲盒“是醬嬸兒的。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

OpenAI員工Jerry Tworek則表示“AGI不是授人以魚,而是授人以漁”。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜OpenAI微調首次支持強化學習

直播嘉賓除了Mark Chen、John Allard、Julie Wang三位OpenAI自家研究員,還有伯克利實驗室計算生物學家Justin Reese,他們共同演示了強化微調功能的全過程。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

具體來說,這是一個生物醫學任務,AI需要根據病例描述的癥狀,找出相關基因。

訓練數據長這樣:

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

評分模型(Grader)會對模型的答案進行評分,OpenAI會提供不同的評分模型,并支持自定義。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

強化微調步驟很簡單,在網頁界面可選擇訓練集和驗證集。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

再根據情況配置超參數即可。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

微調過程中,可以觀察模型性能指標的變化趨勢。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

測試完成后,也可以查看模型對每條驗證數據的輸出,這里TSC2基因是正確答案,模型把它排在第一位,所以通過。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

目前OpenAI內部測試中,強化微調在生物化學、安全、法律和醫療保健領域取得成功。

強化微調將在2025年初作為產品發布,對企業、大學和研究院已開放申請測試通道。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

看完這場直播后,有人總結:強化微調可能并不適合所有任務,但會在科學領域帶來突破性的成果。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜奧特曼默認會發Sora

OpenAI直播第二天,對比第一天o1正式發布、立等可用,似乎平淡了一些。

有不滿足的網友表示:where is GPT-4.5?

評論區猜測可能大貨會放在最后一天。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

不過,有網友釣魚釣出了奧特曼,且奧特曼沒有否認會發布Sora的消息。

OpenAI強化微調登場:幾十條數據o1-mini反超o1暴漲80%,奧特曼:今年最大驚喜

參考鏈接:

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章