對于OpenAI的連續(xù)發(fā)布有人直言失望但其技術(shù)整合和工程能力不容忽視
繼谷歌發(fā)布推理模型后,美國知名人工智能研究公司OpenAI日前推出了最新的推理模型——o3。這個月,在過去的12個工作日,OpenAI每天直播發(fā)布一款新產(chǎn)品或新功能,o3正是其最后一天的“重磅發(fā)布”。
作為一款推理模型,o3有何亮點?對于OpenAI在2025年即將到來之際的連續(xù)發(fā)布,作何評價?解放日報·上觀新聞記者專訪了上海交通大學(xué)人工智能學(xué)院長聘教軌副教授溫穎。
【跳出“模仿式學(xué)習(xí)”框架,引入“強化學(xué)習(xí)”】
“我覺得最驚喜的還是第一天發(fā)布的o1 Pro版本,我自己嘗試了一下,能力確實很強。相較o1 Pro,最后一天發(fā)布的o3算是一個擴展和升級版本,但本質(zhì)上沒有太大區(qū)別。”溫穎說。
在AIME(美國數(shù)學(xué)邀請賽)2024評測中,o3取得了96.7%的準確率。為考察人工智能在高級數(shù)學(xué)推理方面的能力,國際上60多位頂尖數(shù)學(xué)家聯(lián)合開發(fā)了數(shù)學(xué)基準測試工具FrontierMath,之前GPT-4的準確率還不足2%,而o3的準確率達到空前的25.2%。
12月24日,一張在自媒體中廣為流傳的圖片甚至顯示,o3推理模型的智商已經(jīng)高達157。“其實,這些評測就是做一些題目,只能作為一種參考。可能確實在某些領(lǐng)域,已經(jīng)超過一些人群的水平。但實際模型的使用并不是做題,而且每個人的問題和需求不一樣,還是要以實際體驗為準。”溫穎認為。
相較對話式語言模型,推理模型有何不同?“對話式模型只是單純地根據(jù)給出的提示詞做預(yù)測,它在訓(xùn)練過程中并沒有被要求去‘思考’。”
在溫穎看來,不論是o1 Pro還是o3,其最大的技術(shù)亮點在于跳出了機械的“模仿式學(xué)習(xí)”框架,引入了“強化學(xué)習(xí)”,通過多步思維從而學(xué)會了結(jié)構(gòu)化推理。
強化學(xué)習(xí)是一種交互式學(xué)習(xí)方式,通過引導(dǎo)思考并對其進行正向或負向反饋后,再引導(dǎo)其繼續(xù)思考和推理。
據(jù)悉,o3能夠進行一些復(fù)雜任務(wù)的推理,尤其在數(shù)學(xué)、編程和科研任務(wù)等領(lǐng)域的表現(xiàn)要優(yōu)于o1 Pro。
不過,o3推理模型需花費昂貴的算力資源,即使在低計算量模式下,解答一個問題平均需要花費20美元的算力,而在高計算量模式下,算力成本高達兩三千美元。
【橫向比較,o3推理模型至少領(lǐng)先一個身位】
當(dāng)下,國內(nèi)外也推出了一些推理模型。o3推理模型處于什么技術(shù)水平?
“橫向比較的話,我覺得還沒有其他模型能比得上o3推理模型,至少相差一個身位。”溫穎說。其他推理模型主要針對數(shù)學(xué)任務(wù)做了一些訓(xùn)練,在這一領(lǐng)域可能接近o1水平,但在其他編碼或科學(xué)領(lǐng)域的效果還是差很多。
此外,o1推理模型在圖像識別等多模態(tài)領(lǐng)域也表現(xiàn)不俗。“我曾經(jīng)給o1和其他模型分別‘看’過一個相當(dāng)復(fù)雜的地勢圖,有很多細節(jié),我都看不懂,只有o1能夠完整地歸納圖上的信息,其他模型連圖片都不認識,差距還是挺大的。”
OpenAI的推理模型距離通用人工智能還有多遠?
“關(guān)于通用人工智能的標準,其實目前還不是很統(tǒng)一。盡管推理能力是通用人工智能發(fā)展的關(guān)鍵階段,但對應(yīng)OpenAI自己的通用人工智能五級標準,也還只是第二級。”溫穎介紹,與人類自然對話的聊天機器人是一級,解決復(fù)雜問題的推理者是二級,長時自動化工作流的智能體是三級,提出原創(chuàng)想法的創(chuàng)新者是四級,管理復(fù)雜系統(tǒng)的組織者是五級。
值得一提的是,盡管o3推理模型可以思考和解答一些復(fù)雜的問題,但對于一些簡單的問題還是會出錯。
在溫穎看來,這主要還是數(shù)據(jù)資源受限。此外其本質(zhì)上還是一個自回歸模型,即根據(jù)之前的預(yù)測內(nèi)容再進行下一次預(yù)測,也就是把自己預(yù)測的結(jié)果當(dāng)成依據(jù)再預(yù)測下一個,這就導(dǎo)致出錯的概率還是比較大。
【OpenAI追求技術(shù)的快速篩選和驗證】
對于OpenAI這次連續(xù)的發(fā)布,有的人直言有些“失望”,是創(chuàng)新力不足了嗎?
“如果從學(xué)術(shù)角度看,除了兩個推理模型給人以驚喜,其他確實只是在原有基礎(chǔ)上的小的改進。但不容忽視的是,這家公司有很強的技術(shù)整合能力和工程能力,從而實現(xiàn)技術(shù)的快速篩選和驗證。”溫穎說,OpenAI一旦發(fā)現(xiàn)某個技術(shù)可行,就會堅定并全力地用龐大的數(shù)據(jù)量和訓(xùn)練量將其擴展,把這一技術(shù)做出效果,“其實很多時候有效的東西就是最簡單的,OpenAI的這種思維和執(zhí)行力,值得借鑒。”
OpenAI為何不集中發(fā)布而分散在12個工作日“擠牙膏”式發(fā)布?溫穎覺得,此舉不排除為了吸引更多注意力,畢竟12個工作日至少可以制造兩周的“話題”。
當(dāng)然,這背后離不開資金鏈的壓力。盡管OpenAI初創(chuàng)時大家都很有情懷,但畢竟人工智能技術(shù)太“燒錢”和耗費算力資源,否則一旦資金鏈斷裂,技術(shù)“擴展”路線就走不下去了。
OpenAI此次還推出了新的收費模式——訂閱ChatGPT Pro的用戶需每月支付200美元,這是之前訂閱ChatGPT Plus價格的10倍。會有人愿意自掏腰包嗎?
“200美元的收費還是有市場的,我自己用了覺得很值得。這個定價一方面是成本考慮,因為每次調(diào)用都需要算力支持,另一方面,強大的人工智能給真正有需求的人使用,其產(chǎn)生的價值遠超200美元。”溫穎說。
(文章來源:上觀新聞)
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。