久久韩日,青草视频中文字幕,亚洲人成电影网站久久影视

首頁 > AI資訊 > 最新資訊 > 對于OpenAI的連續(xù)發(fā)布有人直言失望但其技術(shù)整合和工程能力不容忽視

對于OpenAI的連續(xù)發(fā)布有人直言失望但其技術(shù)整合和工程能力不容忽視

上觀新聞 2024-12-25

　　繼谷歌發(fā)布推理模型后，美國知名人工智能研究公司OpenAI日前推出了最新的推理模型——o3。這個月，在過去的12個工作日，OpenAI每天直播發(fā)布一款新產(chǎn)品或新功能，o3正是其最后一天的“重磅發(fā)布”。

　　作為一款推理模型，o3有何亮點？對于OpenAI在2025年即將到來之際的連續(xù)發(fā)布，作何評價？解放日報·上觀新聞記者專訪了上海交通大學(xué)人工智能學(xué)院長聘教軌副教授溫穎。

　　【跳出“模仿式學(xué)習(xí)”框架，引入“強化學(xué)習(xí)”】

　　“我覺得最驚喜的還是第一天發(fā)布的o1 Pro版本，我自己嘗試了一下，能力確實很強。相較o1 Pro，最后一天發(fā)布的o3算是一個擴展和升級版本，但本質(zhì)上沒有太大區(qū)別。”溫穎說。

　　在AIME（美國數(shù)學(xué)邀請賽）2024評測中，o3取得了96.7%的準確率。為考察人工智能在高級數(shù)學(xué)推理方面的能力，國際上60多位頂尖數(shù)學(xué)家聯(lián)合開發(fā)了數(shù)學(xué)基準測試工具FrontierMath，之前GPT-4的準確率還不足2%，而o3的準確率達到空前的25.2%。

　　12月24日，一張在自媒體中廣為流傳的圖片甚至顯示，o3推理模型的智商已經(jīng)高達157。“其實，這些評測就是做一些題目，只能作為一種參考。可能確實在某些領(lǐng)域，已經(jīng)超過一些人群的水平。但實際模型的使用并不是做題，而且每個人的問題和需求不一樣，還是要以實際體驗為準。”溫穎認為。

　　相較對話式語言模型，推理模型有何不同？“對話式模型只是單純地根據(jù)給出的提示詞做預(yù)測，它在訓(xùn)練過程中并沒有被要求去‘思考’。”

　　在溫穎看來，不論是o1 Pro還是o3，其最大的技術(shù)亮點在于跳出了機械的“模仿式學(xué)習(xí)”框架，引入了“強化學(xué)習(xí)”，通過多步思維從而學(xué)會了結(jié)構(gòu)化推理。

　　強化學(xué)習(xí)是一種交互式學(xué)習(xí)方式，通過引導(dǎo)思考并對其進行正向或負向反饋后，再引導(dǎo)其繼續(xù)思考和推理。

　　據(jù)悉，o3能夠進行一些復(fù)雜任務(wù)的推理，尤其在數(shù)學(xué)、編程和科研任務(wù)等領(lǐng)域的表現(xiàn)要優(yōu)于o1 Pro。

　　不過，o3推理模型需花費昂貴的算力資源，即使在低計算量模式下，解答一個問題平均需要花費20美元的算力，而在高計算量模式下，算力成本高達兩三千美元。

　　【橫向比較，o3推理模型至少領(lǐng)先一個身位】

　　當(dāng)下，國內(nèi)外也推出了一些推理模型。o3推理模型處于什么技術(shù)水平？

　　“橫向比較的話，我覺得還沒有其他模型能比得上o3推理模型，至少相差一個身位。”溫穎說。其他推理模型主要針對數(shù)學(xué)任務(wù)做了一些訓(xùn)練，在這一領(lǐng)域可能接近o1水平，但在其他編碼或科學(xué)領(lǐng)域的效果還是差很多。

　　此外，o1推理模型在圖像識別等多模態(tài)領(lǐng)域也表現(xiàn)不俗。“我曾經(jīng)給o1和其他模型分別‘看’過一個相當(dāng)復(fù)雜的地勢圖，有很多細節(jié)，我都看不懂，只有o1能夠完整地歸納圖上的信息，其他模型連圖片都不認識，差距還是挺大的。”

　　OpenAI的推理模型距離通用人工智能還有多遠？

　　“關(guān)于通用人工智能的標準，其實目前還不是很統(tǒng)一。盡管推理能力是通用人工智能發(fā)展的關(guān)鍵階段，但對應(yīng)OpenAI自己的通用人工智能五級標準，也還只是第二級。”溫穎介紹，與人類自然對話的聊天機器人是一級，解決復(fù)雜問題的推理者是二級，長時自動化工作流的智能體是三級，提出原創(chuàng)想法的創(chuàng)新者是四級，管理復(fù)雜系統(tǒng)的組織者是五級。

　　值得一提的是，盡管o3推理模型可以思考和解答一些復(fù)雜的問題，但對于一些簡單的問題還是會出錯。

　　在溫穎看來，這主要還是數(shù)據(jù)資源受限。此外其本質(zhì)上還是一個自回歸模型，即根據(jù)之前的預(yù)測內(nèi)容再進行下一次預(yù)測，也就是把自己預(yù)測的結(jié)果當(dāng)成依據(jù)再預(yù)測下一個，這就導(dǎo)致出錯的概率還是比較大。

　　【OpenAI追求技術(shù)的快速篩選和驗證】

　　對于OpenAI這次連續(xù)的發(fā)布，有的人直言有些“失望”，是創(chuàng)新力不足了嗎？

　　“如果從學(xué)術(shù)角度看，除了兩個推理模型給人以驚喜，其他確實只是在原有基礎(chǔ)上的小的改進。但不容忽視的是，這家公司有很強的技術(shù)整合能力和工程能力，從而實現(xiàn)技術(shù)的快速篩選和驗證。”溫穎說，OpenAI一旦發(fā)現(xiàn)某個技術(shù)可行，就會堅定并全力地用龐大的數(shù)據(jù)量和訓(xùn)練量將其擴展，把這一技術(shù)做出效果，“其實很多時候有效的東西就是最簡單的，OpenAI的這種思維和執(zhí)行力，值得借鑒。”

　　OpenAI為何不集中發(fā)布而分散在12個工作日“擠牙膏”式發(fā)布？溫穎覺得，此舉不排除為了吸引更多注意力，畢竟12個工作日至少可以制造兩周的“話題”。

　　當(dāng)然，這背后離不開資金鏈的壓力。盡管OpenAI初創(chuàng)時大家都很有情懷，但畢竟人工智能技術(shù)太“燒錢”和耗費算力資源，否則一旦資金鏈斷裂，技術(shù)“擴展”路線就走不下去了。

　　OpenAI此次還推出了新的收費模式——訂閱ChatGPT Pro的用戶需每月支付200美元，這是之前訂閱ChatGPT Plus價格的10倍。會有人愿意自掏腰包嗎？

　　“200美元的收費還是有市場的，我自己用了覺得很值得。這個定價一方面是成本考慮，因為每次調(diào)用都需要算力支持，另一方面，強大的人工智能給真正有需求的人使用，其產(chǎn)生的價值遠超200美元。”溫穎說。

（文章來源：上觀新聞）

Tags:

神經(jīng)網(wǎng)絡(luò) 不容忽視失望

相關(guān)推薦

免責(zé)聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風(fēng)險，讀者在采取與本文內(nèi)容相關(guān)的任何行動之前，請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。

對于OpenAI的連續(xù)發(fā)布有人直言失望但其技術(shù)整合和工程能力不容忽視

豆包通用模型日均tokens使用量已超過4萬億較七個月前增長了33倍

馬斯克“炮轟”美聯(lián)儲：人太多

對于OpenAI的連續(xù)發(fā)布有人直言失望但其技術(shù)整合和工程能力不容忽視

蘋果2024大事盤點：推出AI、VisionPro在中國表現(xiàn)令人失望

【午報】三大指數(shù)沖高回落漲跌不一，高位股集體退潮，近150股跌超9%

熱門文章