OpenAI重奪競技場第一,但這波靠的是4o
OpenAI開發者日新加坡站今天啟幕,果不其然,ChatGPT又出手了:
Gemini剛在競技場頭把交椅上坐了不到一周,最新版ChatGPT輕輕一更新,第一再次易主。

對,還不是o1滿血版,而是新版4o。

具體來說,此番GPT-4o更新的是“創意寫作能力”,官方說法是:

o1核心貢獻者Karina Nguyen對此做了進一步解釋:

而在大模型競技場的創意寫作分榜上,可以看到新版4o(ChatGPT-4o-1120)確實有明顯的提升,分數從上個版本的1365提升到了1402。

至于實際效果,我們簡單測試了一下,看看你能給打個幾分:

除了在總榜上為OpenAI重奪第一,新版4o在體現具體能力的各個分榜上亦有提升。
在創意寫作方面,從第2位升至第1位;
在代碼能力方面,從第2位升至第1位;
在數學能力方面,從第4位升至第3位(第1還是o1-preview);
在困難任務方面,從第2位升至第1位。
并且在風格控制(Style Control)之后,新版4o依然位居首位。

風格控制旨在讓榜單分數更真實地反映模型解決問題的能力,避免模型靠漂亮的格式、增加回答長度刷分。
總勝率熱圖顯示,新版4o對上此前登頂的Gemini-Exp-1114,勝率為59%;對上Claude 3.5 Sonnet,勝率為69%;對上5月版本的4o,更是在72%的情況下都能取勝。

嗯,看上去很強很不錯,但還是那句話……是4o。
結合今日份DeepSeek的大新聞——DeepSeek版o1滿血上線,還計劃開源,不少網友直接在奧特曼“新的好模型來了”的推文下貼臉嘲諷起來:


簡而言之就是:o1滿血版今年上線傳得滿城風雨,現在2024年都只剩下40幾天了,OpenAI你暗搓搓更新個4o是鬧哪樣!

還有人試圖總結OpenAI的更新模式:

嗯,才不管你期待的是什么呢╭(╯^╰)╮
另外,還有網友拿新4o的生成結果去做了測試,結果系統還是當場判斷出了100%AI寫的:

△圖源:@TuhinChakr
不過,一片吐槽聲中,也有人認真研究了一下OpenAI的更新。
比如,在系統提示詞方面,大佬發現,OpenAI確實偷偷給ChatGPT加了點料的:
簡單來說,就是新增了一道護欄,確保ChatGPT不在敏感話題上胡說八道。
那么,如果你想試試新版4o具體能寫出什么“創意”內容,現在可以到競技場免費試試:
有什么好玩的結果,歡迎回評論區分享給大伙兒~
參考鏈接:
— 完 —
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。