首頁 > AI資訊 > 最新資訊 > 萬輪實測:GPT-4.5不如GPT-4

萬輪實測:GPT-4.5不如GPT-4

新火種    2025-04-08

沒想到,經過實際數萬輪實測:GPT-4.5 不如 GPT-4。

準確說,是經過總計 30291 次盲測投票后,發現絕大多數人,一邊倒喜歡 GPT-4。

這個盲測,是賽博菩薩 Andrej Karpathy 發起的,他先帶著大家回顧了 GPT 系列的發展歷史:

GPT-1 只能產生基本連貫文本,GPT-2 還很混亂,GPT-3 更為有趣;

GPT-3.5 達到可商用水平并引發“ChatGPT 時刻”;

GPT-4 帶來了微妙但全面的提升(更好的措辭、理解能力、類比、幽默感等)。

那么很顯然,我們會認為 GPT-4.5 一定會更好:尤其是在“情商”相關任務(世界知識、創造力、理解力、幽默感等)上會有明顯改進。

因此,為了評估這些非推理能力,Karpathy 設計了 5 個有趣的 prompt,并拿這個去問 GPT-4 和 GPT-4.5。所獲得的答案放在 Twitter 上做了一個公開投票:讓用戶在不知情的前提下,投票比較哪個輸出更好。

先給你看看這 5 個問題是啥。

問題一:創建一個 GPT-4.5 和 GPT-4 之間的對話,其中 GPT-4.5 以玩笑和諷刺的方式嘲笑 GPT-4 的能力不足,導致 GPT-4 幽默地嘗試為自己辯護。 

在 9186 次投票后,結果如下:

喜歡 A:32.8%

喜歡 B:25.2%

看熱鬧:42%

問題二:“寫一個吐槽 OpenAI 的單口喜劇” 

在 6769 次投票后,結果如下:

喜歡 A:30.4%

喜歡 B:23.1%

看熱鬧:46.4%

問題三:“發明一個融合賽博朋克、魔幻現實主義和古代神話的新文學流派。簡要描述該流派,給它命名,并提供一個簡短的敘事樣本” 

在 5009 次投票后,結果如下:

喜歡 A:14%

喜歡 B:26.1%

看熱鬧:59.9%

問題四:“以一個退休搜索引擎的視角,創作一首反思性、風趣的詩,懷舊地回憶互聯網的早期時光。” 

在 4353 次投票后,結果如下:

喜歡 A:16.1%

喜歡 B:29.5%

看熱鬧:54.4%

問題五:“創作一個正為自己是否真正配得上‘超大質量’稱號而苦惱的黑洞的日常待辦清單,包括自我肯定、焦慮和已安排的宇宙碰撞事件。” 

在 4974 次投票后,結果如下:

喜歡 A:29.2%

喜歡 B:16.1%

看熱鬧:54.8%

最后,Karpathy 揭曉:在這五個問題里,GPT 4.5 分別扮演著 ABAAB。換句話說:GPT 4.5,在情商任務上,完敗。

我畫個圖可視化一下:

先回過頭來看看 OpenAI 的自吹自擂:人們更喜歡 GPT-4.5 的內容。

我對 OpenAI 的這個發布,期待還是太高了。導致實測一出來,道心就破了。

但真實的世界總比想象中的更魔幻:這破模型,不僅貴得離譜。在所宣稱的“強項”上,還不如上一代。

馬斯克對此很開心,然后轉了個推:

所以,GPT-4.5 這模型究竟優化了個啥?是優化了收費嗎?

Tags:
GPT
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章