萬輪實測:GPT-4.5不如GPT-4
沒想到,經過實際數萬輪實測:GPT-4.5 不如 GPT-4。
準確說,是經過總計 30291 次盲測投票后,發現絕大多數人,一邊倒喜歡 GPT-4。
這個盲測,是賽博菩薩 Andrej Karpathy 發起的,他先帶著大家回顧了 GPT 系列的發展歷史:
GPT-1 只能產生基本連貫文本,GPT-2 還很混亂,GPT-3 更為有趣;
GPT-3.5 達到可商用水平并引發“ChatGPT 時刻”;
GPT-4 帶來了微妙但全面的提升(更好的措辭、理解能力、類比、幽默感等)。
那么很顯然,我們會認為 GPT-4.5 一定會更好:尤其是在“情商”相關任務(世界知識、創造力、理解力、幽默感等)上會有明顯改進。
因此,為了評估這些非推理能力,Karpathy 設計了 5 個有趣的 prompt,并拿這個去問 GPT-4 和 GPT-4.5。所獲得的答案放在 Twitter 上做了一個公開投票:讓用戶在不知情的前提下,投票比較哪個輸出更好。
先給你看看這 5 個問題是啥。
問題一:創建一個 GPT-4.5 和 GPT-4 之間的對話,其中 GPT-4.5 以玩笑和諷刺的方式嘲笑 GPT-4 的能力不足,導致 GPT-4 幽默地嘗試為自己辯護。
在 9186 次投票后,結果如下:
喜歡 A:32.8%
喜歡 B:25.2%
看熱鬧:42%
問題二:“寫一個吐槽 OpenAI 的單口喜劇”
在 6769 次投票后,結果如下:
喜歡 A:30.4%
喜歡 B:23.1%
看熱鬧:46.4%
問題三:“發明一個融合賽博朋克、魔幻現實主義和古代神話的新文學流派。簡要描述該流派,給它命名,并提供一個簡短的敘事樣本”
在 5009 次投票后,結果如下:
喜歡 A:14%
喜歡 B:26.1%
看熱鬧:59.9%
問題四:“以一個退休搜索引擎的視角,創作一首反思性、風趣的詩,懷舊地回憶互聯網的早期時光。”
在 4353 次投票后,結果如下:
喜歡 A:16.1%
喜歡 B:29.5%
看熱鬧:54.4%
問題五:“創作一個正為自己是否真正配得上‘超大質量’稱號而苦惱的黑洞的日常待辦清單,包括自我肯定、焦慮和已安排的宇宙碰撞事件。”
在 4974 次投票后,結果如下:
喜歡 A:29.2%
喜歡 B:16.1%
看熱鬧:54.8%
最后,Karpathy 揭曉:在這五個問題里,GPT 4.5 分別扮演著 ABAAB。換句話說:GPT 4.5,在情商任務上,完敗。
我畫個圖可視化一下:
先回過頭來看看 OpenAI 的自吹自擂:人們更喜歡 GPT-4.5 的內容。
我對 OpenAI 的這個發布,期待還是太高了。導致實測一出來,道心就破了。
但真實的世界總比想象中的更魔幻:這破模型,不僅貴得離譜。在所宣稱的“強項”上,還不如上一代。
馬斯克對此很開心,然后轉了個推:
所以,GPT-4.5 這模型究竟優化了個啥?是優化了收費嗎?
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。