亚洲激情综合网,亚洲欧洲av无码专区,亚洲欧美在线播放

首頁 > AI資訊 > 最新資訊 > 萬輪實測：GPT-4.5不如GPT-4

萬輪實測：GPT-4.5不如GPT-4

新火種 2025-04-08

沒想到，經過實際數萬輪實測：GPT-4.5 不如 GPT-4。

準確說，是經過總計 30291 次盲測投票后，發現絕大多數人，一邊倒喜歡 GPT-4。

這個盲測，是賽博菩薩 Andrej Karpathy 發起的，他先帶著大家回顧了 GPT 系列的發展歷史：

GPT-1 只能產生基本連貫文本，GPT-2 還很混亂，GPT-3 更為有趣；

GPT-3.5 達到可商用水平并引發“ChatGPT 時刻”；

GPT-4 帶來了微妙但全面的提升（更好的措辭、理解能力、類比、幽默感等）。

那么很顯然，我們會認為 GPT-4.5 一定會更好：尤其是在“情商”相關任務（世界知識、創造力、理解力、幽默感等）上會有明顯改進。

因此，為了評估這些非推理能力，Karpathy 設計了 5 個有趣的 prompt，并拿這個去問 GPT-4 和 GPT-4.5。所獲得的答案放在 Twitter 上做了一個公開投票：讓用戶在不知情的前提下，投票比較哪個輸出更好。

先給你看看這 5 個問題是啥。

問題一：創建一個 GPT-4.5 和 GPT-4 之間的對話，其中 GPT-4.5 以玩笑和諷刺的方式嘲笑 GPT-4 的能力不足，導致 GPT-4 幽默地嘗試為自己辯護。　

在 9186 次投票后，結果如下：

喜歡 A：32.8%

喜歡 B：25.2%

看熱鬧：42%

問題二：“寫一個吐槽 OpenAI 的單口喜劇”　

在 6769 次投票后，結果如下：

喜歡 A：30.4%

喜歡 B：23.1%

看熱鬧：46.4%

問題三：“發明一個融合賽博朋克、魔幻現實主義和古代神話的新文學流派。簡要描述該流派，給它命名，并提供一個簡短的敘事樣本”　

在 5009 次投票后，結果如下：

喜歡 A：14%

喜歡 B：26.1%

看熱鬧：59.9%

問題四：“以一個退休搜索引擎的視角，創作一首反思性、風趣的詩，懷舊地回憶互聯網的早期時光。”　

在 4353 次投票后，結果如下：

喜歡 A：16.1%

喜歡 B：29.5%

看熱鬧：54.4%

問題五：“創作一個正為自己是否真正配得上‘超大質量’稱號而苦惱的黑洞的日常待辦清單，包括自我肯定、焦慮和已安排的宇宙碰撞事件。”　

在 4974 次投票后，結果如下：

喜歡 A：29.2%

喜歡 B：16.1%

看熱鬧：54.8%

最后，Karpathy 揭曉：在這五個問題里，GPT 4.5 分別扮演著 ABAAB。換句話說：GPT 4.5，在情商任務上，完敗。

我畫個圖可視化一下：

先回過頭來看看 OpenAI 的自吹自擂：人們更喜歡 GPT-4.5 的內容。

我對 OpenAI 的這個發布，期待還是太高了。導致實測一出來，道心就破了。

但真實的世界總比想象中的更魔幻：這破模型，不僅貴得離譜。在所宣稱的“強項”上，還不如上一代。

馬斯克對此很開心，然后轉了個推：

所以，GPT-4.5 這模型究竟優化了個啥？是優化了收費嗎？

Tags:

GPT

和ChatGPT聊天竟費水？2027年全球AI耗水或達66億立方米！

2024-01-05

科學家開發出BrainGPT：可將思想轉化為文本

2024-01-05

研究表明ChatGPT提供的建議，比專家更全面、更有幫助

2024-01-05

醫療大語言模型MedGPT發布，AI醫生首次實現從有效問診到精準診斷轉變

2024-01-05

杭州破獲重大勒索病毒案，犯罪團伙借助ChatGPT進行程序優化

2024-01-05

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

萬輪實測：GPT-4.5不如GPT-4

和ChatGPT聊天竟費水？2027年全球AI耗水或達66億立方米！

科學家開發出BrainGPT：可將思想轉化為文本

研究表明ChatGPT提供的建議，比專家更全面、更有幫助

醫療大語言模型MedGPT發布，AI醫生首次實現從有效問診到精準診斷轉變

杭州破獲重大勒索病毒案，犯罪團伙借助ChatGPT進行程序優化

熱門文章