MetaLlama4被疑考試「作弊」:在競技場刷高分,但實戰中頻頻翻車
Meta 翻車來得猝不及防。
上周六,Meta 發布了最新 AI 模型系列 ——Llama 4,并一口氣出了三個款,分別是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。
據官方介紹,在大模型競技場中,它們的排名相當不賴。
就拿 Llama 4 Maverick 來說,總排名第二,成為第四個突破 1400 分的大模型。其中開放模型排名第一,超越了 DeepSeek;在困難提示詞、編程、數學、創意寫作等任務中排名均為第一。

然而,不少網友體驗后反饋,Llama 4 似乎是一個糟糕的編碼模型。
@deedydas 發帖稱,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基準測試中表現不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準測試專注于編程任務,例如代碼生成和代碼補全。

比如小球在旋轉六邊形中跳躍的測試中,Llama 4 的表現并不理想。

底下評論區的網友也紛紛表示,無論是 Scout 還是 Maverick,在實際編程中好像都不好用,即使有詳細的提示也不行。
還有網友在 Novita AI 平臺上測試了該模型,給出的結論是在復雜問題上有點吃力,但響應速度很快。


相關推薦
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。