日韩国产人妻一区二区三区,亚洲精品偷拍无码不卡av,99综合视频

首頁 > AI資訊 > 行業動態 > MetaLlama4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

MetaLlama4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

新火種 2025-04-08

Meta 翻車來得猝不及防。

上周六，Meta 發布了最新 AI 模型系列 ——Llama 4，并一口氣出了三個款，分別是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

據官方介紹，在大模型競技場中，它們的排名相當不賴。

就拿 Llama 4 Maverick 來說，總排名第二，成為第四個突破 1400 分的大模型。其中開放模型排名第一，超越了 DeepSeek；在困難提示詞、編程、數學、創意寫作等任務中排名均為第一。

然而，不少網友體驗后反饋，Llama 4 似乎是一個糟糕的編碼模型。

@deedydas 發帖稱，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基準測試中表現不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基準測試專注于編程任務，例如代碼生成和代碼補全。

比如小球在旋轉六邊形中跳躍的測試中，Llama 4 的表現并不理想。

底下評論區的網友也紛紛表示，無論是 Scout 還是 Maverick，在實際編程中好像都不好用，即使有詳細的提示也不行。

還有網友在 Novita AI 平臺上測試了該模型，給出的結論是在復雜問題上有點吃力，但響應速度很快。

Tags:

大模型翻車競技場

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

MetaLlama4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

MetaLlama4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

飛渡科技崢嶸大模型：數字孿生平臺的AI心臟，驅動全行業智能升級

華為與宜興聯合發布城市安全大模型“天機鏡”

科創板晚報|瀾起科技、道通科技等回應美國關稅影響天德鈺Q1凈利同比預增117%

協同效應顯性化！“掃地茅”石頭科技國內外營收雙位數增長鑄就“韌性曲線”

熱門文章

MetaLlama4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

MetaLlama4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

飛渡科技崢嶸大模型：數字孿生平臺的AI心臟，驅動全行業智能升級

華為與宜興聯合發布城市安全大模型“天機鏡”

科創板晚報|瀾起科技、道通科技等回應美國關稅影響天德鈺Q1凈利同比預增117%

協同效應顯性化！“掃地茅”石頭科技國內外營收雙位數增長鑄就“韌性曲線”

熱門文章

MetaLlama4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

MetaLlama4被疑考試「作弊」：在競技場刷高分，但實戰中頻頻翻車

科創板晚報|瀾起科技、道通科技等回應美國關稅影響天德鈺Q1凈利同比預增117%