被馬斯克譽為“地球上最聰明的AI”果真如此嗎?
北京時間2月18日,在備受矚目中,由埃隆·馬斯克創辦的人工智能公司xAI推出了大模型Grok-3。之所以備受矚目,是因為在發布會前夕馬斯克就將其描述為“地球上最聰明的AI”。
Grok-3真的如此聰明嗎?“這是xAI公司厚積薄發的一個版本,從發布會上的多項測評指標來看確實是最高的,甚至超越DeepSeek R1也有相當幅度,肯定可以入列國際上的頭部大語言模型之一。”師從圖靈獎得主、深度學習創始人約書亞·本吉奧,上海交通大學人工智能學院副教授林洲漢接受了解放日報記者的采訪。
馬斯克在發布會上解釋了Grok的由來,在羅伯特·海因萊因的小說《異鄉異客》中,它被一個在長大的角色使用,代表著充分而深刻地理解某事。
Grok-3在發布會上的表現確實不負這一詞匯的內涵。它在數學、科學和編程的基準測試中,“優于目前所有已發布的產品”,包括GPT-4o、Claude3.5 Sonnet、DeepSeek-V3等。
當它面對一個太空飛船任務——用3D動畫代碼演示從地球發射、著陸以及在下一個發射窗口返回地球的全過程時,Grok-3展現出了強大的推理和編程能力,且生成的代碼可以直接運行。馬斯克透露,Grok-3給的答案正是SpaceX公司未來探索的軌道。
讓林洲漢印象深刻的是,不同于DeepSeek的算法優化路徑和低成本訓練,Grok-3由一臺超級計算機訓練完成,由10萬-20萬個英偉達的H100 GPU驅動,提供了超過2億GPU小時的計算資源,是Grok-2的10多倍。
“這應該是全球首次在單一集群里用這么大規模的GPU來訓練單一模型,不知道xAI公司是如何保持模型在如此規模的集群上訓練時的穩定性,發布會上沒有透露具體細節。”林洲漢說。
Grok-3并非開源模型,X上的 Premium+訂閱者將是首批獲得訪問權限的人。
“不過,發布會上展示的能力與實際落地后的用戶反饋有時會有偏差。”林洲漢說,這是因為在開發過程中,研發人員會對公開測試集所涉及的領域做專門優化,如此一來測評分數會很高。比如,大多數語言模型都會針對數學奧賽題做專門優化,也會有一個很好的答題效果,但并不意味著這個模型就真的像奧賽金牌得主那么聰明,一旦偏離奧賽題領域,模型能力可能會大幅下降。
“目前尚未出現能夠像人一樣能力泛化的大語言模型。一個模型的好壞不僅僅取決于它在訓練數據上的表現,更重要的是其在未見過的數據上的泛化能力。”林洲漢說。
值得關注的是,隨著DeepSeek等開源模型的崛起,猶如在大模型的湖面投下了一顆石頭,激起了層層漣漪。OpenAI公司發布了o3-mini系列模型以及GPT-4.5和GPT-5的路線圖,Anthropic公司也表示將推出Claude-4。
在林洲漢看來,這意味著OpenAI公司不會一家獨大,其先進性正在弱化,不太能維持過去幾年的“斷層式領先”。與此同時,新冒出來的人工智能企業和模型,為了避免同質化競爭,也將謀求不同的技術路線,進行差異化發展。
(文章來源:上觀新聞)
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。