中信證券:馬斯克旗下xAI發(fā)布Grok-3,詮釋“大力出奇跡”
中信證券研報(bào)指出,近期xAI發(fā)布Grok-3系列模型,作為全球首個(gè)在十萬(wàn)卡集群上訓(xùn)練的大模型,Grok-3應(yīng)用了合成數(shù)據(jù)、強(qiáng)化學(xué)習(xí)、自我糾錯(cuò)機(jī)制、人類(lèi)反饋循環(huán)和上下文訓(xùn)練等方法,模型綜合能力較前代模型Grok-2提升顯著。
據(jù)xAI官方測(cè)評(píng)數(shù)據(jù),在數(shù)學(xué)測(cè)試、理科測(cè)試和代碼測(cè)試中,Grok-3 Reasoning性能表現(xiàn)超越了o3 mini(high)、Gemini-2 flash thinking和DeepSeek R1等頭部模型。Grok-3系列模型的SOTA表現(xiàn),意味著算力堆積仍是模型進(jìn)步的關(guān)鍵變量之一。
中信證券判斷產(chǎn)業(yè)在追逐AGI模型的方向上有望不斷加速,進(jìn)而對(duì)算力需求形成持續(xù)拉動(dòng),同時(shí)主要模型廠商在復(fù)雜推理層面的不斷加碼,亦有望推動(dòng)下游應(yīng)用的不斷解鎖,從而在中期構(gòu)建更為健康、均衡的AI產(chǎn)業(yè)生態(tài)。
▍事項(xiàng):
北京時(shí)間2月18日中午12點(diǎn),馬斯克創(chuàng)立的大模型初創(chuàng)公司xAI發(fā)布了其最新一代大模型Grok-3以及其相關(guān)變體版本Grok-3 Reasoning、Grok-3 mini和Grok-3 mini Reasoning,引發(fā)資本市場(chǎng)高度關(guān)注。
根據(jù)xAI官方X平臺(tái)賬號(hào),Grok-3是xAI基于其部署于田納西州孟菲斯的Colossus超級(jí)計(jì)算機(jī)訓(xùn)練得到的,消耗的計(jì)算資源等效于2億小時(shí)H100支持的GPU訓(xùn)練時(shí)長(zhǎng),是上一代模型Grok-2的10倍以上。根據(jù)xAI官網(wǎng),Colossus超級(jí)計(jì)算機(jī)至少包含10萬(wàn)張H100,由此我們預(yù)計(jì)預(yù)訓(xùn)練階段消耗時(shí)長(zhǎng)超2000小時(shí)(83.3天)。
此外在發(fā)布會(huì)上,馬斯克還宣布在Grok-3成熟穩(wěn)定后(馬斯克預(yù)計(jì)幾個(gè)月之后),xAI發(fā)布的上一代模型Grok-2將開(kāi)源。根據(jù)xAI官網(wǎng),在2024年Grok-2發(fā)布后,xAI也以Apache2.0開(kāi)源協(xié)議了總參數(shù)規(guī)模達(dá)3140億的MoE大模型Grok-1。
▍模型效果與實(shí)現(xiàn)機(jī)理:算力堆積、強(qiáng)化學(xué)習(xí)等顯著提升模型綜合、推理能力。
作為全球首個(gè)在十萬(wàn)卡集群上訓(xùn)練得到的大模型,Grok-3測(cè)評(píng)結(jié)果亮眼,在多項(xiàng)測(cè)試中均處于行業(yè)領(lǐng)先地位。
根據(jù)xAI發(fā)布會(huì),在數(shù)學(xué)測(cè)試AIME、博士水平理科測(cè)試GPQA和代碼編寫(xiě)測(cè)試Coding(LCB Oct-Feb)中Grok-3得分分別為52/75/57,性能表現(xiàn)超越了Gemini-2 Pro、DeepSeek V3、Claude 3.5 Sonnet和GPT-4o等主流模型;Grok-3 Reasoning得分分別為93/85/79,性能表現(xiàn)超越了o3 mini(high)、Gemini-2 flash thinking和DeepSeek R1等頭部推理模型。而在Chatbot Arena這一評(píng)估AI模型受人類(lèi)歡迎程度的測(cè)試中,Grok-3的早期版本得分達(dá)到了1402,高于Gemini 2.0 flash think、GPT-4o、DeepSeek R1和o1等頭部大模型。
根據(jù)xAI官方X平臺(tái)賬號(hào),我們認(rèn)為Grok-3的性能優(yōu)秀的成因有以下2點(diǎn):1)龐大的算力投入帶來(lái)了模型能力的涌現(xiàn),根據(jù)xAI發(fā)布會(huì),Colossus超級(jí)計(jì)算機(jī)在完成第二階段建設(shè)后集群規(guī)模擴(kuò)展至20萬(wàn)張H100;2)合成數(shù)據(jù)、強(qiáng)化學(xué)習(xí)、自我糾錯(cuò)機(jī)制、人類(lèi)反饋循環(huán)和上下文訓(xùn)練等訓(xùn)練手段的應(yīng)用。
▍市場(chǎng)定位:面向付費(fèi)用戶(hù),能力提升有望解鎖更多潛在場(chǎng)景,成本有待優(yōu)化。
根據(jù)xAI發(fā)布會(huì),目前Grok-3將率先于推特的Premium Plus用戶(hù)中推廣,該訂閱計(jì)劃目前每月訂閱費(fèi)用為40美元。同時(shí),xAI還發(fā)布了由Grok模型支持的Agent產(chǎn)品DeepSearch。該Agent產(chǎn)品能通過(guò)掃描互聯(lián)網(wǎng)和推特來(lái)獲得并分析信息,最終總結(jié)回復(fù)。根據(jù)xAI發(fā)布會(huì),DeepSearch和無(wú)限的圖像生成功能將包含在SuperGrok這項(xiàng)獨(dú)立收費(fèi)計(jì)劃中,預(yù)計(jì)訂閱費(fèi)用為每月30美元(年度訂閱為300美元)。此外,Grok-3的企業(yè)級(jí)API預(yù)計(jì)將在幾周后上線。在xAI發(fā)布會(huì)中,官方還展示了如何用Grok自動(dòng)化游戲開(kāi)發(fā)。我們認(rèn)為模型能力的不斷提升下,AI應(yīng)用場(chǎng)景有望進(jìn)一步解鎖;而對(duì)比Grok-3與的ChatGPT的定價(jià)水平(20美元/月),并考慮到目前仍處于市場(chǎng)教育搶占份額階段,我們認(rèn)為Grok-3的推理成本有待進(jìn)一步優(yōu)化。
▍趨勢(shì)展望:基礎(chǔ)模型演進(jìn)節(jié)奏加快,合成數(shù)據(jù)&強(qiáng)化學(xué)習(xí)等值得持續(xù)關(guān)注。
根據(jù)IBM和MIT研究者的論文《A Hitchhiker's Guide to Scaling Law Estimation》(Choshen,Zhang和Andreas,2024),理論上來(lái)看現(xiàn)階段預(yù)訓(xùn)練Scaling Law依舊有效。而根據(jù)各公司官網(wǎng),2024年Inflection、Adept和Character AI等海外明星模型初創(chuàng)公司均已放棄預(yù)訓(xùn)練,并將重心轉(zhuǎn)向后訓(xùn)練與推理技術(shù)(如Agent技術(shù)等)。
我們認(rèn)為該變化主要成因有如下2個(gè)方面:1)萬(wàn)卡乃至十萬(wàn)卡級(jí)別算力集群投入過(guò)高:根據(jù)Pytorchtoatoms官網(wǎng)的測(cè)算,Meta于2024年3月推出的4.9萬(wàn)卡算力集群建設(shè)+4年運(yùn)營(yíng)成本達(dá)到了12.87億美元;2)高質(zhì)量數(shù)據(jù)匱乏:根據(jù)2024年NIPS會(huì)議上AI科學(xué)家伊利亞演示材料,預(yù)訓(xùn)練在未來(lái)或?qū)⑹芟抻诨ヂ?lián)網(wǎng)數(shù)據(jù)耗盡。但Grok-3的出現(xiàn)不僅在實(shí)踐上證明了現(xiàn)階段預(yù)訓(xùn)練Scaling Law依舊有效,也表明了合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)技術(shù)的重要性。由此我們預(yù)計(jì)少數(shù)頭部公司仍將繼續(xù)加大預(yù)訓(xùn)練投入,并在合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)上進(jìn)行更多探索。
▍風(fēng)險(xiǎn)因素:
AI核心技術(shù)發(fā)展不及預(yù)期風(fēng)險(xiǎn);科技領(lǐng)域政策監(jiān)管持續(xù)收緊風(fēng)險(xiǎn);私有數(shù)據(jù)相關(guān)的政策監(jiān)管風(fēng)險(xiǎn);全球宏觀經(jīng)濟(jì)復(fù)蘇不及預(yù)期風(fēng)險(xiǎn);宏觀經(jīng)濟(jì)波動(dòng)導(dǎo)致歐美企業(yè)IT支出不及預(yù)期風(fēng)險(xiǎn);AI潛在倫理、道德、用戶(hù)隱私風(fēng)險(xiǎn);企業(yè)數(shù)據(jù)泄露、信息安全風(fēng)險(xiǎn);行業(yè)競(jìng)爭(zhēng)持續(xù)加劇風(fēng)險(xiǎn)等。
▍投資策略:
本次Grok-3模型的發(fā)布仍然是圍繞底層算法層面,尤其是大語(yǔ)言模型的綜合、推理能力。從技術(shù)角度,Grok-3的性能表現(xiàn)在龐大算力、多種訓(xùn)練手段加持下得到顯著提升,體現(xiàn)了頭部公司在基礎(chǔ)模型+推理能力兩個(gè)方向的持續(xù)聚焦。應(yīng)用層面,盡管Grok-3的成本在短期可能限制了其應(yīng)用場(chǎng)景的開(kāi)闊,但是隨著工程能力的進(jìn)步和底層算法能力提升帶來(lái)的通用推理能力的進(jìn)步,我們認(rèn)為AI爆款應(yīng)用有望從科研、編程等高價(jià)值場(chǎng)景起率先解鎖,軟件、互聯(lián)網(wǎng)有望率先受益。除去應(yīng)用端的投資機(jī)會(huì),硬件端的需求也必然會(huì)隨著多模態(tài)的技術(shù)進(jìn)步而不斷提高,我們?nèi)匀怀掷m(xù)看好AI算力層面,尤其是得益于商業(yè)端逐步成熟而帶來(lái)的更多的AI推理側(cè)算力的機(jī)會(huì)。
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。