MiniMax劉華:構(gòu)建多模態(tài)開(kāi)源生態(tài),研發(fā)不再?lài)@稠密架構(gòu)
《科創(chuàng)板日?qǐng)?bào)》2月23日訊(記者 陳美)2月21-23日,為期三天的2025全球開(kāi)發(fā)者先鋒大會(huì)在上海舉行。會(huì)上,MiniMax副總裁劉華帶來(lái)了一場(chǎng)關(guān)于多模態(tài)大模型發(fā)展的深度分享。
劉華指出,自2017年Transformer架構(gòu)問(wèn)世以來(lái),其對(duì)大語(yǔ)言模型的誕生起到了直接的推動(dòng)作用。然而,在歷經(jīng)七八年的發(fā)展之后,Transformer 架構(gòu)遭遇了瓶頸。即,Transformer 處理任務(wù)時(shí),其任務(wù)長(zhǎng)度與算力消耗程度呈現(xiàn)平方關(guān)系。“舉例來(lái)說(shuō),若當(dāng)前處理 100 個(gè) token 的任務(wù)時(shí),算力消耗為一個(gè)恒定值,那么當(dāng)處理任務(wù)變?yōu)?10000 個(gè) token 時(shí),任務(wù)量增長(zhǎng)了 100 倍,而此時(shí)算力消耗則需增加到原來(lái)的 100 的平方倍,即一萬(wàn)倍。”
因此,要實(shí)現(xiàn)讓大模型在降低算力消耗的情況下處理超長(zhǎng)文本,需要研發(fā)新的模型底層架構(gòu)。
在此背景下,劉華表示,MiniMax對(duì)行業(yè)也有幾個(gè)認(rèn)知:
首先,大模型仍然處于快速的發(fā)展階段。特別是2024年2月,OpenAI推出的Sora、GPT4o等展現(xiàn)了視頻、語(yǔ)音模型的新能力,大模型在編程等領(lǐng)域潛力巨大,未來(lái)兩到三年類(lèi)似GPT3.5到GPT4的技術(shù)突破仍高度可期。在這樣的發(fā)展態(tài)勢(shì)下,底層模型的迭代對(duì)產(chǎn)品上限起決定性作用,如Deepseek因新一代模型實(shí)現(xiàn)APP用戶量激增,Talkie憑借自研模型超越Character AI,充分凸顯了模型的關(guān)鍵價(jià)值。
其次,新一代語(yǔ)音模型將具備情緒表達(dá)能力。2024 年年中,OpenAI 推出的 GPT4o 實(shí)現(xiàn)即時(shí)對(duì)話,支持打斷并開(kāi)啟新對(duì)話,還能讓語(yǔ)音模型展現(xiàn)人類(lèi)喜怒哀樂(lè)等情緒。
第三,推理階段也出現(xiàn)Sscaling law。隨著 DeepSeek 的開(kāi)源,市場(chǎng)對(duì) “強(qiáng)化學(xué)習(xí)” 更為熟悉,這促使訓(xùn)練階段的Sscaling law延伸至推理階段。與此同時(shí),Transformer 基礎(chǔ)底層架構(gòu)的革新,以及諸多合成數(shù)據(jù)技術(shù)、多模態(tài)模型技術(shù)不斷涌現(xiàn)。這一系列進(jìn)展預(yù)示著,未來(lái)兩到三年大模型將迎來(lái)飛速發(fā)展,技術(shù)上限遠(yuǎn)未看到。
總體而言,劉華認(rèn)為,未來(lái)MiniMax將打造多種模態(tài)的開(kāi)源生態(tài),大模型研發(fā)也將依賴(lài)于高度組織化、精細(xì)化的研發(fā)團(tuán)隊(duì)。“在方向上,稠密模型已經(jīng)被唾棄,而是在稀疏架構(gòu)上研究。接下來(lái),MiniMax會(huì)在線性注意力機(jī)制或者是非Transformer架構(gòu)上發(fā)力。”
- 免責(zé)聲明
- 本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對(duì)本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動(dòng)之前,請(qǐng)務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對(duì)因依賴(lài)本文觀點(diǎn)而產(chǎn)生的任何金錢(qián)損失負(fù)任何責(zé)任。