首頁 > AI資訊 > 最新資訊 > MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

新火種    2024-09-04

終于,MiniMax不藏了。

首次正式公開亮相,最強大模型、最亮眼產品戰績,全部對外展示。

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

模型全家桶最新版齊上陣,從文本、語音到視頻覆蓋全模態——達成如此豐富模態且同步開放,屬實是國產創業公司中首位。

尤其是視頻模型如期發布,兌現了7月WAIC上創始人兼CEO閆俊杰放出的承諾。

旗下產品最新戰績也正式公開:

每天30億次交互量。

其中生成文本量3萬億文本tokens,生成圖片2000萬張、生成語音7萬小時。

什么概念?

30億次文本交互=3000人一輩子的文本處理量;2000萬張圖片=400座故宮的畫作收藏量;7萬小時語音=讀完7000本書。

而3萬億文本tokens這個數據處理量,在第一梯隊其它友商披露出5千到1萬億tokens日處理量的當下,也有斷層優勢。

需要注意的是,這些數據,都是1天時間內在MiniMax產品上產生的。

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

一直以來,無論技術、產品還是融資,MiniMax一有風吹草動,都會引發海內外各界關注。但他們始終保持著悶聲搞事的路線。模型發布、產品上線總是讓人猝不及防,公開的大型活動更是幾乎沒有。

成立近1000天,MiniMax到底想做什么?外界的好奇,早已呼之欲出。

終于,帶著最能證明實力的技術和產品,閆俊杰站在自家聚光燈下給出回答。

這是MiniMax的愿景,更是路徑。

初創公司中首先拿下全模態

MiniMax想要做什么?

先來看最新技術進展——

本次活動上一共發布了4種模態大模型,分別是:

視頻模型,abab-video-1音樂模型,abab-music-1語音模型,abab-speech-1文本萬億多模態模型,abab-7

這些模型,支撐起了全國最大的AI交互量,在一年前的今天,當時的交互時長大約只有ChatGPT的3%;到了今天,交互時長已經超過了其50%。

也構筑起了MiniMax的堅實壁壘——放眼國內AI大模型初創公司,MiniMax率先完成了全模態模型的研發和開放。

實力不可謂不雄厚。

其中最值得說道說道的,是MiniMax視頻模型abab-video-1以及語音大模型abab-speech-1。

視頻模型abab-video-1

視頻模型是今年自Sora發布以來最熱門的模型選手。

從文生圖時代一路傳承下來的宇航員騎馬,也成為了各家視頻模型小試牛刀的必考題。

我們自然也沒放過MiniMax家的abab-video-1(手動狗頭):

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

不只是我們,哪怕是在X上,網友們也已經玩瘋了!

AI電影人迫不及待用abab-video-1做出了超越自己前作的電影《地獄之地》。

還有些網友腦洞大開,想出的提示詞都別具一格:

但abab-video-1壓根沒在怕的:

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

據了解,abab-video-1畫質方面最高支持1280*720的25fps,“擁有電影感鏡頭移動”,并且支持帶文字元素。

目前AI視頻時長最高6秒,未來或支持10秒。

除了現有的文生視頻功能,未來還將推出圖生視頻和文圖結合生成視頻的能力。

綜合官方demo和人肉測試,MiniMax視頻模型有兩個非常顯著的特點,一個是一致性連貫性方面,視頻中所有的畫面主體,幾乎不會發生劇烈形變或崩壞的情況。

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

另一個是視覺呈現方面,所有生成視頻內容整體畫面色彩偏鮮艷。

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

劃重點:限時免費。

官方口吻是,今后新版本達到滿意狀態后,考慮開啟商業化計劃。

視頻生成的復雜度遠高于文本,包括處理長上下文、巨大的存儲需求以及基礎設施升級等問題,同時視頻背后的存儲量很大,100個文字可能不到1k,但5秒視頻占據幾兆之多。

不過閆俊杰表示:

相比已經在國際市場上打響名聲的國內視頻模型先頭兵快手可靈,MiniMax的視頻生成模型推出時間晚了一兩個月。

閆俊杰說,這是因為團隊一直在解決更具挑戰性的技術問題,特別是如何訓練算力較高的內容。

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”語音模型abab-speech-1

接著來聊一聊MiniMax的語音模型。

只需要20秒真人語音作為語料數據,喂給abab-speech-1,幾乎只用眨一次眼睛的時間,AI語音就熱乎出爐了。

如果要用一組詞來形容abab-speech-1的特色,那大概可以是不同音色、飽滿情緒、多種語言、輕松生成。

而且,是超擬人的那種。

具體來看,它能支持多種語言的語音,譬如中文、英文、西語、日語,國內方言如粵語也不在話下。

聽起來也真的很去“AI味”,跟真人發送的語音消息一般無二。

有實例為證——之前央視節目《嗨!AI-音樂季》中,MiniMax語音大模型對歌手龔琳娜的語料進行采集、分析、模擬。

然后AI龔琳娜語音和其母親打了個電話,完全沒有被識破。

雖然叫“語音大模型”,但其實它兼具音樂生成的能力。

只需經歷輸入靈感——生成歌詞——選擇風格——生成歌曲四個簡簡單單的步驟。

曲風上面,不管是節奏布魯斯、說唱還是電子,都輕松拿捏。

別看它剛剛亮相,但其實MiniMax的語音大模型從去年11月開始就已經上崗就業。

迄今為止,它服務了近500家企業用戶,在語言學習、PC語音助手、語音聲聊唱聊、超擬人情感配音等十余種場景都有落地案例。

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

上述所有的一切,都基于MiniMax的技術底座構建。

在底層技術上,MiniMax核心關注3方面:

持續降低模型錯誤率無限長輸入輸出多模態

這是模型之上的產品,能夠更快更強的關鍵要素。

閆俊杰認為,大語言模型領域,兩個模型性能相似,一定是速度更快的那個模型更容易帶來產品數據增長。就好像Scaling Law一樣,算法相同情況下,訓練數據量更大的模型往往會取得更好效果。

在如何讓模型變得更快上,MiniMax做了兩次重大的技術變革:第一是MoE,第二是Linear Attention。

這兩者,都集中體現在數周后將正式對外的多模態模型abab-7身上,沒錯,就是使用MoE+Linear Attention技術的那種。

首先是在MoE(混合專家模型)尚未形成共識時,就已經決心押注,并且身體力行地在路上。

展開來說,今年1月,MiniMax發布了國內首個MoE大語言模型abab-6;又很快地在4月推出了abab-6.5系列。

基于這個結構,模型可以處理復雜任務,同時提升計算效率,在單位時間內訓練更多(多到“足夠多”)的數據。

MiniMax官方表示,其MoE模型取得了比Dense模型快3-5倍的速度。

具體在模型表現上,abab-6.5s在1秒內可以處理近3萬字的文本。

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

其次是對Linear架構的選擇。

過去的線性注意力存在缺陷,建模效果遜于標準注意力,速度也不如標準注意力,且召回能力有限,使得復雜推理能力偏弱。

針對這些問題,MiniMax設計了全新的Linear架構,在保證精度和效率的同時,解決了Linear Attention召回能力弱的問題,使得新架構可以適用于復雜推理任務。

在Benchmark上,新Linear架構達到相同效果所需訓練算力減少了三成;推理側,尤其是長文推理成本顯著降低,128k窗口推理成本下降到二分之一,10M窗口推理成本甚至降低了85%。

MiniMax不藏了,大秀視頻/語音/文本全模態模型家族,“每天與世界交互30億次”

另外,面對快速增長的推理壓力,MiniMax一邊進行上下文緩存持久化(即把對話歷史的LLM Attention kv cache持久化/半持久化保存下來、持續復用)和多階段推理(即在容器層面保持單一用途),提升性能和資源的利用效率。

另一邊,MiniMax的模型背后是超大的推理集群,支持海量高并發吞吐,以此支撐將各個版本、各個模態的模型應用于大規模用戶產品中。

不難看出,算力實力打底,全模態多點開花,作為國內最早入局大模型創業的公司之一,MiniMax憑借著自己雄厚的研發實力穩步向前。

大模型每天30億次交互

所有的技術積淀,都只為了一個目的:

Intelligence with Everyone。

目前,MiniMax旗下主要有四款產品:星野、Talkie、海螺AI和開放平臺。

前三者主打2C,開放平臺更多面向開發者。

2C不難理解,這代表了更廣闊的市場。不過為什么要做這么多產品?

一方面,從觸及所有人的目標出發,多個不同定位的產品,能更快速觸達更多用戶。

另一方面,站在初創公司內部視角來看,多嘗試才能找到真正正確的答案。與此同時,閆俊杰認為對于初創公司,如果沒有足夠好的產品能力來承接技術,那么哪怕取得了一定的技術進展,這些東西最終也不是你的。

但如今,行業對于大模型的商業化路徑都還模棱兩可。技術和產品之間該如何平衡,哪個更重要?

在閆俊杰的最新分享中給出了回答:以Intelligence with Everyone為起點,技術和產品密不可分。

產品是技術落地的平臺,它能直接體現技術的價值,也是實現AGI愿景的必要路徑。技術是產品前進的核心驅動力。如何抵達Intelligence with Everyone的終局,核心只有兩點:

怎樣提升用戶的滲透率怎樣提高用戶的使用深度

比如,如何提高滲透率。轉化到技術角度,應該考慮的是如何持續降低模型錯誤率、無限長度的輸入和輸出以及多模態。

降低模型錯誤率是為了讓模型能處理更復雜的任務,這是增加用戶使用深度的核心手段。

讓模型的輸入輸出盡可能長,則是讓AI更進一步像人。

考慮到人類社會中,文字信息的占比非常小,更多信息交流是通過語音、圖文、視頻來傳遞,所以多模態也很重要。

基于這些產品方面提出的要求,MiniMax提出了“快就是好”,通過技術創新,來讓模型變得更快、更好,這一點在他們的最新技術成果MoE+Linear Attention架構中也已全面展示。

每當模型有重大提升后,MiniMax也能直接從用戶層面得到反饋。比如使用深度顯著變高,也會遇到對話量顯著下滑的事故。而這也更進一步驗證了在AI領域里,技術和產品之間密不可分的關系。

目前,MiniMax的產品每天可產生30億次交互,積累用戶超過6000萬。

其中有諸多企業客戶,比如快遞100、智聯招聘。MiniMax的模型可以完成客服服務、地址補全、甚至是OKR調整等任務。

更多的是廣大普通用戶,他們每天在星野、海螺AI上與AI對話。AI創造的形象、智能體也成為了他們日常生活的一部分。

不鳴則已

成立996天,MiniMax終于自己搭建了舞臺,完成了對外首秀。

為什么要等這么久?

畢竟,MiniMax從不缺關注度。明星創始團隊、熱門AI應用、一筆又一筆大額融資……只用跨一步,MiniMax就能完成華麗的登臺亮相。

等到現在,或許是公司策略上的考量,或許是團隊個性使然。

一方面,MiniMax似乎更愿意用實績說話。

產品每天30億次交互、3萬億token處理量,大概已是國內公司中的No.1,“并且可能比第二名多2-3倍”。底層MoE模型,在性能和效率上都已驗證實力,6000萬用戶就是最好的證明。以及率先達成全模態能力,不發模型則已,一發就是視頻語音音樂全都來。

更重要的是,MiniMax的路線已被驗證。

Intelligence with Everyone。技術和產品并駕齊驅,讓MiniMax能更快從用戶側得到反饋,在技術上進行提升、產品上進行優化。重2C但是也做2B,滿足普通用戶和開發者的需求,當然也是更健康的商業模式。

最關鍵的是,帶著這樣一份亮眼的成績單首秀,MiniMax的實力不言而喻。

另一方面,MiniMax絕對稱得上是一家有個性的初創公司。

大模型目前仍舊是一個非共識議題,技術路線的選擇一定程度上決定公司的生死。

閆俊杰曾直言,自己選了一條非常激進的路線。

去年,在其他公司還在迭代稠密模型時,閆俊杰轉去賭MoE路線。大模型趨勢日新月異,幾個月時間里別人都在快速進步,但MiniMax把80%以上的算力和研發資源都用來做MoE,且沒有Plan B。

過程中,前后失敗了兩次。模型訓了半個月,指標離前期估測越來越遠。背后不僅是團隊精力、時間、資金的巨大投入,也是對信心的考驗。

換來的是,MiniMax成為國內首個推出MoE大模型的公司。也剛好和OpenAI走在了同一條路線上。

從外部視角來看,有能力、有個性是MiniMax最為鮮明的特點。

而從內來看,閆俊杰表示,MiniMax的內核要素還有最重要的一點:樂觀。

悲觀者正確,樂觀者永遠勇于前行。

完成首秀后,MiniMax的腳步也一點不停歇。

在活動上,閆俊杰放出重磅預告,最新一代旗艦模型abab-7即將正式亮相。

結合最近OpenAI風聲不斷,新一代模型呼之欲出。

那么國內,誰能是最快追趕的呢?有好戲看了。

Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章