2024即將結束,中國AI應用支棱起來了嗎?這家公司交出95分答卷
在 AI 生成的這些視頻中,你能判斷出哪個是 Sora 生成的嗎?
左為 Sora 生成,右為國產智象多模態大模型生成。
視頻鏈接:https://mp.weixin.qq.com/s/iRlRx3uHHEDNAlMkZstCyw?token=1558348067&lang=zh_CN
12 月 10 日,OpenAI 發布了 Sora。但與 10 個月前的預覽效果相比,正式發布并沒有帶來預期的震撼效果。許多國產模型在某些方面甚至超越了 Sora。
與此同時,關于圖像、視頻生成模型應用前景的問題也被再次提起。記得 2 月份 Sora 剛發布預覽版的時候,國內 AI 公司就是否跟進這一方向出現了一波分歧 —— 有人認為這個方向有著廣闊的應用前景,值得做;但也有人認為這類模型的商業化要五年甚至十年,因此堅持不做。10 個月后,我們看到,那些選擇去做的公司不僅在模型效果上有所突破,也確實摸索出了一些當前就可以落地的場景。
貢獻上述 demo 的智象未來(HiDream.ai)就是這樣一家公司。
智象未來成立于 2023 年 3 月,核心團隊在幾年前就開始研究視頻、圖像生成模型。如今,他們的智象多模態生成大模型已經更新到了 3.0 版本,還發布了理解大模型 1.0。
該公司 CTO 姚霆告訴機器之心,其實在視頻、圖像生成領域,「我們不需要等到基礎模型達到 100 分才去做應用。在現有的基礎模型能力之上,如果你能找到真正解決用戶痛點的場景,并在應用上做得很深,真正做到端到端的 95 分以上,用戶就會買單。」
基于這一發現,智象未來對他們的模型做了很多場景驅動的優化,特別關注基礎模型在上層應用中的表現,去解決用戶「最后一公里」的問題,同時也在探索效果更好、效率更高的模型架構。我們將在下文中詳細探討這些內容。
從場景出發去優化模型
智象多模態生成大模型迎來 3.0 版本
什么樣的模型才是用戶真正需要的?姚霆在采訪中分享了他從用戶反饋中觀察到的現象。
他提到,「我們和一些 90 后、00 后的年輕人聊過,他們認為目前 AI 生成的一分鐘單鏡頭視頻,他們根本不會看,因為覺得有些無聊。但一些簡單的、帶特定 IP 的動態壁紙,卻能吸引他們付費。」這些應用并不復雜,「但他們的要求很精準 ——IP 的每個細節不能變,比如五官。」
B 端場景也類似,比如需要將商品 logo 印在衣服上,要求效果自然、直接可用。
這些現象揭示了模型和應用之間的 gap:研究人員以為他們要把基礎模型做到 100 分才會有人買單,因此拼命讓模型參加各種能彰顯通用能力的「考試」。而用戶其實只想要一個在解決自己特定問題上能達到 95 分的模型。現階段,這樣的模型并不好找。這種 gap 讓姚霆意識到,從場景需求的角度出發去優化模型,才有可能做出真正好用的產品。
智象多模態生成大模型 3.0 就是在這樣的理念下被打磨出來的。總的來說,它實現了三大方面的優化:
- 一是畫面質量和相關性提升;
- 二是鏡頭運動和畫面運動更可控;
- 三是特色場景下的生成效果提升。
畫面質量更高,相關性更強
對于圖像生成模型來說,過硬的畫面質量和遵循提示的能力是模型落地的基礎。為了在這些方面實現提升,智象未來在技術架構上引入了 Diffusion Transformer (DiT) + Autoregressive model (AR) 的混合架構。
DiT 的優勢無需多言。在 Sora 發布后,它已經成為視覺生成模型的主流架構。不過與此同時,也有不少學者在研究基于 AR 的視覺生成路線,因為這類模型的可擴展性已經在語言模型中得到了驗證。而且,它們可以通過一個 token 化的過程打通語言、視覺等多種模態,把生成和理解統一在一個框架內,提升生成模型的可控性(如 IP 保持、提示遵循)。
考慮到兩種架構各有其優點和局限性,智象未來團隊選擇將二者融合,使得新架構在保持 DiT 中連續圖像編碼優勢的同時實現自回歸過程和輕量化擴散過程結合。最終,除了提高生成質量和可控性,這種融合還帶來了一個好處,就是模型推理速度的提升,這可以讓用戶更快地得到生成結果。
下圖顯示了智象多模態生成大模型與其他模型在圖像生成效果上的差異。可以看到,在畫面設計方面,智象多模態生成大模型的角色設計明顯更加立體、生動,例如憤怒角色帶有火焰效果,快樂角色微笑明顯。在與提示的相關性方面,智象多模態生成大模型的生成效果最貼合文字描述,各個角色的情緒特征都表達得準確且生動。架構升級所帶來的提升一目了然。
與此同時,智象多模態生成大模型的視頻生成質量也有所提升,因為智象未來延續了之前高效的時空建模方法,并進一步增大了 DiT 模型的規模,從而實現了對復雜高清細節和邏輯關系的時空建模,提升了每幀的畫面質量和整體相關性。
視頻鏈接:https://mp.weixin.qq.com/s/iRlRx3uHHEDNAlMkZstCyw?token=1558348067&lang=zh_CN
影視級運鏡與生動的畫面運動
廣義的視頻運動本質上包含了復雜的全局鏡頭運動和局部畫面運動。當前的很多模型都存在兩種運動的不協調問題(想象一下,一個人在小路上往前走,后面的山卻沒有逐漸往后退),從而影響了畫面的真實感和可用性。
為了解決這個問題,智象未來把鏡頭運動和畫面運動進行聯合訓練,強化了對于影視級別鏡頭的學習和模擬,同時也提升了畫面本身運動的自然度。
如下面這幾個視頻所示,智象多模態生成大模型能夠處理非常復雜的鏡頭運動,如平移、縮放、旋轉等,而且在鏡頭變化的同時,主體也在發生合理的變化(如螞蟻隨著鏡頭變焦而縮小),且主體動作非常連貫、絲滑(如旋轉鏡頭中車的運動)。
「所有真實的視頻都需要這樣的(運鏡水平)。哪怕是一個簡單的宣傳片,它也要過渡自然,里面有一些運鏡手法。再延伸一下,運鏡手法其實是可控性的一種,生成內容要遵從給定的運鏡指令,不然的話這個工具就沒法用了。」在提及這一方向的優化動機時,姚霆解釋說。
特色場景拿來即用
用戶真實的開放場景是最考驗模型泛化性和垂域特色的,智象未來利用多場景學習放大多模態生成大模型的產品能力特色,實現不同特色場景下的生成效果提升,完成了用戶「最后一公里」的需求。
以營銷場景下的 IP 遷移功能舉例(如商品 logo 等),雖然場景很簡單,但要想達到讓用戶付費的水平,必須做到端到端的 95 分以上,在技術上就需要更多地去考慮如何兼顧用戶側生成內容的真實性以及最大化 IP 保持的程度。
如下圖所示,在將 logo 遷移到商品上之后,智象多模態生成大模型能夠做到毫不突兀地將其與商品融為一體,而且在需要適當變形的情況下(比如右下角的咖啡杯),模型也能「隨機應變」,同時保持 IP 與原圖完全一致,做到了拿來即用。
在視頻生成中,智象多模態生成大模型也能把IP(例如上述生成的帶logo的咖啡杯)自然地嵌入廣告場景。
視頻鏈接:https://mp.weixin.qq.com/s/iRlRx3uHHEDNAlMkZstCyw?token=1558348067&lang=zh_CN
理解、生成相輔相成
智象多模態理解大模型 1.0 亮相
在多模態大模型中,理解與生成是相輔相成的。因此,智象未來在生成大模型 3.0 的訓練中加入了理解增強。同時,他們還專門推出了一個新的理解大模型 —— 智象多模態理解大模型 1.0。這個模型通過對物體級別的畫面建模以及事件級別的時空建模,實現了更精細、準確的圖像與視頻內容理解。
此外,這一理解大模型還可以進一步服務于理解增強的多模態生成技術,搭配多模態生成大模型實現多模態檢索 + 多模態內容編輯與生成的創作平臺。
這個平臺的運行效果如下:你只需輸入文字描述,即可在系統中搜索到可用的視頻片段,并通過文字交互的形式進行編輯。在現實中,基于真實視頻進行二次創作的操作需求可能比從頭開始制作視頻更為常見,尤其是在一些以 IP 為核心的二次創作場景中。因此,基于智象多模態理解大模型 1.0 和多模態生成大模型 3.0 打造的這個系統有望大幅降低創作門檻,提高創作效率。
視頻鏈接:https://mp.weixin.qq.com/s/iRlRx3uHHEDNAlMkZstCyw?token=1558348067&lang=zh_CN
讓 AIGC「飛入尋常百姓家」
對于做生成式模型的公司來說,最近發生了一些值得關注的趨勢。一方面,所有人都在討論「scaling law 是否到頭,預訓練是否即將終結」。另一方面,多模態大模型正在被寄予更高的期望,有人認為這類模型有望展現出新的 scaling law,并最終通往 AGI。
然而,這些討論并沒有在姚霆心中泛起太多波瀾。
當談到多模態大模型技術未來是否就是 AGI,他有著更接地氣的觀點,「我們傾向于在基礎模型的通用性和對垂直應用的泛化性之間找一個平衡。AGI 不是我們的目標,應用才是。」
這樣的理念幫助他們在商業化方面取得了亮眼的成績。據悉,該公司目前已累計服務了全球一百多個國家和地區的一千多萬個人用戶和四萬多家企業客戶,其中包括中國移動、中國聯通、人民網、央視網、聯想、科大訊飛、商湯、微軟、上影、華策、彩訊、捷成世紀等頭部企業。鑒于多模態大模型的應用尚處于起步階段,這樣的成績并不多見。
姚霆表示,未來,他們會繼續堅持這一路線,以更接地氣方式致力于用戶最后「一公里」的問題,讓 AIGC「飛入尋常百姓家」。
最新融資消息
智象未來科技有限公司是全球領先的多模態生成式人工智能初創企業。公司自主研發的智象多模態大模型是超百億級別的大模型,擁有目前行業中最豐富的多模態版權語料庫,具備強大的視覺內容生成與理解能力,同時是首批完成模型和算法雙備案的多模態大模型。
近日,智象未來獲得數億元人民幣 Pre-A 和 A 輪融資。已完成的 Pre-A 輪融資,領投方是在文化科技領域內知名的投資機構敦鴻資本。正在進行的 A 輪融資,領投金額過億元人民幣,領投方系以合肥產投為主的國資基金,跟投方有安徽省人工智能母基金,湖北省長江電影集團有限公司等,目前還有知名戰略資本正在持續推進當中。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。