智源研究院發布世界模型Emu3多模態AGI漸行漸近?
《科創板日報》10月22日訊(記者 李明明)日前,人工智能領域的新型研發機構智源研究院正式發布原生多模態世界模型Emu3。據介紹,該模型實現了視頻、圖像、文本三種模態的統一理解與生成。
當前,行業現有的多模態大模型多為對于不同任務而訓練的專用模型,比如Stable Diffusion之于文生圖,Sora之于文生視頻,GPT-4V之于圖生文。但是現有模型的能力多為單一分散的能力組合,而不是原生的統一能力,比如目前Sora還做不到圖像和視頻的理解。
而下一token預測被認為是通往AGI的可能路徑,但這種范式在語言以外的多模態任務中沒有被證明。
智源研究院院長王仲遠告訴《科創板日報》記者,“Emu3證明了下一個token預測能在多模態任務中有高性能的表現,這為構建多模態AGI提供了廣闊的技術前景。Emu3有機會將基礎設施建設收斂到一條技術路線上,為大規模的多模態訓練和推理提供基礎,這一簡單的架構設計將利于產業化。同時,該訓練技術能夠以較大程度復用現有的大模型訓練基礎設施,降低了對新基礎設施的需求,從而加速多模態大模型的迭代和最終落地。未來,多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。而多模態大模型通過統一表示空間實現了跨模態的統一訓練和生成,展現巨大潛力。”
一位大模型領域專家也對《科創板日報》記者分析,當前,視覺的理解模型和生成模型各自分開獨立發展,這也是多模態領域面臨的問題,也會造成生成模型的生成能力強而理解能力弱,或者理解模型的理解能力強而生成能力弱。因此,多模態大模型亟需將理解和生成統一在一個模型里。目前,多模態生成模型的發展相對滯后,該領域未來的發展潛力較大。
(圖注:Emu3圖片理解案例)具體就Emu3如何實現圖像、視頻和文字的統一輸入和輸出,王仲遠總結道,團隊構建了一個統一的Tokenizer系統,將文本、圖像、視頻等各種模態信息映射到一個離散空間,并通過auto Regressive的方式進行統一訓練和生成。這相當于為文字、圖像、視頻發明了一種統一的“新語言”,可以在同一空間中表達。
王仲遠表示,“Emu3 會為未來多模態基座模型的發展指明一個方向,是下一代的多模態大模型的訓練范式。對于這樣的技術路線,需要各界共同努力,才能加速多模態基座模型的發展。期待在產業轉化過程中,Emu3能夠像悟道系列,與各大模型公司、互聯網企業等合作,共同推進技術的應用。”
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。