首頁 > AI資訊 > 最新資訊 > 業界首個!豆包新模型攪動AI視覺

業界首個!豆包新模型攪動AI視覺

科創板日報    2025-02-12

《科創板日報》2月10日訊(編輯 宋子喬) 2月10日,A股視覺認知概念股午后大幅走強,創業板星宸科技直線拉升漲停,全志科技、富瀚微、虹軟科技等紛紛大幅沖高。

消息面上,豆包發布視頻生成實驗模型“VideoWorld”。據介紹,不同于Sora、DALL-E、Midjourney等主流多模態模型,VideoWorld在業界首次實現無需依賴語言模型,僅通過“視覺信息”即可認知世界,也就是說,VideoWorld可通過瀏覽視頻數據,讓機器掌握推理、規劃和決策等復雜能力。團隊實驗發現,僅300M參數量下,VideoWorld已取得可觀的模型表現。

目前,該項目代碼與模型已開源。

現有模型大多依賴語言或標簽數據學習知識,很少涉及純視覺信號的學習。VideoWorld選擇去掉語言模型,實現了統一執行理解和推理任務。

怎么做到的?

豆包大模型團隊稱,VideoWorld基于一種潛在動態模型(Latent Dynamics Model,LDM),可高效壓縮視頻幀間的變化信息,在保留豐富視覺信息的同時,壓縮了關鍵決策和動作相關的視覺變化,顯著提升知識學習效率和效果。

在不依賴任何強化學習搜索或獎勵函數機制前提下,VideoWorld達到了專業5段9x9圍棋水平,并能夠在多種環境中,執行機器人任務。

但該模型并不完美,其在真實世界環境中的應用,仍面臨著高質量視頻生成和多環境泛化等挑戰。這一點最直觀體現在,視頻中存在大量冗余信息,會大大影響模型的學習效率,使得視頻序列的知識挖掘效率顯著落后于文本形式,不利于模型對復雜知識的快速學習。

大模型的視覺理解能力一直是AI前沿研究方向之一。對人類而言,與語言相比,“用眼睛看”是門檻更低的認知方式。正如李飛飛教授9年前TED演講中提到“幼兒可以不依靠語言理解真實世界”。

AI視覺學習,簡單來說,需要大模型理解物品/空間/場景的整體含義,并根據識別內容進行復雜的邏輯計算,根據圖像信息更細膩地表述并創作。

AI視覺學習能力提升,有望催發更多的AI應用。長城證券此前發布研報稱,國內AI大模型多模態能力正持續提升,如快手可靈AI大模型、字節豆包AI大模型等視頻生成的效果正在持續提升,包括精準語義理解、一致性多鏡頭生成、動態運鏡等。受益于底層技術能力的升級,國內AI應用持續迭代,token調用量持續增長,AI應用有望從中受益。

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章