国产微拍精品,亚洲国产超清无码专区,天天艹在线观看

首頁 > AI資訊 > 最新資訊 > 業界首個！豆包新模型攪動AI視覺

業界首個！豆包新模型攪動AI視覺

科創板日報 2025-02-12

《科創板日報》2月10日訊（編輯宋子喬） 2月10日，A股視覺認知概念股午后大幅走強，創業板星宸科技直線拉升漲停，全志科技、富瀚微、虹軟科技等紛紛大幅沖高。

消息面上，豆包發布視頻生成實驗模型“VideoWorld”。據介紹，不同于Sora、DALL-E、Midjourney等主流多模態模型，VideoWorld在業界首次實現無需依賴語言模型，僅通過“視覺信息”即可認知世界，也就是說，VideoWorld可通過瀏覽視頻數據，讓機器掌握推理、規劃和決策等復雜能力。團隊實驗發現，僅300M參數量下，VideoWorld已取得可觀的模型表現。

目前，該項目代碼與模型已開源。

現有模型大多依賴語言或標簽數據學習知識，很少涉及純視覺信號的學習。VideoWorld選擇去掉語言模型，實現了統一執行理解和推理任務。

怎么做到的？

豆包大模型團隊稱，VideoWorld基于一種潛在動態模型（Latent Dynamics Model，LDM），可高效壓縮視頻幀間的變化信息，在保留豐富視覺信息的同時，壓縮了關鍵決策和動作相關的視覺變化，顯著提升知識學習效率和效果。

在不依賴任何強化學習搜索或獎勵函數機制前提下，VideoWorld達到了專業5段9x9圍棋水平，并能夠在多種環境中，執行機器人任務。

但該模型并不完美，其在真實世界環境中的應用，仍面臨著高質量視頻生成和多環境泛化等挑戰。這一點最直觀體現在，視頻中存在大量冗余信息，會大大影響模型的學習效率，使得視頻序列的知識挖掘效率顯著落后于文本形式，不利于模型對復雜知識的快速學習。

大模型的視覺理解能力一直是AI前沿研究方向之一。對人類而言，與語言相比，“用眼睛看”是門檻更低的認知方式。正如李飛飛教授9年前TED演講中提到“幼兒可以不依靠語言理解真實世界”。

AI視覺學習，簡單來說，需要大模型理解物品/空間/場景的整體含義，并根據識別內容進行復雜的邏輯計算，根據圖像信息更細膩地表述并創作。

AI視覺學習能力提升，有望催發更多的AI應用。長城證券此前發布研報稱，國內AI大模型多模態能力正持續提升，如快手可靈AI大模型、字節豆包AI大模型等視頻生成的效果正在持續提升，包括精準語義理解、一致性多鏡頭生成、動態運鏡等。受益于底層技術能力的升級，國內AI應用持續迭代，token調用量持續增長，AI應用有望從中受益。

Tags:

深度學習豆包模型

免責聲明: 本文所包含的觀點僅代表作者個人看法，不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。交易和投資涉及高風險，讀者在采取與本文內容相關的任何行動之前，請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

業界首個！豆包新模型攪動AI視覺

Florence-VL來了！使用生成式視覺編碼器，重新定義多模態大語言模型視覺信息

智駕公司下場搞AI視頻生成，模型上線即開源

微調時無需泄露數據或權重，這篇AAAI2025論文提出的ScaleOT竟能保護隱私

震驚！Claude偽對齊率竟能高達78％，Anthropic137頁長論文自揭短

別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車

熱門文章

業界首個！豆包新模型攪動AI視覺

Florence-VL來了！使用生成式視覺編碼器，重新定義多模態大語言模型視覺信息

智駕公司下場搞AI視頻生成，模型上線即開源

微調時無需泄露數據或權重，這篇AAAI2025論文提出的ScaleOT竟能保護隱私

震驚！Claude偽對齊率竟能高達78％，Anthropic137頁長論文自揭短

別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車

熱門文章

Florence-VL來了！使用生成式視覺編碼器，重新定義多模態大語言模型視覺信息

智駕公司下場搞AI視頻生成，模型上線即開源

震驚！Claude偽對齊率竟能高達78％，Anthropic137頁長論文自揭短

別急著捧殺谷歌Veo2，畢竟曾被吹上天的Sora也翻了車