李飛飛空間智能模型引關(guān)注多家大廠跟進布局
近日,被稱為“AI教母”的李飛飛創(chuàng)立的World Labs首次官宣空間智能模型,World Labs團隊展示了他們?nèi)绾翁剿?D生成式世界,僅用一張圖,即可生成一個3D世界。李飛飛說道:“無論怎樣理論化這個想法,都很難用語言描述一張照片或一句話生成3D場景的互動體驗。”她強調(diào),大自然中存在著一種視覺與行動之間的良性互動,而空間智能正是這種互動的核心。
多位業(yè)內(nèi)人士在接受《中國經(jīng)營報》記者采訪時表示,從自然語言處理到圖像和視頻生成,再到空間智能,生成式人工智能在短短兩年內(nèi)正以前所未有的速度認(rèn)知、理解、模擬并創(chuàng)造出人類所處的物理世界。盡管圖片生成3D技術(shù)在AR眼鏡這一場景上已有實踐,但李飛飛發(fā)布的“空間智能”模型標(biāo)志著AI從2D像素平面邁向了完整的3D世界,并且該模型生成的3D世界具有高度的交互性和真實性,用戶可以在其中自由移動相機,探索虛擬環(huán)境,體驗更真實的物理效果和視覺效果。
雖然World Labs發(fā)布的空間智能大模型落地場景與應(yīng)用方面仍存在諸多挑戰(zhàn),但業(yè)界相信其未來的潛力。記者在采訪中了解到,目前除了World Labs外,國內(nèi)外的多家科技公司也在空間智能領(lǐng)域開始布局。相信未來競爭將愈發(fā)激烈,也將進一步拓展AI技術(shù)的邊界,同時也會為多個行業(yè)帶來變革機遇。
邁向空間智能的第一站
World Labs于今年9月13日成立,是一家空間智能AI公司,試圖構(gòu)建大型世界模型(LWM)來感知、生成3D世界并與之交互。李飛飛擔(dān)任公司CEO。
實際上,早在今年年初便有消息傳出,李飛飛創(chuàng)立了一家從事空間智能相關(guān)業(yè)務(wù)的AI初創(chuàng)企業(yè),其將利用類人視覺數(shù)據(jù)處理技術(shù),讓 AI 可以實現(xiàn)高級推理。
根據(jù)World Labs的官方網(wǎng)站信息,該公司已經(jīng)成功募集到超過2.3億美元的資金。此次融資的領(lǐng)投機構(gòu)包括硅谷著名的風(fēng)險投資公司Andreessen Horowitz、NEA以及專注于人工智能的風(fēng)投基金Radical Ventures。參與投資的其他知名公司有Adobe、AMD以及英偉達(dá)等,同時,個人投資者中也不乏重量級人物,包括被譽為“AI教父”的杰弗里·辛頓(Geoffrey Hinton)、特斯拉人工智能和自動駕駛部門(Autopilot)原負(fù)責(zé)人Andrej Karpathy以及谷歌的首席科學(xué)家Jeff Dean。
不過,在星光熠熠下,外界對“空間智能”一直沒有統(tǒng)一的定義。在溫哥華TED大會的演講中,李飛飛提到,當(dāng)前最先進的算法已經(jīng)能夠合理推斷圖像和文字在三維環(huán)境中的呈現(xiàn)方式,并據(jù)此做出行動,這種算法所依托的便是所謂的空間智能。
在進一步闡述空間智能這一概念時,她使用了一張極具啟發(fā)性的圖片作為輔助工具:一只貓正伸出爪子,意圖將玻璃杯推向桌子的邊緣。她隨后詳盡地解析了這一過程,指出人類大腦具備在極短時間內(nèi)對玻璃杯的幾何構(gòu)型、它在三維空間中的位置,以及它與桌子、貓和其他物體的相互關(guān)系進行綜合評估的能力。在此基礎(chǔ)上,大腦能夠預(yù)測接下來可能發(fā)生的情境,并采取相應(yīng)措施來預(yù)防潛在的風(fēng)險。
經(jīng)過一年時間的努力,李飛飛終于將更“具象”的空間智能展示出來。在World Labs 發(fā)布的模型上,用戶僅需上傳一張圖片,系統(tǒng)即可依據(jù)圖片中的環(huán)境信息,自動生成一個相應(yīng)范圍內(nèi)的3D虛擬世界。用戶可以直接在網(wǎng)頁端,通過鼠標(biāo)或鍵盤操作,輕松地瀏覽這個3D世界。此外,生成的3D世界具備交互性,用戶能夠像在游戲里一樣,自由地移動相機,探索這個3D世界,包括景深、變焦等操作都可輕松完成。
中國投資協(xié)會上市公司投資專業(yè)委員會副會長支培元評價道:“‘空間智能’模型的問世,標(biāo)志著AI在深度學(xué)習(xí)、計算機視覺領(lǐng)域取得了里程碑式的進步,尤其在3D圖形合成、環(huán)境映射、目標(biāo)檢測等關(guān)鍵任務(wù)上展現(xiàn)出了超越常規(guī)的強大效能,預(yù)期將掀起VR/AR、交互娛樂、建筑可視化等行業(yè)的根本變革。無論是電子商務(wù)平臺的沉浸式購物體驗、房產(chǎn)市場的遠(yuǎn)程實景導(dǎo)覽,抑或影視后期制作的特效創(chuàng)作,還是教育培訓(xùn)領(lǐng)域的虛擬實訓(xùn)基地,皆可成為該技術(shù)的用武之地。”
不過,記者在體驗過程中注意到,該模型構(gòu)建的3D場景探索范圍有限,一旦移動一小段距離,系統(tǒng)便會提示已觸達(dá)邊界。而且,該模型還會出現(xiàn)“幻覺”,理解不夠準(zhǔn)確。
World Labs也表示,以上成果還偏早期,他們正在努力提高生成世界的大小和擬真度,也正在試驗用戶與它們交互的新方式。
世界院士專家聯(lián)合會執(zhí)行秘書長、中國民協(xié)新質(zhì)生產(chǎn)委員會秘書長吳高斌指出,盡管李飛飛發(fā)布的模型具有巨大潛力,但要實現(xiàn)理想的落地場景仍面臨一定困難。首先,在技術(shù)層面,模型在生成3D世界的精度和速度上還需進一步提高。其次,在應(yīng)用層面,如何將這一模型與現(xiàn)有產(chǎn)業(yè)相結(jié)合,實現(xiàn)商業(yè)化落地,仍需克服諸多挑戰(zhàn)。
國內(nèi)已有涉及
實際上,在空間智能領(lǐng)域,李飛飛并不是第一個“吃螃蟹的人”。英偉達(dá)、Meta等多家公司也有所布局,只不過,它們稱之為3D生成。美國當(dāng)?shù)貢r間12月4日,谷歌DeepMind發(fā)布了大型基礎(chǔ)世界模型Genie 2,可通過單張圖片或文字描述生成3D場景。
不只是海外,國內(nèi)的AI廠商也在著手布局空間智能。幾乎與World Labs同一時間,國內(nèi)智源研究院推出了首個利用大規(guī)模無標(biāo)注的互聯(lián)網(wǎng)視頻學(xué)習(xí)的3D生成模型See3D——See Video, Get 3D。
不同于傳統(tǒng)依賴相機參數(shù)(pose-condition)的3D生成模型,See3D采用全新的視覺條件(visual-condition)技術(shù),僅依賴視頻中的視覺線索,生成相機方向可控且?guī)缀我恢碌亩嘁暯菆D像。
在今年11月初,有傳聞指出阿里巴巴正在測試一款名為“Animode”的人工智能視頻創(chuàng)作工具。根據(jù)官方的描述,該工具是一款專業(yè)的3D軟件,旨在創(chuàng)造栩栩如生的二次元角色和具有電影大片般效果的視覺內(nèi)容。緊接著在11月5日,騰訊旗下的混元實驗室也宣布了其最新研發(fā)的MoE模型“混元Large”以及3D生成大模型“Hunyuan3D-1.0”的開源。
然而,在中關(guān)村物聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟副秘書長袁帥看來,World Labs的空間智能模型之所以受到外界的廣泛關(guān)注和“吹捧”,原因在于其獨特的技術(shù)優(yōu)勢和廣泛的應(yīng)用前景。該模型不僅支持實時渲染和用戶自由控制視角,還具有高度的交互性和場景持久性,為用戶提供了更加豐富和真實的體驗。此外,該模型還能夠適應(yīng)不同的場景和藝術(shù)風(fēng)格,為創(chuàng)作者提供了更多的創(chuàng)意空間和個性化體驗。
支培元表示,相較同類方案,該模型兼具計算效率與圖像質(zhì)量優(yōu)勢,能在保持細(xì)節(jié)豐富度的基礎(chǔ)上,極大程度地壓縮處理時間,解決當(dāng)前三維內(nèi)容生成的技術(shù)難題。兼容主流硬件平臺,從移動終端到高性能服務(wù)器,確保技術(shù)無縫對接,有利于快速市場化部署,支撐多元場景應(yīng)用。盡管面臨技術(shù)挑戰(zhàn)和商業(yè)化落地的難題,但獨特的技術(shù)優(yōu)勢和廣泛的應(yīng)用前景使其成為業(yè)界關(guān)注的焦點。隨著國內(nèi)外多家大廠的布局,空間智能領(lǐng)域正迎來一個全新的發(fā)展階段。
(文章來源:中國經(jīng)營網(wǎng))
- 免責(zé)聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。