首頁 > AI資訊 > 最新資訊 > 李想:理想VLA司機大模型就是從動物進(jìn)化到人類

李想:理想VLA司機大模型就是從動物進(jìn)化到人類

新火種    2025-05-09

5月7日消息,理想汽車今日晚間推出“理想AI Talk第二季——理想VLA司機大模型,從動物進(jìn)化到人類”,理想汽車董事長兼CEO李想分享了對于人工智能的最新思考,VLA司機大模型的作用、訓(xùn)練方法和挑戰(zhàn),以及對于創(chuàng)業(yè)和個人成長的見解。

李想將AI工具分為三個層級,分別是信息工具、輔助工具和生產(chǎn)工具。

目前,大多數(shù)人將AI作為信息工具使用,但信息工具常伴隨大量無效信息、無效結(jié)果和無效結(jié)論,僅具參考價值。

成為輔助工具后,AI可以提升效率,例如現(xiàn)在的輔助駕駛,但仍需人類參與。

未來,AI發(fā)展為生產(chǎn)工具后,將能獨立完成專業(yè)任務(wù),顯著提升效率與質(zhì)量。

李想表示:“判斷Agent(智能體)是否真正智能,關(guān)鍵在于它是否成為生產(chǎn)工具。只有當(dāng)人工智能變成生產(chǎn)工具,才是其真正爆發(fā)的時刻。就像人類會雇傭司機,人工智能技術(shù)最終也會承擔(dān)類似職責(zé),成為真正的生產(chǎn)工具。”

李想:理想VLA司機大模型 就是從動物進(jìn)化到人類

代入到自動駕駛領(lǐng)域來看,李想表示,目前的L2、L2+組合駕駛輔助仍屬于輔助工具階段。

而VLA(Vision-Language-Action Model,視覺語言行動模型)能夠讓AI真正成為司機,成為交通領(lǐng)域的專業(yè)生產(chǎn)工具。對理想汽車而言, 未來的VLA就是一個像人類司機一樣工作的司機大模型”。

VLA的實現(xiàn)不是一個突變的過程,是進(jìn)化的過程,經(jīng)歷了三個階段,對應(yīng)理想汽車輔助駕駛的昨天、今天和明天。

第一階段,理想汽車自2021年起自研依賴規(guī)則算法和高精地圖的輔助駕駛,類似“昆蟲動物智能”。

第二階段,理想汽車自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,視覺語言模型)輔助駕駛,接近“哺乳動物智能”。

端到端模型在處理復(fù)雜問題時存在局限,雖可借助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領(lǐng)域的能力有限。同時端到端模型也難以與人類溝通。

為了解決這些問題并提升用戶的智能體驗,理想汽車自2024年起開展VLA研究,并在多項頂級學(xué)術(shù)會議上發(fā)表論文,夯實了理論基礎(chǔ)。

第三階段,在端到端的基礎(chǔ)上,VLA將開啟“人類智能”的階段,它能通過3D和2D視覺的組合,完整地看到物理世界,而不像VLM僅能解析2D圖像。

同時,VLA擁有完整的腦系統(tǒng),具備語言、CoT(Chain of Thought,思維鏈)推理能力,既能看,也能理解并真正執(zhí)行行動,符合人類的運作方式。

李想:理想VLA司機大模型 就是從動物進(jìn)化到人類

此外,李想還進(jìn)一步分享了VLA的訓(xùn)練細(xì)節(jié)和運作原理。

VLA訓(xùn)練分為預(yù)訓(xùn)練、后訓(xùn)練和強化訓(xùn)練三個環(huán)節(jié),類似于人類學(xué)習(xí)駕駛技能的過程。

預(yù)訓(xùn)練相當(dāng)于人類學(xué)習(xí)物理世界和交通領(lǐng)域的常識,通過大量高清2D和3D Vision(視覺)數(shù)據(jù)、交通相關(guān)的Language(語言)語料,以及與物理世界相關(guān)的VL(Vision-Language,視覺和語言)聯(lián)合數(shù)據(jù),訓(xùn)練出云端的VL基座模型,并通過蒸餾轉(zhuǎn)化為在車端高效運行的端側(cè)模型。

后訓(xùn)練相當(dāng)于人類去駕校學(xué)習(xí)開車的過程。隨著Action(動作)數(shù)據(jù)的加入——即對周圍環(huán)境和自車駕駛行為的編碼,VL基座變?yōu)閂LA司機大模型。

強化訓(xùn)練類似于人類在社會中實際開車練習(xí),目標(biāo)是讓VLA司機大模型更加安全、舒適,對齊人類價值觀,甚至超越人類駕駛水平。

VLA司機大模型以“司機Agent(智能體)”的產(chǎn)品形態(tài)呈現(xiàn),用戶可通過自然語言與司機Agent溝通,跟人類司機怎么說,就跟司機Agent怎么說。

簡單通用的短指令由端側(cè)的VLA直接處理,復(fù)雜指令則先由云端的VL基座模型解析,再交由VLA處理。

李想:理想VLA司機大模型 就是從動物進(jìn)化到人類

李想強調(diào):理想人工智能走的是無人區(qū),做VLA這件事,Deepseek、OpenAI、谷歌、Waymo都沒有走過這條路,理想以前走的是汽車的無人區(qū),以后走的是人工智能的無人區(qū)。

李想:理想VLA司機大模型 就是從動物進(jìn)化到人類


Tags:
相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認(rèn)可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章