首頁 > AI資訊 > 行業(yè)動態(tài) > 商湯科技聯(lián)合創(chuàng)始人:大模型讓自動駕駛擁有更好的可解釋性

商湯科技聯(lián)合創(chuàng)始人:大模型讓自動駕駛擁有更好的可解釋性

新火種    2023-10-28

·大模型的長處在于能夠找到新的解法,幫助解決新問題,一旦解決以后可以在狹窄領(lǐng)域產(chǎn)生大量數(shù)據(jù),重新訓(xùn)練小模型。商湯推出了千億參數(shù)大模型,也會推出針對不同垂直領(lǐng)域的百億參數(shù)小模型,有的小模型甚至可以跑在終端上,成本更低。

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛。

今年4月,人工智能軟件企業(yè)商湯科技聯(lián)合上海人工智能實驗室等提出首個感知決策一體化的端到端自動駕駛大模型UniAD,開創(chuàng)了以全局任務(wù)為目標(biāo)的自動駕駛大模型架構(gòu)先河。

大模型+自動駕駛將帶來哪些駕駛體驗?在今年7月舉辦的2023世界人工智能大會期間,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛在接受采訪時表示,自動駕駛的挑戰(zhàn)之一是AI模型的可解釋性不高,但大模型尤其是語言模型不單是輸出結(jié)果,還可以輸出邏輯推理過程來解釋原因,因此未來的自動駕駛系統(tǒng)將會有更好的可解釋性。

大模型研發(fā)不是跟隨國外成果

商湯科技以視覺算法起家,2019年起布局10億參數(shù)規(guī)模的視覺模型,今年4月發(fā)布“日日新”大模型體系,涵蓋千億參數(shù)中文大語言模型應(yīng)用平臺“商量”、文生圖生成模型“秒畫”、AI數(shù)字人視頻生成平臺“如影”、3D內(nèi)容生成平臺“瓊宇”(場景生成)和“格物”(物體生成)等。

在“百模大戰(zhàn)”下,商湯如何保持競爭優(yōu)勢?王曉剛表示,一是軟硬件基礎(chǔ)設(shè)施,商湯建立了新型人工智能基礎(chǔ)設(shè)施AI大裝置,打通算力、算法和平臺,降低人工智能生產(chǎn)要素價格,并從2019年開始研發(fā)大模型,較早建立軟硬件基礎(chǔ)設(shè)施并不斷完善保障了大模型開發(fā)。

二是針對大模型帶給行業(yè)的變化重塑研發(fā)體系。“過去幾年,商湯一個公司的模型就有幾萬個,而現(xiàn)在是讓一個大模型賦能各行業(yè),所以需要針對這個特點重塑研發(fā)體系?!备餮邪l(fā)團隊基于基礎(chǔ)大模型開發(fā)各個垂直方向的新研發(fā)體系和產(chǎn)品,前端產(chǎn)品深入到各行業(yè)后為基礎(chǔ)模型團隊帶來有益反饋,不斷更新和加強模型。

三是不斷創(chuàng)新目標(biāo)和方式,聚集大量人才。今年6月,商湯科技與上海人工智能實驗室、武漢大學(xué)聯(lián)合論文《以路徑規(guī)劃為導(dǎo)向的自動駕駛》(Planning-oriented Autonomous Driving,UniAD)斬獲頂會最佳論文,該論文提出首個感知決策一體化的端到端自動駕駛大模型UniAD,開創(chuàng)了以全局任務(wù)為目標(biāo)的自動駕駛大模型架構(gòu)先河?!按竽P偷难邪l(fā)不是一直去跟隨國外的成果,而是要基于大模型的應(yīng)用有自己的創(chuàng)新。”

王曉剛還介紹了商湯智能決策今年在緊密模擬真實世界的暢銷游戲《我的世界》中取得的突破。過去幾年,人工智能研發(fā)機構(gòu)OpenAI、DeepMind在智能決策上花了大量精力,基于強化學(xué)習(xí)完成開放世界里的任務(wù),“它們過去幾年一共解決了78個任務(wù),而我們?nèi)诤险Z言模型能夠解決全部262個任務(wù)。”而智能決策的市場廣闊,基于大模型,未來可以應(yīng)用到機器人、自動駕駛等領(lǐng)域。

大模型將為自動駕駛帶來三大變化

自動駕駛系統(tǒng)包含感知、預(yù)測和規(guī)劃三大主任務(wù)。在自動駕駛大模型UniAD中,研究人員首次將三大類主任務(wù)及六小類子任務(wù)(目標(biāo)檢測、目標(biāo)跟蹤、場景建圖、軌跡預(yù)測、柵格預(yù)測和路徑規(guī)劃)整合到一個基于Transformer(注:谷歌開發(fā)的一種深度學(xué)習(xí)模型,OpenAI在此基礎(chǔ)上開發(fā)了GPT)的端到端網(wǎng)絡(luò)框架下,實現(xiàn)了全棧關(guān)鍵任務(wù)駕駛通用模型,多目標(biāo)跟蹤準確率超越最佳性能20%,車道線預(yù)測準確率提升30%,預(yù)測運動位移和規(guī)劃的誤差分別降低38%和28%。

王曉剛表示,今天的自動駕駛之所以還不夠智能,原因之一是盡管車上傳感器種類多,但不同類型的傳感器融合仍是挑戰(zhàn),判斷和決策模塊割裂。大模型的出現(xiàn)讓感知、決策、規(guī)劃、控制等眾多模塊實現(xiàn)端到端的優(yōu)化,“原來這些模塊都是割裂的,分別開發(fā),然后通過手動的方式進行鏈條,現(xiàn)在以最終的駕駛體驗為目標(biāo)進行端到端的優(yōu)化,可以提升開發(fā)效率和最終體驗?!?/p>

王曉剛認為,未來大模型將為自動駕駛帶來三大變化。一是在核心決策模塊,語言模型將替代簡單規(guī)則,這是因為語言模型展示出強大的邏輯推理和決策能力,尤其是面向開放世界的各種開放問題。

二是當(dāng)決策模塊變得強大,就可以更好融合從感知模塊輸出的各種信息。“現(xiàn)在感知模塊的輸出相對來說比較簡單,就是一些檢測框、標(biāo)簽,持續(xù)的感知信息融合也比較困難,因為我們的決策模塊不夠強大。當(dāng)決策模塊強大以后,感知輸出也會變得更加豐富和強大,提升整體安全性和駕駛體驗?!?/p>

三是未來的自動駕駛系統(tǒng)將會有更好的可解釋性。自動駕駛的挑戰(zhàn)之一是AI模型的可解釋性不高。而大模型尤其是語言模型不單是輸出結(jié)果,還可以輸出邏輯推理過程來解釋原因。所以未來基于大模型的自動駕駛在出現(xiàn)問題時,可以更好地診斷,幫助提升自動駕駛能力。

大模型商業(yè)化需選擇高價值的行業(yè)應(yīng)用方向

除了自動駕駛,大模型為各行各業(yè)帶來的價值是多方面的,價值也有高低。有時候大模型可以是一個聊天工具,有時候可以將它作為大腦操縱其他App,有時候也可以把它當(dāng)成編程工具。不同應(yīng)用方式為行業(yè)帶來的價值差別是巨大的。王曉剛表示,要對大模型進行成本考量,在大模型商業(yè)化過程中選擇高價值的方向進行研究和落地。

他表示,商湯正朝著“視覺版ChatGPT”和多模態(tài)大模型方向努力,多模態(tài)大模型的應(yīng)用價值體現(xiàn)在垂直行業(yè)里。其參與研發(fā)的200億參數(shù)多模態(tài)大模型“書生”統(tǒng)一了自然語言指令,可定義各種開放式任務(wù),對世界的理解更加完整和深刻?!霸械挠嬎銠C視覺定義任務(wù)時,能夠提供的信息非常有限?,F(xiàn)在因為多模態(tài)模型對世界有了更好的理解,能夠通過語言與實體世界連接,產(chǎn)生交互。比如老人到國外拿到菜單看不懂,拍一張照片模型就可以告訴他菜單里有什么、點菜的價格,老人可以提要求是吃葷的還是吃素的、預(yù)算是多少,模型就會推薦菜品組合?!?/p>

大模型的長處在于能夠找到新的解法,幫助解決新問題,一旦解決以后可以在狹窄領(lǐng)域產(chǎn)生大量數(shù)據(jù),重新訓(xùn)練小模型。這就好比把大模型想象成能力強大的運動員,“它能夠演示一個新的體操動作,有了示范以后資質(zhì)差的再去學(xué)習(xí)就會容易很多。我們推出了千億參數(shù)大模型,也會推出針對不同垂直領(lǐng)域的百億參數(shù)小模型,有的小模型甚至可以跑在終端上,成本更低。如果沒有大模型,小模型也不會存在,因為小模型不知道怎么解決某個問題?!?/p>

大語言模型常常一本正經(jīng)地“胡說八道”,針對大模型存在的這一“幻覺”,王曉剛表示,把準確信息放在知識庫里,通過知識庫的融合就可以較好解決“幻覺”問題。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風(fēng)險,讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產(chǎn)生的任何金錢損失負任何責(zé)任。

熱門文章