首頁 > AI資訊 > 行業(yè)動態(tài) > 商湯科技聯(lián)合創(chuàng)始人王曉剛:大模型賦能智能汽車極致的駕乘體驗(yàn)

商湯科技聯(lián)合創(chuàng)始人王曉剛:大模型賦能智能汽車極致的駕乘體驗(yàn)

新火種    2023-11-29

wang

商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁 王曉剛

11月22日,由《財(cái)經(jīng)》雜志、財(cái)經(jīng)網(wǎng)、《財(cái)經(jīng)智庫》聯(lián)合主辦的“《財(cái)經(jīng)》年會2024:預(yù)測與戰(zhàn)略”在北京舉行。商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛在會上表示,大模型給智能汽車行業(yè)帶來了巨大變革,一個(gè)是端到端的自動駕駛,另外一個(gè)是智能座艙形成了以大模型為基礎(chǔ)的座艙大腦。駕駛和座艙將逐漸深度融合并將實(shí)現(xiàn)在同一顆芯片內(nèi),艙內(nèi)外傳感器與數(shù)據(jù)實(shí)現(xiàn)零拷貝和極低延時(shí)傳輸,最終在產(chǎn)品層面給消費(fèi)者帶來極致體驗(yàn)。

王曉剛指出,回顧過去幾十年的發(fā)展,人工智能對算力的需求有巨大的提升。過去幾十年里,我們都處在小模型的時(shí)代,樣本很小、規(guī)模不大的模型參數(shù)遠(yuǎn)遠(yuǎn)大于樣本和數(shù)據(jù)的供給量。但隨著互聯(lián)網(wǎng)時(shí)代的到來,我們有大量的數(shù)據(jù),人工智能進(jìn)入了大數(shù)據(jù)時(shí)代。在一個(gè)非常大量的數(shù)據(jù)的情況下,我們需要比較大的模型,有更多的參數(shù)更好地把數(shù)據(jù)的價(jià)值利用起來。

在他看來,大模型都是以巨大的算力為支撐。據(jù)其介紹,商湯對于大模型的布局在2018年就開始,當(dāng)時(shí)提出在上海臨港建立人工智能數(shù)據(jù)中心AIDC,并在這塊累計(jì)投入超過了100億人民幣。商湯擁有的諸多行業(yè)高端芯片為公司從事大模型的研發(fā)提供了非常堅(jiān)實(shí)的基礎(chǔ)。按照明年的規(guī)劃,商湯整體的算力還要增加2-3倍。“今天我們已經(jīng)達(dá)到6500P的算力,到了明年我們要達(dá)到超過1萬P。”

基于強(qiáng)大的軟硬件基礎(chǔ)設(shè)施,商湯能夠支撐很多上層的大模型開發(fā)。商湯能夠把4000塊高端的GPU連接在一起進(jìn)行高效的大模型訓(xùn)練,進(jìn)行超過5000億參數(shù)量規(guī)模的大模型的訓(xùn)練。在此基礎(chǔ)上有了商湯日日新的大模型體系,包括語言大模型、文生圖的大模型、多模態(tài)的大模型,也包括決策智能、AI for Science等。商湯也把基礎(chǔ)設(shè)施開放給合作伙伴,今天商湯AI大裝置可同時(shí)跑超過20個(gè)千億規(guī)模的模型。

在王曉剛看來,大模型的出現(xiàn),不僅僅可作為聊天和交互的工具,也成了一個(gè)強(qiáng)大的生產(chǎn)力的工具。商湯發(fā)現(xiàn)其大模型可以做到如工具的調(diào)用、智能體的交互、機(jī)器人的控制等。

近一年,商湯進(jìn)行了一系列大模型的發(fā)布,在GPT4發(fā)布之前已經(jīng)開源了30億參數(shù)的多模態(tài)的大模型,也是當(dāng)時(shí)業(yè)界開源里面最強(qiáng)的多模態(tài)模型。4月份發(fā)布了日日新大模型的體系,5月份的時(shí)候通才智能體取得了突破性進(jìn)展,6月份語言大模型在各項(xiàng)評比中超越GPT3.5,6月份商湯發(fā)布了全球第一個(gè)在自動駕駛領(lǐng)域端到端的UniAD大模型,它統(tǒng)一了感知、決策、推理、規(guī)劃一系列模塊,在CVPR獲得最佳優(yōu)秀論文。商湯還將發(fā)布世界模型,用于自動駕駛環(huán)境的生成和模擬仿真等等。

具體在智能汽車領(lǐng)域,王曉剛認(rèn)為,今天絕影智能汽車的核心業(yè)務(wù)就是駕艙云三位一體的發(fā)展,核心圍繞通用人工智能、大模型。在自動駕駛領(lǐng)域,商湯現(xiàn)在已經(jīng)進(jìn)行量產(chǎn)落地的是L2+在高速領(lǐng)航,未來推廣到城區(qū)的領(lǐng)航。城區(qū)的環(huán)境比高速復(fù)雜很多,在這種情況下要擺脫對高精度地圖的依賴。“端到端的自動駕駛”用一個(gè)模型去驅(qū)動整個(gè)自動駕駛各個(gè)模塊,實(shí)現(xiàn)完整的數(shù)據(jù)驅(qū)動,將是未來的發(fā)展趨勢。

在大模型帶來的巨大變革下,王曉剛認(rèn)為智能駕駛未來技術(shù)路線的演進(jìn)也逐漸清晰。過去的自動駕駛整個(gè)系統(tǒng)里面有感知、融合、定位、決策、規(guī)控等等很多模塊,在所有這些模塊里只有感知部分依賴于數(shù)據(jù)驅(qū)動,其他模塊都是依靠手動的規(guī)則。UniAD的出現(xiàn)就實(shí)現(xiàn)了端到端的自動駕駛。

他進(jìn)一步表示,當(dāng)各個(gè)模塊被一個(gè)神經(jīng)網(wǎng)絡(luò)串聯(lián)進(jìn)行數(shù)據(jù)驅(qū)動的時(shí)候,每個(gè)模塊的性能將得到大幅提升。過去智能駕駛有各種傳感器,包括激光雷達(dá)、攝像頭等等,未來將以視覺為主,大幅降低成本。第二,擺脫對高精度地圖的依賴,使自動駕駛實(shí)現(xiàn)的范圍更廣,成本更低,且不依賴于高精度地圖的更新。第三,能夠做到可解釋性、安全可靠、可迭代性強(qiáng)。

王曉剛還在演講中展示了一個(gè)最新的工作,首個(gè)應(yīng)用于駕駛決策規(guī)劃的智駕多模態(tài)大模型DriveMLM。通過輸入各種類型的信息,模型可以給出自動駕駛做每一步?jīng)Q策和操作時(shí)背后的邏輯和推理的原因,即以自然語言的方式去解釋自動駕駛的行為。這也就說明,今天自動駕駛對我們來說不是一個(gè)黑盒,而是清晰知曉其背后的邏輯。

基于多模態(tài)大模型,他表示還可打造世界模型。“世界模型”可以通過大模型生成各種在自動駕駛場景下非常接近于真實(shí)的視頻及各種傳感器的輸出。通過自動地產(chǎn)生模擬的環(huán)境等,對于自動駕駛技術(shù)的訓(xùn)練、測試、迭代都會有極大的推動作用。

除智能駕駛外,他還談到,汽車板塊語言模型的核心就是座艙大腦,將來基于此構(gòu)建AI的操作系統(tǒng),多模態(tài)的大模型可以把艙內(nèi)外各種不同類型的傳感器進(jìn)行融合,全方位地感知乘客和駕駛員的需求。未來在座艙里面,從APP的自動觸發(fā)去激活大模型,到大模型通過感知客戶乘客的需求,主動進(jìn)行場景的觸發(fā),提供主動的專業(yè)化的服務(wù),將來車內(nèi)大模型無處不在,形成非常好的跟用戶交互的體驗(yàn)。

在大模型時(shí)代,智能汽車能夠?qū)崿F(xiàn)人車的交互、人機(jī)的共駕。我們期待在自動駕駛里面,大模型能夠成為安全可靠的“老司機(jī)”,它能夠去學(xué)習(xí)各種駕駛行為和駕駛風(fēng)格,在座艙里,全方位地感知乘客和駕駛員的需求,成為暖心和懂我們的好管家。

以下為部分發(fā)言實(shí)錄:

各位專家,各位嘉賓,下午好,這個(gè)論壇的主題是突破和應(yīng)用,2023年通用人工智能和大模型是行業(yè)里最重要的突破之一,今天非常有幸和大家分享通用人工智能能夠給智能汽車領(lǐng)域帶來的一些變化和發(fā)展機(jī)遇。

回顧過去十年人工智能的發(fā)展,十年前它是以人工智能突破人的肉眼、人的認(rèn)知的工業(yè)紅線為起點(diǎn)。2014年商湯首次在面部識別領(lǐng)域,突破肉眼的識別率,誕生了商湯科技,從此以后一批AI的應(yīng)用陸續(xù)落地。但它同時(shí)也有一個(gè)問題,在過程當(dāng)中需要針對每一個(gè)任務(wù),對模型進(jìn)行針對性的訓(xùn)練。

今天你要問我這樣的任務(wù)能不能完成,往往回答都是可以,但是我要重新采集訓(xùn)練樣本,花比較長的時(shí)間再去開發(fā)AI的系統(tǒng)。過去的幾年里我們做過一個(gè)統(tǒng)計(jì),商湯這種商業(yè)化的模型輸出超過3萬多個(gè),這里面也意味著比較多的定制化,能力受到限制。到了2022年底ChatGPT的出現(xiàn),極大改變了人工智能的范式,基于一個(gè)非常強(qiáng)大的通用的基模型,可以完成很多通用的開放式的人工智能的任務(wù),對于人工智能大規(guī)模的推廣有非常重大的意義。

回顧一下過去幾十年的發(fā)展,人工智能對算力的需求有巨大的提升。過去幾十年里,可以說我們都處在小模型的時(shí)代,樣本很小、規(guī)模不大的模型參數(shù)遠(yuǎn)遠(yuǎn)大于樣本和數(shù)據(jù)的供給量。但是后面隨著互聯(lián)網(wǎng)時(shí)代的到來,我們有大量的數(shù)據(jù),人工智能進(jìn)入了大數(shù)據(jù)時(shí)代,這個(gè)階段反了過來,我們是在一個(gè)非常大量的數(shù)據(jù)的情況下,我們需要用比較大的模型,有更多的參數(shù)更好地把數(shù)據(jù)的價(jià)值利用起來。

2012年AlexNet、深度學(xué)習(xí)的出現(xiàn),對算力的需求帶來了巨大的提升。從AlexNet到Transformer,算力需求增加了100倍,從Bert到GPT-4又有上千倍算力的增加。特斯拉今天有14000塊GPU用于自動駕駛,到明年年初的時(shí)候它的算力規(guī)模會增加到10萬塊,谷歌、OpenAI背后亦都是以巨大算力作為支撐。

大模型的爆發(fā)始于2022年底,但商湯對于大模型的布局在2018年就開始。2018年總部移到上海的時(shí)候,我們提出這樣一個(gè)訴求,在上海的臨港建立人工智能的數(shù)據(jù)中心AIDC,那個(gè)時(shí)候大家不太能夠理解作為一個(gè)算法的公司為什么有這樣的投入去建立比較重的基礎(chǔ)設(shè)施,我們累計(jì)這里面的投入超過了100億人民幣。商湯擁有的諸多行業(yè)高端芯片為公司從事大模型的研發(fā)提供了非常堅(jiān)實(shí)的基礎(chǔ)。按照明年的規(guī)劃,商湯整體的算力還要增加2-3倍。“今天我們已經(jīng)達(dá)到65000P的算力,到了明年我們也要超過1萬P。”

基于強(qiáng)大的軟硬件基礎(chǔ)設(shè)施,商湯能夠支撐很多上層的大模型開發(fā)。商湯能夠把4000塊高端的GPU連接在一起進(jìn)行高效的大模型訓(xùn)練,進(jìn)行超過5000億參數(shù)量規(guī)模的大模型的訓(xùn)練。在此基礎(chǔ)上有了商湯日日新的大模型體系,包括語言大模型、文生圖的大模型、多模態(tài)的大模型,也包括決策智能、AI for Science等。商湯也把基礎(chǔ)設(shè)施開放給合作伙伴,今天商湯AI大裝置可同時(shí)跑超過20個(gè)千億規(guī)模的模型。

2019年,商湯發(fā)布了首個(gè)10億參數(shù)的感知大模型,2022年發(fā)布了彼時(shí)世界上最強(qiáng)的320億參數(shù)的感知大模型。此外商湯生成式的大模型包括語言大模型、文生圖的大模型、多模態(tài)的大模型,包括決策智能、AI for Science等,所有這些都是基于軟硬件基礎(chǔ)設(shè)施的。過去幾個(gè)月我們有超過500人的研發(fā)團(tuán)隊(duì)聚焦在大模型的研發(fā),超過10億參數(shù)規(guī)模的模型在我們的設(shè)施上跑過了超過1000次,百億參數(shù)量規(guī)模的模型我們的訓(xùn)練次數(shù)超過100次。正是針對這些中等或小一點(diǎn)的模型反復(fù)的訓(xùn)練、試錯(cuò),在這個(gè)過程中積累了大量的know how,幫助我們針對千億規(guī)模的參數(shù)有比較好的成功的訓(xùn)練。

今天看到大模型的出現(xiàn),不僅僅作為聊天和交互的工具,也成了一個(gè)強(qiáng)大的生產(chǎn)力的工具。大模型可以做到工具的調(diào)用、智能體的交互、機(jī)器人的控制……。今年5月份,我們基于語言大模型發(fā)布了通才智能體,這個(gè)通才智能體可以比較好地做決策和任務(wù)中長短期的規(guī)劃。因?yàn)橹按蠹矣幸粋€(gè)認(rèn)知,認(rèn)為人工智能能夠比較好地完成一些規(guī)則比較清晰的任務(wù),比如圍棋Alpha Go。但對于開放式的任務(wù),對它的挑戰(zhàn)性就比較高。對于我們的通才智能體,我們做了這樣一個(gè)實(shí)踐,在《我的世界》的游戲里面,有262個(gè)開放式的任務(wù)。游戲中需要從非常原子級的元素組合成物體,組成建筑物,從而構(gòu)建整個(gè)世界,這里面有262個(gè)開放式的任務(wù),過去的幾年里如DeepMind、OpenAI用強(qiáng)化學(xué)習(xí)完成這些任務(wù)的時(shí)候總共只解鎖了78個(gè)任務(wù)。商湯基于語言大模型實(shí)現(xiàn)對262個(gè)任務(wù)的全部解鎖,為將來機(jī)器人、自動駕駛等提供了非常廣闊的空間,能夠看到大模型與決策任務(wù)的規(guī)劃展現(xiàn)出來的強(qiáng)大實(shí)力。今天我們的模型真正地成為AI操作系統(tǒng)AI的大腦,它能夠調(diào)用其他的工具、函數(shù)、第三方插件,包括代碼的生成。

給大家舉一些例子。第一塊展示了多模態(tài)的大模型,之前我們用比較多的視覺模型的時(shí)候只能完成幾個(gè)特定的視覺任務(wù),今天我們有了多模態(tài)的大模型,我們可以針對圖像、視頻定義任何的任務(wù),問它任何的問題,它都能夠給我們豐富的答案。比如這是一些交通的場景、自動駕駛的場景,自動駕駛面臨著非常復(fù)雜的場景要做出決策和判斷,這里面大模型就能夠幫助自動駕駛的系統(tǒng)做出合理的決策,區(qū)分不同的場景。在這張圖里面,結(jié)合這個(gè)圖片中間白色的小轎車周圍的環(huán)境,給出它應(yīng)該有的駕駛的決策并作出解釋。我們的模型給出的反饋,前方有紅燈,有行人在穿行,前方有車輛在同行,左右有靜止的車輛,后面有救護(hù)車的出現(xiàn),應(yīng)該做出避讓救護(hù)車,讓救護(hù)車先行。在這樣的場景中,我們算法最終給出的建議是向左側(cè)變道,讓出當(dāng)前的車道。在這樣一個(gè)復(fù)雜的環(huán)境當(dāng)中,有很多種因素構(gòu)成的情況下,我們的大模型會給到自動駕駛系統(tǒng)一個(gè)比較合理的決策。這些很難用基于現(xiàn)有的手動規(guī)則,去書寫自動駕駛的決策邏輯,對它們來說是很難完成的。又比如,問去黃石東路應(yīng)該怎么走?根據(jù)圖片,現(xiàn)在是白天,前方有車輛的行駛,周圍有藍(lán)色、白色的路標(biāo),根據(jù)路標(biāo)信息去黃石東路的時(shí)候應(yīng)該保持左側(cè)車道的行駛。在沒有高精度地圖的時(shí)候,人可以經(jīng)過視覺的輸入作出判斷,今天有了大模型的出現(xiàn),也可以在沒有高精度地圖的指引下能夠幫助我們做出這樣的判斷。

近一年,商湯發(fā)布了一系列大模型,在GPT4(多模態(tài)大模型)發(fā)布之前我們在今年3月已經(jīng)開源了30億參數(shù)的多模態(tài)的大模型,也是當(dāng)時(shí)業(yè)界開源里面最強(qiáng)的多模態(tài)模型。今年4月份發(fā)布了日日新大模型的體系,5月份的時(shí)候通才智能體取得了突破性進(jìn)展,6月份語言大模型在各項(xiàng)評比中超越GPT3.5,6月份我們也發(fā)布了全球第一個(gè)在自動駕駛領(lǐng)域端到端的UniAD大模型,它統(tǒng)一了感知、決策、推理、規(guī)劃一系列核心要素,實(shí)現(xiàn)了第一個(gè)大模型,在CVPR獲得最佳優(yōu)秀論文,這是CVPR近三十年第一個(gè)以自動駕駛為題材的最佳論文,也是從1萬篇候選當(dāng)中選出來的。今年我們也會發(fā)布我們的世界模型,用于自動駕駛環(huán)境的生成和模擬仿真等等。

回到智能汽車這個(gè)領(lǐng)域,今天的絕影智能汽車的核心業(yè)務(wù)就是駕艙云三位一體的發(fā)展,核心圍繞通用人工智能、大模型。在自動駕駛領(lǐng)域,商湯現(xiàn)在已經(jīng)進(jìn)行量產(chǎn)落地的是L2+在高速領(lǐng)航,未來推廣到城區(qū)的領(lǐng)航。城區(qū)的環(huán)境比高速復(fù)雜很多,在這種情況下且要擺脫對高精度地圖的依賴,端到端的自動駕駛,用一個(gè)模型去完成整個(gè)自動駕駛各個(gè)模塊,實(shí)現(xiàn)完整的數(shù)據(jù)驅(qū)動,將是未來的發(fā)展趨勢。我們會基于UniAD工作基礎(chǔ)上實(shí)現(xiàn)端到端自動駕駛模型的量產(chǎn),今年9月份特斯拉宣布了它未來的自動駕駛也是基于端到端的模型完成的。在智能座艙領(lǐng)域,商湯要打造智能座艙的大腦,因?yàn)楝F(xiàn)有的智能座艙是由各個(gè)供應(yīng)商提供一些單點(diǎn)的AI功能,由主機(jī)廠基于一些規(guī)則形成產(chǎn)品智能座艙的體驗(yàn),整個(gè)體驗(yàn)是比較呆板的,人們把這個(gè)叫做假AI。有了大模型以后,它可以自動調(diào)動智能座艙里面各個(gè)AI的單點(diǎn)功能,座艙里面的幾十個(gè)APP,包括座艙里的各種硬件,能夠形成一個(gè)完整的智能座艙的體驗(yàn)。這些背后都離不開AI的云服務(wù),無論是駕駛還是座艙都需要數(shù)據(jù)的閉環(huán),包括大模型的訓(xùn)練,特斯拉有自己的AIDC數(shù)據(jù)中心,到明年的時(shí)候特斯拉自己的算力就超過1萬P。國內(nèi)這些車廠很難建設(shè)這樣規(guī)模的基礎(chǔ)設(shè)施,而且需要提前布局。我們會把商湯的大裝置這樣的基礎(chǔ)設(shè)施開放給車廠和生態(tài)合作伙伴。

這里給大家展示的是大模型整體的研發(fā)體系,從模型的訓(xùn)練到模型推理的部署、云和端的結(jié)合,我們需要大幅的降低推理的成本。在此基礎(chǔ)上有大模型的體系,包括數(shù)據(jù)的平臺、數(shù)據(jù)生產(chǎn)的管線,無論是通用的大模型還是行業(yè)的大模型,非常重要的就是數(shù)據(jù)的收集、數(shù)據(jù)的清理,這樣的話我們可以提供一整套深入到行業(yè)里面的數(shù)據(jù)生產(chǎn)管線。再往上就是各種串聯(lián)層包括函數(shù)的調(diào)用、沙盒的環(huán)境、知識融合、安全和價(jià)值觀的對齊、MOE混合專家系統(tǒng)等等,再往上去支持自動駕駛、智能座艙、車路協(xié)同的應(yīng)用。我們會把整個(gè)這套體系開放給我們的客戶我們的合作伙伴。

在智能座艙領(lǐng)域,我們的語言模型的核心就是座艙的大腦,將來基于此構(gòu)建AI的操作系統(tǒng),我們的多模態(tài)的大模型可以把艙內(nèi)外各種不同類型的傳感器進(jìn)行融合,全方位地感知乘客和駕駛員的需求。另外我們有長短期的記憶模塊,乘客的個(gè)人偏好、紀(jì)念日、日程安排都以外掛文檔的形式跟大模型有這樣的結(jié)合,這樣的話我們的模型就能實(shí)現(xiàn)千人千面。在此基礎(chǔ)上我們通過AIGC內(nèi)容生成模型產(chǎn)生虛擬助手,產(chǎn)生千人千面的各種應(yīng)用,還能夠通過語言大模型智能化的控制車輛的各種狀態(tài),從而實(shí)現(xiàn)智能座艙一個(gè)整體的方案。

基于這套架構(gòu),在過去的幾個(gè)月里開發(fā)了一系列在智能座艙里面的應(yīng)用,給我們的乘客帶來全新的體驗(yàn)。這里面應(yīng)用很多,我就舉一個(gè)例子,比如健康問診。因?yàn)槲覀冊谲嚺摾锩嬗泻芏鄠鞲衅鳎覀兡軌蛑鲃荧@得個(gè)人的健康指標(biāo),比如血壓、心跳等等。但是在大模型出現(xiàn)之前這些指標(biāo)只是能夠存放在那里,比較難發(fā)揮它的價(jià)值,今天我們有了大模型之后就可以根據(jù)這些指標(biāo)的變化,主動觸發(fā)跟乘客跟駕駛員的交互,我們檢測到健康出現(xiàn)狀況的時(shí)候可以提供健康的咨詢,也可以提供緊急的AIE-Call進(jìn)行救援呼叫,也可以實(shí)現(xiàn)自動駕駛接管,把車停到比較安全的地方。

這個(gè)大模型的出現(xiàn)實(shí)現(xiàn)了跟乘客、駕駛員主動的互動。未來在座艙里面從APP的主動觸發(fā)去激活大模型,到大模型通過感知客戶乘客的需求,主動進(jìn)行場景的觸發(fā),提供主動的專業(yè)化的服務(wù),將來車內(nèi)大模型無處不在,形成非常好的跟用戶交互的體驗(yàn)。

智能駕駛未來技術(shù)的路線也逐漸清晰。過去智能駕駛有各種傳感器,包括激光雷達(dá)、攝像頭等等,未來是比較清晰的,以視覺為主,大幅降低成本。第二是數(shù)據(jù)的驅(qū)動,在過去的自動駕駛整個(gè)系統(tǒng)里面有感知、融合、定位、決策、規(guī)控等等很多模塊,在所有這些模塊里只有感知部分依賴于神經(jīng)網(wǎng)絡(luò),依賴于數(shù)據(jù)驅(qū)動,其他模塊都是依靠手動的規(guī)則,今天有了UniAD的出現(xiàn)就實(shí)現(xiàn)了端到端的自動駕駛,一個(gè)神經(jīng)網(wǎng)絡(luò)完成了所有的模塊,一旦所有的模塊都能用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的話,就能夠?qū)崿F(xiàn)數(shù)據(jù)的驅(qū)動,因?yàn)橐酝际强抗こ處熅帉懜鞣N規(guī)則和補(bǔ)丁,解決自動駕駛里面的各種corner case,現(xiàn)在可以通過數(shù)據(jù)的方式神經(jīng)網(wǎng)絡(luò)進(jìn)行驅(qū)動。

今天可以看到各個(gè)模塊當(dāng)被一個(gè)網(wǎng)絡(luò)串聯(lián)起來的時(shí)候進(jìn)行數(shù)據(jù)驅(qū)動的時(shí)候,每個(gè)模塊的性能我們看到了大幅的提升,未來,第一純視覺會降低成本,第二,擺脫我們對高精度地圖的依賴,使自動駕駛實(shí)現(xiàn)的范圍更廣,成本更低,且不依賴于高精度地圖的更新,第三,能夠做到可解釋性、安全可靠、可迭代性強(qiáng)。這里面展示了我們最新的一個(gè)工作,基于多模態(tài)的大模型DriveMLM,多模態(tài)大模型應(yīng)用于自動駕駛。通過輸入各種類型的信息,我們的模型還可以給出自動駕駛做每一步?jīng)Q策和操作時(shí)背后的邏輯和推理的原因是什么,就是右邊展示的以自然語言的方式去解釋自動駕駛的行為。這也就說明,今天自動駕駛對我們來說不是一個(gè)黑盒,有背后的邏輯。此外,基于多模態(tài)大模型,還可建立我們的世界模型。“世界模型”可以通過大模型生成各種在自動駕駛場景下非常接近于真實(shí)的視頻、各種傳感器的輸出,因?yàn)槲磥矶说蕉说淖詣玉{駛的方案非常依賴于數(shù)據(jù)的驅(qū)動、數(shù)據(jù)的訓(xùn)練,今天我們能夠自動地產(chǎn)生,還有模擬的環(huán)境,對于訓(xùn)練、測試都會有極大的推動作用,這也是我們最新的成果。

未來,大模型給智能汽車帶來了非常大的行業(yè)變革,一個(gè)是端到端的自動駕駛,另外一個(gè)是智能座艙里面形成以大模型為基礎(chǔ)的座艙的大腦,最后我們的駕駛和座艙逐漸深度融合,它們會實(shí)現(xiàn)在同一顆芯片里面,艙內(nèi)外的傳感器和數(shù)據(jù)能夠?qū)崿F(xiàn)零拷貝、極低延時(shí)的傳輸,能夠給我們在產(chǎn)品層面帶來極致的體驗(yàn)。所以大模型時(shí)代對于智能汽車這樣一個(gè)場景,能夠?qū)崿F(xiàn)人車的交互、人機(jī)的共駕。我們期待在自動駕駛里面大模型能夠成為安全可靠的“老司機(jī)”,它能夠去學(xué)習(xí)各種駕駛行為和駕駛風(fēng)格,在座艙里面就能夠成為暖心和懂我們的好管家。給智能汽車的行業(yè)帶來了深刻的變化,我們特別期待未來幾年里通過通用人工智能對我們這個(gè)行業(yè)帶來更大的改變。

相關(guān)推薦
免責(zé)聲明
本文所包含的觀點(diǎn)僅代表作者個(gè)人看法,不代表新火種的觀點(diǎn)。在新火種上獲取的所有信息均不應(yīng)被視為投資建議。新火種對本文可能提及或鏈接的任何項(xiàng)目不表示認(rèn)可。 交易和投資涉及高風(fēng)險(xiǎn),讀者在采取與本文內(nèi)容相關(guān)的任何行動之前,請務(wù)必進(jìn)行充分的盡職調(diào)查。最終的決策應(yīng)該基于您自己的獨(dú)立判斷。新火種不對因依賴本文觀點(diǎn)而產(chǎn)生的任何金錢損失負(fù)任何責(zé)任。

熱門文章