商湯絕影系列原生態大模型亮相2024北京車展:智能汽車加速駛入AGI時代
4 月 25 日,2024 北京國際汽車展覽會正式開展,商湯絕影攜系列原生態大模型及相關產品矩陣首次亮相北京車展。
作為首個提出感知決策一體化自動駕駛通用模型的公司,商湯絕影在本屆車展上首次向公眾展示了面向量產的真?端到端自動駕駛解決方案 UniAD (Unified Autonomous Driving) 的道路測試表現,同時帶來了以多模態場景大腦為核心的 AI 大模型座艙產品矩陣以及全新座艙 3D 交互演示,全景展示了通用人工智能 (AGI) 技術驅動的靈活自適應、深度個性化、安全可信賴、有人文關懷的未來出行全新體驗。
商湯科技聯合創始人、首席科學家、絕影智能汽車事業群總裁王曉剛表示:“未來汽車智能化的競爭,本質上是通用人工智能技術融合應用的比拼。商湯絕影致力于成為加速智能汽車駛入 AGI 時代的核心技術伙伴,給智能汽車產業帶來生產效率和交互體驗的雙重革新,將攜手合作伙伴提供通用人工智能技術驅動的智能汽車全新體驗,共同定義未來出行。”
像人一樣開車:真?端到端自動駕駛解決方案 UniAD 上車首秀
憑借前瞻的行業洞察和率先布局,商湯及其聯合實驗室在 2022 年底便提出了行業首個感知決策一體化自動駕駛通用模型 UniAD,并在次年榮獲 2023 年國際計算機視覺與模式識別會議 (CVPR) 最佳論文,引領了端到端自動駕駛,乃至 AI 領域的創新潮流。
在北京車展上,商湯絕影以 UniAD 自動駕駛解決方案實車測試成果展現了國內端到端智駕的實力。在無高精地圖條件下,僅依靠視覺感知的實際道路測試成果。無論是復雜城市道路還是無中線的鄉村道路上,車輛能高效準確地完成包括大角度左轉上橋、避讓占道車輛及施工區域、繞行跑步行人等一系列高難度操作,做到 “像人一樣開車”。
搭載 UniAD 方案的車輛可真正做到 “像人一樣開車”。
今年年初,特斯拉開始向部分用戶推送 FSD V12 版本的端到端自動駕駛方案,業內隨之出現了越來越多的 “端到端” 智駕方案。不過從技術角度來看,大部分端到端方案采用的是更易落地的,由感知和決策兩個模型組成的 “兩段式” 架構,兩個模型之間依然存在信息傳遞過濾或丟失的問題。
而 UniAD 將感知、決策、規劃等模塊都整合到一個全棧 Transformer 端到端模型,實現感知決策一體化的真?端到端自動駕駛。
UniAD 真?端到端:感知決策一體化的通用模型
當前,行業需要真正的端到端自動駕駛方案,因為基于規則的智駕方案的天花板已開始顯現。隨著城區成為智駕落地的主戰場,場景計算的復雜度呈指數級增長。大量的人力資源投入也只是增加有限的規則,無法應對數量無限的復雜場景和長尾路況 (corner case)。
端到端技術的出現開辟了一條全新的道路,開始推動自動駕駛范式從鋪設大量人力轉變為持續算力投入和高質量數據輸入。
憑借商湯大裝置的算力、高質量仿真數據和行業領先的模型性能,UniAD 端到端方案有更高的能力上限,強大的學習和思考能力讓它能夠像人一樣開車;數據驅動的端到端模型泛化能力強、迭代效率快,可以幫助車企低成本快速開城;純視覺感知的無圖方案,進一步降低系統的軟硬件成本,助力智駕普及,實現全國都能開。
新一代自動駕駛大模型 DriveAGI:可感知、可交互、可信賴
在端到端系統基礎上,商湯絕影還在本次車展期間前瞻介紹了新一代自動駕駛大模型 DriveAGI,推動自動駕駛從數據驅動向認知驅動的躍遷。依托多模態大模型強大的世界理解、推理能力、決策能力以及交互能力,DriveAGI 將是目前最貼近人類思維模式、最能理解人類意圖并有最強解決駕駛困難場景能力的技術方案,向完全無人駕駛邁出重要一步。
敏銳洞察、深度思考、高效執行 “多模態場景大腦”,提供真正懂你的智能座艙
前不久上市的小米 SU7 將 AI 大模型帶進座艙,而商湯 “日日新” 大模型也全面助力小愛同學車載語音場景應用。
4 月 23 日,商湯科技發布全新升級的 “日日新 SenseNova 5.0” 大模型。6000 億參數的 “日日新 5.0” 采用混合專家架構 (MOE),具備更強的知識、數學、推理及代碼能力,成為國內首個全面對標甚至超越 GPT-4 Turbo 的大模型,多模態能力領先 GPT-4V。基于端云結合的架構,商湯端側大模型大幅超越同量級大模型,越級比肩 7B、13B 大模型,更適合車端部署。
基于多模態大模型、大語言模型、文生圖模型等能力組合,商湯絕影構建了以多模態場景大腦為核心的一系列全景感知、主動關懷且富有創造力的大模型座艙產品。
商湯絕影正在打造的敏銳洞察、深度思考、高效執行的多模態場景大腦,是助力智能汽車邁向 AGI 時代的核心產品之一。通過應用場景和用戶需求驅動,多模態場景大腦讓智能汽車可以高效準確地全景感知和深度理解用戶需求和周圍環境,并以場景大腦為核心打通不同應用,將離散的單點功能聚合在一起,從而為用戶提供更多深度個性化的主動關懷和服務。
多模態大模型可以準確感知并識別車外信息
基于地理位置推薦符合用戶喜好的餐廳、介紹用戶感興趣的外部自然景物,并進行優質景點推薦是絕影 AI 大模型座艙產品的基礎功能。憑借強大的多模態感知能力,搭載商湯絕影方案的車輛能夠準確感知并識別車外的信息,包括周圍車輛的車型、標志性建筑物等,以語音、圖片或者視頻等方式為艙內人員提供更為準確和全面的內容,幫助用戶了解和掌握外部環境信息,打破座艙本身的限制,讓用戶享受更為自由無束縛的出行體驗。
此外,以多模態場景大腦為核心,商湯絕影還能提供更多基于汽車場景的 AI 大模型座艙產品。以商湯 “大醫” 醫療健康大模型為橋梁的 “旅醫”,讓用戶在座艙內就可以獲得專業及個性化的健康管理服務,讓出行更安心?;?AIGC 大模型技術的 “神筆”,可以把用戶簡單的繪畫線條轉變成具有美感的藝術作品,增添駕乘樂趣。
“旅醫” 讓用戶在座艙內就可以獲得專業及個性化的健康管理服務。
“神筆” 可以把用戶簡單的繪畫線條轉變成具有美感的藝術作品
人機交互的創新也是驅動座艙體驗升維的重要因素,去年 Apple Vision Pro 的問世展現了 3D 交互的創新體驗和應用潛力。商湯絕影憑借深厚的感知技術研發實力和高效的創新迭代效率,將 3D Gaze 高精視線交互和 3D 動態手勢交互這兩大全新座艙 3D 交互演示帶到現場,讓觀眾體驗到更符合人類直覺的艙內交互方式,推動座艙交互向更安全、更便利的 3D 交互升維進化。
其中, 3D Gaze 高精視線交互是商湯絕影全球首創的能夠通過視線定位與屏幕圖標進行交互的智能座艙技術,讓用戶無需點按屏幕,通過眼神即可精準控制中控圖標,完成多種交互操作;3D 動態手勢交互是行業領先的支持動態手勢和手部微動作識別的智能座艙技術,用戶通過手勢 “隔空” 實現各類座艙精細化的交互,打破傳統按鍵和屏幕觸控方式的繁瑣和局限。
商湯絕影 3D Gaze 高精視線交互:通過眼神即可精準控制中控圖標
面向未來,商湯絕影還在進一步探索艙駕融合,實現智能駕駛和智能座艙在硬件、軟件及應用層面的全面融合,提升用戶體驗、降低系統成本,進一步打破艙內外的界限和束縛,涌現更多創新功能,帶來更安全、更加全方位,更具人文關懷的新體驗。
率先完成四大技術基座布局,商湯絕影加速智能汽車駛入 AGI 時代
未來一到兩年,智能汽車處在一個關鍵的時間節點,它與面向通用人工智能的大模型技術深度融合,可能會開啟一個全新的時代。沒有公司能在新時代單打獨斗成功,車企需要強有力的核心技術伙伴攜手共進,而商湯絕影正是行業稀缺的同時具備 “算力 + 算法 + 量產經驗” 全棧技術領先的核心供應商,是一匹應勢而躍的千里馬,能夠助力合作伙伴在 AGI 時代持續領先。
AGI 的突破掀起技術范式的革新,堅實的核心研發能力成為行業競爭的關鍵。依托商湯大裝置深厚的算力儲備、原生的汽車垂類大模型、領先的軟硬件架構和全棧數據生產管線,商湯絕影率先構建了四大技術基座,正在成長為加速智能汽車駛入 AGI 時代的核心技術伙伴。
SenseCore 商湯大裝置是行業領先的 AI 基礎設施,能夠以高達 12,000 petaFLOPS 的豐沛算力支持商湯絕影系列原生態大模型的高效迭代;商湯絕影為智能汽車前瞻構建了 UniAD、DriveAGI 以及面向座艙的多模態場景大腦等系列原生態大模型,加速端到端自動駕駛和大模型在智能座艙場景的落地;端云協同和艙駕融合的創新軟硬件架構,讓智能汽車降本增效、涌現創新功能;全棧的數據生產管線,實現大模型的高質量訓練。
商湯大裝置支持商湯絕影系列原生態大模型高效迭代
憑借四大 AGI 技術基座,商湯絕影將推動智能汽車加速擁抱通用人工智能時代,以端到端大模型解決智能駕駛規?;占半y題,以多模態場景大腦讓智能座艙告別傳統的單點功能開發模式,驅動行業生產效率革新,并打破艙內外的界限和束縛,驅動人機交互體驗革新,提供靈活自適應、深度個性化、安全可信賴、有人文關懷的未來出行全新體驗。
如今,商湯絕影已經構建了智能駕駛、智能座艙和 AI 云的多元 AGI 產品體系,正在加速推動原生態大模型產品在汽車智能化領域的全方位深度應用,加速 AGI 融入汽車產業,與廣大車企合作共贏,開啟未來出行的新篇章。
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。