首頁 > AI資訊 > 最新資訊 > 若愚科技:基于多模態大模型的機器人“大腦”領導者

若愚科技:基于多模態大模型的機器人“大腦”領導者

新火種    2023-11-15

當前,“四肢發達、頭腦簡單”的傳統機器人已經無法滿足千行百業“機器代人”的需求,迫切期待機器人從單一場景自動化向復雜場景智能化的拐點出現。傳統機器人實現高階智能的關鍵是更加智能的機器人“大腦”。近日,工業和信息化部印發了《人形機器人創新發展指導意見》(以下簡稱《指導意見》),機器人產業鏈上下游企業迎來重大利好,特別是針對機器人“大腦”提出更高要求。

在此背景下,由哈爾濱工業大學(深圳)(以下簡稱“哈工深”)創立的多模態大模型研發企業——深圳若愚科技有限公司(以下簡稱“若愚科技”),以其卓越的技術實力和前瞻性的市場洞察力,引起了業界的廣泛關注。若愚科技與哈工深共建人工智能聯合實驗室,形成由頂尖專家領銜的多層次、多學科研究團隊,在多模態大模型、自然語言處理、具身智能和大模型量化與壓縮等各個領域均有著深入的研究和理解。同時,團隊依托深圳哈深資產經營管理公司孵化,享受學校政策支持和資源保障,機器人學科一直是哈工大的優勢學科,學校持股團隊為團隊發展提供了穩定的資金來源和豐富的機器人上下游資源。團隊的可靠背景也為合作伙伴提供了信心和保障。

面對機遇與挑戰,若愚科技認為,將機器人“大腦”作為落地載體,是以新一代多模態大模型技術為底座的AI公司的“最佳選擇”。多模態大模型技術將推動機器人“大腦”快速升級,其進化速度遠超機器人本體,或將在未來2至3年內越過技術成熟點,進入規模化產業落地階段。

將機器人“大腦”作為落地載體成“最佳選擇”

目前,人工智能技術的發展正面臨著大量跨模態任務的挑戰,“基于多模態的預訓練大模型將成為人工智能基礎設施”,這一觀點成為業內共識。市面上的大模型把提升多模態和多任務方面能力作為主要發力方向,而這也是機器人“大腦”在實際應用中“得分高低”的重要衡量指標,將機器人“大腦”(尤其是人形機器人“大腦”)作為落地載體,往往成為以新一代大模型技術為底座的AI公司的“最佳選擇”。

機器人“大腦”可以利用多模態大模型技術,實現視覺、聽覺、觸覺、語言等多種信息的融合和處理,從而提高機器人的智能水平和交互能力。這與《指導意見》提出的“開發基于人工智能大模型的人形機器人‘大腦’,增強環境感知、行為控制、人機交互能力,推動云端和邊緣端智能協同部署”的目標是一致的。

但從現實發展狀況來看,現有的機器人公司往往依賴于外部的大型模型工具,如GPT-3、GPT-4等,然而這些外部模型并未針對機器人的特定數據進行訓練,因此機器人的指令分解能力和執行成功率相對較低。外部大模型工具自身能力有限,使得機器人也受到相應的限制,無法實現真正的自主可控。所以表現優秀的大模型工具成為行業的焦點。

針對當前機器人行業深度發展所面臨的諸多問題,若愚科技與哈工深共同研發具有完全自主知識產權的語言大模型和多模態大模型,掌握從0到1自主訓練語言大模型與多模態大模型的技術,并得到工信部認證。其中,“若愚-九天”首次參評即連續數月登頂OpenCompass多模態大模型榜單,展現出若愚科技的強大研發實力。

以“若愚-九天”大模型為基底的機器人“大腦”在多個領域中展現出色的“智能”能力。“123億參數”“1億2千萬圖文對”“1.5萬億tokens”……一串串數字背后,是“若愚-九天”多模態大模型在各個維度的突破和優化。無論是邏輯推理、關系推理,還是感知能力方面,“若愚-九天”都能夠準確地理解響應用戶需求,甚至超越用戶期待。

“早在成立之初,若愚科技便瞄準了機器人‘大腦’的方向,致力于為整個機器人生態賦能。”若愚科技CEO孫騰指出,《指導意見》提出的“開發基于人工智能大模型的人形機器人‘大腦’”和“圍繞動態開放環境下人形機器人感知與控制”兩個方面,與若愚科技深耕領域相匹配。

值得關注的是,相對于落地C端的激烈競爭,以及對超大規模數據、超強算力、超大規模用戶觸達的剛需,機器人“大腦”正處于起步階段,未來上限更高、行業跨度更大、專業要求更高,競爭格局將會相對分散,這也從另一角度印證了選擇機器人“大腦”為落地載體的合理性。

多模態大模型技術將推動機器人“大腦”快速升級

正如人類的“五感”互相連通、緊密協作,共同構成了人們對世界的認知體驗,人工智能也朝著類似的方向發展,文字、語言、圖像等不同數據類型(模態)的邊界逐漸變得模糊。伴隨著AI感知、交互和生成能力的快速發展,多模態大模型技術將推動機器人“大腦”快速升級。多模態大模型技術推動機器人“大腦”快速迭代升級的根本原因在于,模擬人類大腦處理信息方式是多模態模型技術的核心目標。通過融合不同感知模態,使機器人可以像人類一樣來理解世界,以更為綜合的方式來感知和生成信息,滿足不同場景條件的實際需求。具體來講,多模態大模型技術可以利用海量多媒體數據,實現對不同模態信息的深度理解和生成,提高機器人的認知能力和創造能力;可以利用強化學習和元學習等方法,實現對不同場景和任務的快速適應和優化,提高機器人的決策能力和執行能力;可以利用對話系統和情感分析等技術,實現對人類的語言和情感的理解和響應,提高機器人的溝通能力和共情能力。

從當前多模態大模型在現實場景中的表現可以證明,其運用在機器人“大腦”將大幅提高機器人環境感知、肢體運動、人機交互、任務規劃等核心能力。例如,今年3 月份谷歌聯合柏林工業大學團隊推出的PaLM-E,是一種多模態具身視覺語言模型,不僅可以理解圖像,還能理解、生成語言,可執行各種復雜的機器人指令而無需重新訓練。PaLM-E還表現出了“正遷移”能力,即它可以將從一項任務中學到的知識和技能遷移到另一項任務中,從而與單任務機器人模型相比具有“顯著更高的性能”。

對于若愚科技而言,多模態大模型“若愚-九天”能夠處理文本、圖像、音頻和視頻等不同類型數據的同時,還能打破各模態間的信息壁壘,將不同類型數據在“九天”中進行有效的整合交互,從而實現更深層次的信息理解,做到更加自然順暢的人機對話。此外,若愚科技還實現了從人類知識到機器人世界的跨越。若愚科技聯合哈工深把含有大量人類通用知識的語言基座大模型和多模態基座大模型對齊到以機器人為中心的世界,構建了多模態具身決策大模型,可充分利用基座模型中的人類知識,迅速泛化到不同機器人場景,實現了從人類知識到機器人世界的跨越。通過聯合規劃大模型與決策大模型,若愚科技成功突破了機器人的智能可控,為人工智能領域帶來了新的突破口。

機器人“大腦”進化速度將遠超機器人本體

機器人“大腦”的進化速度主要取決于大模型技術的發展速度,而大模型技術的發展速度又由計算能力和數據量的增長速度決定。目前這兩者都呈現出加速的趨勢,推動機器人“大腦”進化加速。機器人本體的進化速度主要取決于機械、電子、材料等領域的技術創新,而這些領域的技術突破受到物理、化學、生物等學科的限制,導致機器人本體的進化速度難以突破瓶頸。人類發育的規律和目前的AGI范式都表明“大腦”的技術進化速度會先于本體,再延伸至后續的商業化也是相同的發展路徑。若愚科技預測,機器人‘大腦’技術成熟點將在未來2至3年內實現,從而進入到規模化產業落地階段。屆時,機器人將在制造業、民生領域等多個領域和場景中發揮重要作用。

“從產品化進程的角度看,目前人形機器人還處在早期,除部分細分領域如科研、接待展示等小規模落地外,其他場景都沒有規模化落地,需要進一步探索落地場景和商業模式。”哈工深特聘校長助理,若愚科技首席科學家張民表示。目前,基于“若愚-九天”多模態大模型基座的垂直細分領域定制化模型已開始在各垂直領域陸續應用。例如,在智能撿練領域,多模態大模型具有自動識別各種顏色、形狀等屬性物體的能力,可提升工作效率;在工業組裝領域,多模態大模型具有大量人類知識,可以自由切換產線,降低成本。這與《指導意見》提出的“聚焦3C、汽車等制造業重點領域,提升人形機器人工具操作與任務執行能力,打造人形機器人示范產線和工廠,在典型制造場景實現深度應用”的目標相符合,未來人形機器人將在制造業領域發揮重要作用。

新一代具身智能機器人必將成為人工智能領域的重要發展方向。《指導意見》的頒布為人形機器人產業發展提供了政策引導、技術支撐、市場空間等多方面保障,有助于推動整個機器人產業實現規模化、高質量、可持續的發展。未來,若愚科技將積極響應,加強技術創新和產品研發,拓展機器人的應用場景和市場空間,以機器人“大腦”為切入點為整個行業賦能,同時期待與更多合作伙伴共同探索機器人的發展可能性和潛在價值,為人類社會進步發展提供新動力和新選擇。

若愚科技:基于多模態大模型的機器人“大腦”領導者

相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章