Arm全新NPU性能提升4倍,支持Transformer,邊緣生成式AI時代指日可待
生成式AI在經歷了火熱的百模大戰之后,開始進入落地階段。
以工業機器視覺、可穿戴設備和消費者機器人為代表的邊緣應用,無疑是生成式AI落地的重要場景。
本周,Arm宣布推出了性能相比前代提升4倍的Arm Ethos-U85神經網絡處理器 (NPU),這是一款硬件支持Transformer 架構和卷積神經網絡 (CNN)的AI加速器,能夠以高能效實現邊緣側AI推理。
Arm物聯網事業部業務拓展副總裁馬健表示,“生態系統中的開發者在樹莓派設備上評估運行包括 LLaMA 等在內的大模型。邊緣部署大模型和生成式AI用例指日可待,Arm已經為此做好準備?!?/p>
全新NPU原生支持Transformer
Ethos-U NPU系列是Arm推出的AI微加速器,主要是滿足邊緣邊緣AI和嵌入式AI的市場需求,此前已經發布了Ethos-U55、Ethos-U65,并且已經有多個量產產品。
本周最新發布的Ethos-U85,與上一代產品相比,Ethos-U85 性能提升4倍,同時能效提高了20%,可以滿足工廠自動化和商用或智能家居攝像頭等物聯網應用不斷攀升的性能需求。
Ethos-U85的主要特性包括:
單周期支持從 128 到 2048 個 MAC單元的配置——在 1GHz 時,算力可支持從 256 GOPS 到 4 TOPS。
支持 int8 權重和 int8 或 int16 激活。
支持 Transformer 架構網絡,以及 CNN 和 RNN。
硬件原生支持 2/4 稀疏性,使吞吐量翻倍。
內部 SRAM 為 29 至 267 KB,多達六個 128 位 AXI5 接口。
支持權重壓縮,采用標準和快速權重編碼器。
支持擴展壓縮。
對于Arm來說,設計出一款高性能的產品難度不大,關鍵在于產品的定義,Ethos-U85相比此前同系列產品一個明顯的不同是支持Transformer模型。
具體實現上,Ethos-U85除了支持Ethos-U55和Ethos-U65 目前支持的算子,通過支持TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR和 ARGMAX等運算,Ethos-U85實現了對Transformer模型和DeeplabV3語義分割網絡的原生硬件支持。
更高的性能往往意味著更高功耗,為了兼顧性能和能效,更好滿足邊緣和端側AI應用的需求,Ethos-U85通過支持元素級算子鏈化提升效率。
通過鏈化將元素級運算與先前的運算相結合,SRAM不必先寫入再讀取中間張量。由此減少NPU和內存之間數據傳輸量,提高NPU的效率。
相比Ethos-U65,鏈化是Ethos-U85在效率提升上的新功能之一,此外還有快速的權重編碼器、優化的 MAC 陣列能效,以及提升的元素效率。
參考設計加速邊緣生成式AI落地
目前,Arm Ethos NPU系列產品已有逾20家授權許可合作伙伴,Alif Semiconductor和英飛凌是全新Arm Ethos-U85 NPU的早期采用者。
對于大量邊緣設備的開發者來說,基于Arm Ethos-U85 NPU開發和設計產品依舊有比較高的開發門檻。
降低AI開發門檻最一個直接的方式就是提供參考設計。
與Ethos-U85同時推出的是Arm Corstone-320物聯網參考設計平臺。這一全新的參考設計平臺集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的Ethos-U85 NPU。
除了IP,Corstone-320物聯網參考設計平臺還有軟件套件,包括固件、所有 IP 的驅動程序、中間件、實時操作系統 (RTOS) 和云集成、ML 模型和參考應用程序。
有了配套的軟件套件,軟件開發者能夠輕松選擇其特定細分市場所需的組件,并使用所選開發工具為該設備構建物聯網堆棧。開源應用程序演示了關鍵詞識別、語音識別和目標識別用例。
還附帶了仿真Corstone-320完整系統的Arm虛擬硬件(Arm Virtual Hardware),以及單獨的 CPU和NPU的固定虛擬平臺 (FVP) 模型,能簡化開發并加速產品設計,支持軟硬件并行協同開發。
“為了支持中國廣大的物聯網嵌入式開發者,我們將Arm虛擬硬件落地在了百度云上,正在實現與百度BML和EasyDL工具鏈的組合,使基于Arm技術的AI開發可以在百度飛槳 (PaddlePaddle)上變得更加容易,且實現軟硬件協同開發?!瘪R健說,“在基于 Arm 最新 IP 量產芯片就緒之前,就可以預先做軟件應用的開發以及 AI/ML 算法的開發和優化。”
Arm在軟件和生態方面還有一個顯著的優勢,那就是Arm 在數據中心、云、邊、端都有統一的工具鏈支持,開發者可以使用已經熟知的工具鏈,具有投資復用、上手容易等優勢。
Corstone-320能夠加速語音、音頻和視覺系統,比如智能家居、智能零售、智能工業制造領域的AI落地。
即便Corstone-320中的Cortex-M85不滿足邊緣AI的需求,Arm也支持從基于 Cortex-A 的系統直接驅動 Ethos-U85 的功能,大幅增加Ethos-U85的適用范圍。
如何應對碎片化和RISC-V挑戰?
性能提升4倍的全新NPU和全新的參考設計平臺,是Arm能夠對外提供的能力。
但要在邊緣市場落地生成式AI,依舊面臨著模型成熟度、邊緣AI平臺的開發,以及生態鏈對大模型量化和部署支持的問題。
還有不可避免的邊緣市場碎片化的問題,以及RISC-V的競爭。
馬健說,“Arm始終聚焦軟件生態標準以及硬件標準的投入,幫助整個生態減少碎片化。”
比如,Arm建立了SystemReady標準,以實現在不同的Arm計算平臺和芯片平臺上,有標準的軟件包。
另外,Arm還創立了PSA Certified認證標準,讓通過PSA Certified 認證的產品和系統有最基本的安全和合規的保證。
AI方面,Arm提供標準的生態工具以及軟件工具鏈。
“期待未來通過大模型和多模態,物聯網碎片化問題可以得到更好的改進。AI 會從單一功能到多功能,甚至是向通用AI的方向演進。”馬健也表示。
至于如何應對RISC-V在邊緣AI市場的競爭?
馬健對說,“我們的戰略一直非常簡單,專注做好最優秀的產品,使產品更加易用,以及持續打造強大的生態系統。歷史經驗告訴我們,只要我們專注做好這三件事情,整個行業就能夠以互相合作的方式來共同前進,我們會繼續堅持這一策略,在AI甚至未來的其他市場上取得更大的成功?!?/p>
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。