首頁 > AI資訊 > 行業動態 > AI算力暴增至120TOPS英特爾LunarLake架構解析

AI算力暴增至120TOPS英特爾LunarLake架構解析

新火種    2024-06-06

隨著下一代AI PC硬件核心Lunar Lake的發布,英特爾4年5個制程節點演進也逐步迎來富有革命性的時刻。

面對AI時代指數級的算力需求增長,英特爾Lunar Lake,也就是第二代酷睿Ultra平臺的CPU+GPU+NPU算力突破到了120TOPS,這將為基于其打造的AI PC賦予更加強勁、高效的AI性能體驗。

在臺北電腦展這一PC行業重要時間節點,英特爾率先公布了Lunar Lake平臺技術細節,再次革新的架構設計,以及全新的CPU、GPU、NPU特性。

同時,各大OEM廠商也帶來了基于Lunar Lake平臺的新一代AIPC。那么Lunar Lake究竟能夠為第二代酷睿Ultra平臺帶來怎樣的改變?接下來,讓我們一起探究全新的英特爾Lunar Lake平臺。

·以AI為核心的多元化計算力提升

現如今,AI應用蓬勃發展,并且深入到各個領域。聊天機器人、AI智能助手、文生圖、文生視頻、文生音樂、降噪、擴圖、代碼生成、聲音模擬等等應用場景為人們所熟知。

生成式AI蓬勃增長,基于AI技術的應用日新月異,多元化大模型的轉換與擴散,成為AI終端負載的主流趨勢。同時更需要云、端、邊緣等多模態AI硬件設備的算力支持。

與此同時,對于像PC這樣的本地化AI載體,多元化的AI應用對于CPU、GPU、NPU等核心硬件的算力要求與日俱增,單一和傳統的硬件發展模式已經無法完全適應AI時代的計算要求。

因此,從Meteor Lake到如今的Lunar Lake,CPU+GPU+NPU構成的多元AI計算引擎,成為當代AI PC核心硬件的架構設計趨勢。

也因此,在如何提升三大AI計算引擎算力的同時,利用制程與架構優勢塑造更好的能效比,并兼顧傳統計算能力的提升,成為了擺在英特爾這些上游芯片企業的最直接問題。

我們看看全新的Lunar Lake是如何做到的?

·高達120TOPS的全核心AI算力暴增

首先需要明確的一點是,Lunar Lake全新的CPU、GPU以及NPU,使得整個平臺的AI計算能力達到120TOPS,相較Meteor Lake實現翻倍式提升。

那么這120TOPS算力是如何分配的呢?

首先,Lunar Lake采用的全新的Lion Cove性能核(P-Core)與Skymont能效核(E-Core)設計,支持VNNI以及AVX AI指令集,峰值AI算力為5TOPS。

別看數字比較低,但是CPU在AI應用中往往只負責一些輕度的嵌入式AI計算任務,因此5TOPS算力足以應對這些類型AI的計算需求。

其次,全新的Xe2 GPU架構帶來了67TOPS的峰值AI算力,這主要得益于新架構的XMX矩陣引擎吞吐量的進一步提升,從而使得新的銳炫GPU擁有了更強的浮點運算能力,提升了BF16、INT8等常見AI數據類型的算力。

其三,全新的NPU 4架構,帶來了2倍的能效提升以及48TOPS的峰值算力。相比Meteor Lake NPU 3架構的11.5TOPS算力,可以說是提升巨大。

因此,三大硬件核心算力加在一起,就構成了Lunar Lake整體120TOPS的AI計算能力。

·CPU、GPU、NPU三大核心性能更強、能效比更高

了解了Lunar Lake最為核心的特性之后,我們從架構入手,看看Lunar Lake在設計上有哪些變化?

從整體來看,Lunar Lake被英特爾定位儀下一代AI PC的旗艦級SoC。它具備四大特點:

其一,降低40%能耗,帶來了極富突破性的x86能效表現;

其二,達到Meteor Lake相同性能等級時,能耗只有前者的一半,從而帶來了卓越的核心性能保險;

其三,全新的Xe2圖形架構帶來了1.5倍的圖形性能提升;

其四,120TOPS全平臺AI算力帶來了無與倫比的AI計算能力。

在這樣的前提下,我們來看看Lunar Lake的芯片設計。如下圖所示:

與Meteor Lake的計算模塊、圖形模塊、SoC模塊、IO模塊的架構設計相比,Lunar Lake進行了整合并直接集成了內存。

可以看到,Lunar Lake在基板上直接集成了LPDDR5x內存顆粒,最高支持32GB雙通道。處理器芯片部分由計算模塊(Compute tile)和平臺控制模塊(Platform Controller tile)構成。

Lunar Lake的計算模塊包含了性能核心、能效核心、GPU、媒體和顯示引擎以及NPU五個區塊,這部分如果做深入解讀的話會比較難以理解,所以這里我們盡量把一些較為晦澀難懂的技術細節剔除,比如流水線深度、分支預測、矢量等等,只介紹這些技術細節的改變為Lunar Lake奠定了怎樣的性能基礎。

·全新設計的性能核與能效核帶來更好的性能體驗

首先,Lunar Lake的性能核代號為Lion Cove,其微架構針對性能和能效、IPC、可擴展性等方面進行了優化。如針對PPA(面積功耗)進行優化,L3共享緩存提升到12MB,存儲器子系統進一步改進,引入了基于AI的電源管理,矢量與整數亂序引擎進行了拆分等等。

這一系列改進使得Lion Cove的IPC相較Meteor Lake的Redwood Cove提升14%,并且能夠在相同功耗下獲得更好的性能,尤其在低能耗下的性能提升幅度達到了18%。

這意味著Lunar Lake能夠以更少的耗電量獲取更高的性能,從而兼顧性能與續航表現。

Lunar Lake的能效核代號為Skymont,其微架構設計增加了工作負載的覆蓋范圍并實現了雙倍的矢量與AI吞吐能力提升,這使得低功耗島上的Skymont核心在單線程以及多線程性能方面分別提升2倍和4倍。

再加上更好的電源效率,使得能效核在實現相同性能時,功耗較前代相比更低。

總體來看,Skymont微架構打造的全新能效核,增強了分支預測能力,擁有4MB L2共享緩存,L2緩存帶寬提升了2倍,4x 128bit FP和SIMD矢量AI吞吐能力提升2倍,同時具備更好的并行計算能力。

對比Meteor Lake的Crestmont微架構能效核,Skymont單線程FP計算能力提升1.68倍,多線程INT峰值算力是前者的4倍,而達到相同算力的能耗只有前者的1/3。

·全新的線程調度邏輯優化工作負載到核心匹配

此外,Lunar Lake改變了性能核與能效核的調度邏輯,以同時覆蓋全面的CPU性能范圍,從而優化工作負載到核心的匹配。

Meteor Lake無論在怎樣的負載狀態下,都會優先調用性能核來承擔工作負載,這就會出現明明負載不高的工作任務,也會跑在性能核上的問題,進而影響散熱與續航表現。

而Lunar Lake則會優先調用功耗更低的能效核來執行工作負載,之后如果工作負載不斷增高,就會調用性能核來提供更好的性能。

這種全新的“大小核”調度邏輯,可以幫助Lunar Lake更好地分配性能與功耗,避免性能核瘋狂跑,能效核在一旁“圍觀”的問題。

之所以能夠實現更“聰明”的核心匹配,主要原因有三點:

其一是讓線程調度更加智能化,以優化工作負載與核心的匹配;

其二是改善系統與OEM集成來更加實現更為智能和可控的CPU調度。

其三是擴展效率并提升整體的電池壽命。

在開始采用性能核與能效核設計之后,英特爾為酷睿平臺引入了Intel Thread Director,也就是英特爾線程調度器。

Lunar Lake采用了改進后的全新線程調度器,旨在優化混合架構下多核心處理器中不同類型核心的利用效率,提高整體性能和能效。

新一代線程調度器通過智能化的調度和資源分配,能夠動態調整線程的執行狀態,從而實現更高效的計算和更長的電池壽命。

在用戶在運行復雜應用和多任務處理時,英特爾線程調度器能確保應用程序順暢運行,減少卡頓和延遲現象,提升用戶體驗。

例如在游戲場景中,英特爾線程調度器可以優先調度游戲相關線程到性能核,而將后臺更新等任務安排到能效核,確保游戲的流暢運行。

再比如Teams應用,通過基于系統容器和電源管理層面的優化,該項應用的能耗相比Meteor Lake降低35%,顯著增強了在線會議時電腦的能效表現。

另外還可以看看Office生產力應用時的能效核與性能核調度邏輯。

第一張圖是任務剛剛開始時,工作負載較低的情況下,優先調用能效核來執行;第二張圖是任務負載持續爬坡之后需要更高性能時,工作負載會迅速轉移到性能核上來。

如果后續性能不需要性能核介入,那么就會一直跑在功耗更低的能效核上,這可以說是非常典型的Lunar Lake“大小核”調度邏輯。

而以往Meteor Lake可能在任務開始時,就會將負載放到性能核上來。

總體來說,全新的英特爾線程調度器通過實時監控和動態調度,實現了對混合架構中不同核心的高效利用。

它不僅提高了系統的整體性能和響應速度,還通過優化資源分配降低了功耗,延長了電池壽命。這項技術在Lunar Lake等平臺上展現出了顯著的優勢,將為用戶提供無縫、高效的計算體驗。

·全新的Xe2核顯釋放更強圖形與AI性能

CPU部分說完,我們再來看看GPU。

Meteor Lake引入全新的銳炫GPU之后,圖形性能提升顯著。一方面在游戲端可以在1080p、高畫質下用核顯運行大型3A游戲,并可以獲得35-40fps以上的畫面流暢度;另一方面,銳炫核顯在Intel OpenVINO加持下, 可以提供更加出色的AI算力,尤其在本地化的Stable Diffusion應用上,文生圖、圖生圖效率提升顯著。

Lunar Lake引入了全新的Xe2 GPU,相比Meteor Lake而言,圖形性能提升1.5倍,并且提供了更大的光追單元,幫助提升游戲的畫質與真實感。

Xe2 GPU架構提高了硬件功能的利用率,在整個架構上實現更好地工作負載分配,并且加強了硬件和軟件集成。

同時在硬件規格方面,Xe2架構也實現了升級,其Xe核心增加到了8個,圖形性能自然提升。AI性能的提升則來源于全新引入的Xe矩陣擴展引擎,這一全新的矢量引擎支持4096OPS/clock和2048OPS/clock的INT8和FP16計算,并且改進了固定功能單元,提高了吞吐量,從而優化了AI計算效率。其總體AI算力達到了67TOPS,并且擁有8MB L2緩存。

同時,Xe2 GPU增強了XeSS內核,從而提升了圖像處理和渲染效果,并且帶來更好的能效比。在同等性能下功耗更低,在同等功耗下性能更高。相比Meteor Lake,Lunar Lake功耗降低了40%。

圖形性能和能效升級的同時,Lunar Lake也帶來了全新的媒體和顯示引擎。

其中,媒體引擎在原有的AV1編解碼上增加了VVC解碼支持,而顯示引擎支持eDP 1.5、DP 2.1、HDMI 2.1接口標準。新的媒體與顯示引擎可以更好地支持自適應分辨率流媒體和360°全景視頻。

VVC解碼也是新引擎的一大亮點,雖然目前支持的比較少,但是VVC相對于AV1而言,保證相近質量的同時文件體積減少了10%,這可以幫助視頻流媒體平臺進一步縮減成本,是未來視頻解碼的一大主流方向。

·NPU 4架構帶來4倍AI算力升級

Lunar Lake的NPU也迎來大幅升級。全新的NPU 4架構增加了芯片規模、提高了時鐘頻率和能效,同時針對現代AI進行了優化,以更好地支持LLMs(大語言模型)和Transformer的高效運行。

與Meteor Lake搭載的NPU 3相比,NPU 4的峰值性能高出4倍。

NPU 4被英特爾定義為AI PC最大的集成和專用AI加速器,它集成了12個增強版SHAVE DSP(Streaming Hybrid Architecture Vector Engine Digital Signal Processors),J加速LLMs和Transformer的加速,并且支持原生激活功能和數據轉換。

其帶寬是Meteor Lake的2倍,內置6個神經計算引擎,MAC(Multiply-Accumulate)陣列能效優化,從而使得AI算力從Meteor Lake的11.5TOPS激增至48TOPS,峰值性能高出4倍,能耗更低、性能更強。

·出色的平臺級連接性

計算模塊之外,Lunar Lake的平臺控制模塊提供了出色的連接性。

Lunar Lake原生支持藍牙5.4、Wi-Fi 7(5Gig)、Thunderbolt 4。PCIe 4.0和PCIe 5.0通道數量進一步提升,新增支持Thunderbolt Share技術【具體參看:雷電接口史詩級強化!一根線完成2臺電腦協同應用】,因此Lunar Lake在連接性方面有著天花板級別的生態支持。

·結語

總體來說,Lunar Lake相比Meteor Lake而言,在CPU、GPU、NPU計算性能與能效比方面都有著極其顯著的提升。其SoC能耗降低40%,片上封裝內存之后使得數據遷移的能耗降低40%。

同時,Lunar Lake架構設計邏輯相較Meteor Lake變化極大,從原先的4大模塊整合成計算與平臺控制兩大模塊,CPU、GPU、NPU均采用了全新的微架構設計,IPC性能、AI計算性能、圖形性能、能效比、內存性能得到全方位提升。

目前,包括微星、華碩、宏碁在內的多家OEM以及發布基于Lunar Lake的筆記本新品,但是具體上市時間并未公布,同時英特爾也沒有給出Lunar Lake家族的具體型號構成。

預計新產品和新平臺正式上市時間會在2024年第三季度,其性能體驗如何?讓我們拭目以待!


Tags:
相關推薦
免責聲明
本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。

熱門文章