BlackwellRTX50架構深度揭秘:AI神經網絡渲染、DLSS4才是戰未來
NVIDIA GPU在圖形渲染、高性能計算兩條路上都是一騎絕塵,讓對手看不到尾燈,但是依然沒有停下甚至放緩的節奏,如今又帶來了重新設計的Blackwell GPU架構,而且通吃圖形、計算兩大領域。
隨著RTX 50系列的正式發布,NVIDIA也公開了Blackwell的諸多細節,尤其是架構設計、AI神經網絡渲染、DLSS 4技術,等等。
CES 2025大展期間,文Q受NVIDIA官方邀請參加了Editor's Day活動,提前了解了Blackwell的相關設計,并參觀了多項現場技術演示。
下邊,我們逐一來看。
【Blackwell GPU架構設計:四大目標】
相信這部分是大家最為感興趣的,推薦各位首先回顧一下我們快科技在2022年10月份介紹的Ada Lovelace架構設計,對比來看Blackwell架構的變化會更有針對性。
NVIDIA首先承認,當前的GPU行業內,一方面是用戶對畫質、幀率的要求越來越高,還得兼顧,但另一方面摩爾定律逐漸放緩。
這一尖銳的矛盾如何解決,NVIDIA給出的答案就是——支持神經網絡渲染、AI算力飆升的Blackwell架構。
雖然AI渲染已經誕生很多年,日漸普及,但是很多玩家依然特別在意所謂的原生渲染性能,特別是光柵化游戲的性能,而對DLSS這樣基于AI算法的技術嗤之以鼻,認為算出來的畫面都是作弊。
這種看法顯然有失偏頗。坦白地說,至少在現有技術條件下,AI計算出來的畫面肯定和原生渲染畫面有一定區別,但第一,我們最終需要的是更好畫質、更高幀率這一結果,只要能達成目的,方法和手段是次要的;畢竟原生渲染出的畫面其實也不是真的畫面,只是實現的渲染方式的差別罷了。
第二,AI技術和算法也在不斷快速進步,越來越逼近甚至超過原生渲染的畫質,遲早會讓人無法輕易分辨或反而帶來畫質的提升;
第三,傳統渲染技術進步越來越難,不可能一直抱殘守缺,需要不斷革新。
為此,NVIDIA提出了Blackwell架構設計的四大主要目標:優化新的神經網絡負載、降低顯存占用、優化AI精度與大模型、更高能效。
最終,Blackwell架構通過第五代Tensor Core,在新的FP4數據精度下,最高可達4000 AI TOPS(每秒4千萬億次計算)的超高算力;
通過第四代RT Core,達成了360 RT TFLOPS(每秒360萬億次計算)的性能;加入了全新的AI管理處理器(AM P),可以同步管理AI模型與圖形,自動拆分不同的變成類型,調度分配給不同的硬件執行,尤其是AI相關的。
重組了SM單元,專為神經網絡著色器(Neural Shaders)而組建,性能高達125 TFLOPS;
針對移動端升級了Max-Q,能效提升2倍;
還首發了新一代GDDR7顯存,最高速率達30Gbps。
1、優化新的神經網絡負載
上下圖分別為Blackwell(GB202)、Ada Lovelace(AD102)的架構布局總圖,大體上沒什么變化(當然規模更大了),屬于又一次升級版。
最直接的變化,就是增加了一組AI管理處理器,和原有的線程引擎并列負責負載分配,同時PCIe 4.0升級來到了PCIe 5.0。
SM(流式多處理器單元)一直是NVIDIA GPU的基礎模塊,Blackwell做了大幅度的變革。
一是將傳統的著色器改造為神經網絡著色器,加入多個神經網絡處理單元。
二是將FP32/INT32、FP32兩種不同的著色器核心,統一為FP32/INT32(總數不變),也就是之前有一半著色器核心只能處理單精度浮點數據,而現在所有的都可以同時處理整數、浮點運算,效率更高,調度也更靈活,當然對負載分派的準確性、效率也有更苛刻的要求。
三是將第三代Tensor Core 升級為第四代。
隨著專用神經網絡處理單元的加入,結合原本的光照、幾何、物理、材料、光線遍歷等單元,可以將輸入的不同工作負載,更高效地進行能夠重排序。
其中,神經網絡類負載會專門交給Tensor Core,其他則交給著色器核心,SER(著色器執行重排序)性能提升了2倍。
2、降低顯存占用
RT Core升級為第四代,重點提升了檢測光線、路徑與三角形相交的性能與效率,能夠以大規模的集群方式進行,效率提升數十上百倍。
其中,原有的三角形碰撞引擎,升級為三角形集群碰撞引擎(Triangle Cluster Intersection Engine),新增三角形集群解壓縮引擎(Triangle Cluster Decompression Engine),二者聯合可處理百萬級別的超大規模三角形。
還新增了線性掃描球體(Linear Swept Spheres),主要用于毛發的渲染,使用球體代替三角形來獲得更準確的毛發形狀擬合,從而大大減少所需的幾何圖形數量,性能更好,顯存占用更少。
NVIDIA將這種高效的三角形處理方法稱為RTX “Mega Geometry ”(海量幾何),非常適合渲染全景光追,模型復雜度可提升上百倍。
按照NVIDIA的說法,Blackwell的三角形交互處理效率比Ada架構再次提升了2倍(對比首次加入光追的Turing則提升8倍),而顯存占用量降低了25%。
3、優化AI精度與大模型
隨著架構與Tensor Core的迭代,支持的數據類型越來越多,支持的精度越來越低,速度也越來越快。
Turing架構在原有FP32精度的基礎上首次支持FP16浮點精度,對比Pascal在吞吐量上提升了8倍之多,而之后的Ampere架構沒變。
Ada Lovelace增加了FP8浮點精度,吞吐量再次翻番。
Blackwell又首次增加了FP4精度,性能也繼續翻番,當然它同時也支持FP8、FP16、FP32,因此靈活性更強,可以隨時處理不同精度的數據和負載。
數據精度更低,所需要的處理能力和帶寬更少,速度自然更快,這也就是Blackwell宣稱性能提升X倍的一個主要原因。
當然,低精度數據格式的缺點是準確性會有犧牲,需要根據實際情況選擇最合適的精度。
INT32、INT16、INT8、INT4、FP32、FP16、FP8、FP8、TF32、BF16等等都是模型的量化級別,主要區別在于浮點數的位數和量化的方式。
一般來說,位數越少,量化越多,模型越小,速度越快,但精度也越低,有點像文件壓縮,反之亦然。
高精度模型體積龐大,數據豐富,訓練、微調、推理需要更長的時間,對算力要求更高,而通過低精度量化,可以縮小模型體積,降低硬件要求,提高運行速度,但輸出效果會相應降低。
具體選擇什么樣的精度,取決于實際情況所需,尤其是運行于什么樣的設備、需要什么樣的結果。
這就是之前說的AMP(AI管理處理器)的作用示意圖。
它會對輸入的不同指令類型進行自動識別、區分,包括AI語言模型、游戲引擎兩大類,然后按照最適合執行的硬件單元,分配給CUDA Core、RT Core、Tensor Core去分別執行。
特別是大語言模型(LLM),會被優先處理、執行和響應,同時幀渲染和幀生成的節奏也會更加緊湊、協調,多幀生成提供一致的畫面生成時間。
4、更高能效
為了在提升性能的同時控制功耗、保持高能效,Blackwell也下了不少功夫,尤其是在移動端,也對Max-Q做了全新升級。
其中時鐘門控(Clock Gating),數據無效時關閉寄存器的時鐘;電源門控(Power Gating)可關閉空閑模塊的電源;
進一步加入的電路門控(Rail Gating),更是可以進一步在空閑或待機時,關閉大部分的計算模塊。
這些節能措施不僅適用于筆記本電腦GPU,臺式機GPU同樣可以從中獲益。
Blackwell還支持加速頻率切換(Accelerated Frequency Switching),相比之前的時鐘控制器,對于時鐘頻率的響應切換速度提升了上千倍,進入睡眠或喚醒的速度也提升了幾個量級。
同時,通過在動態負載中加快時鐘調整速度,整個SM單元的效率也大大提升。
簡單地說,這可以讓GPU在需要時更穩定地運行在更高頻率,而一旦完成工作可以快速將頻率降到最低,進入睡眠等待狀態。
更高的性能可以讓Blackwell在更短的時間內完成工作,從而盡快轉入低功耗模式。
新的電路/時鐘門控又大大提高了低功耗模式的效率,使之功耗狀態更低,而更低的延遲可以讓GPU更快地進入睡眠狀態,并保持更久。
NVIDIA表示,Blackwell比上代可以節省多達50%的功耗。
GDDR7顯存就不用說太多了,首次采用PAM3信號編碼機制,相比于GDDR6 PAM2、GDDR6X PAM4,將每時鐘周期的數據傳輸從1/2位增加到3位,自然顯著提升了傳輸帶寬。
GDDR7目前的數據率已經達到30Gbps,未來可以輕松超過40Gbps,三星的研究甚至到了42.5Gbps。
同時,GDDR7還可以顯著降低能耗,基本是GDDR6的一半左右。
對媒體能力方面,Blackwell終于將DisplayPort的支持從1.4a版本提升到了最新的2.1,并且支持最高的UHBR20模式,單通道帶寬就有20Gbps,最多可以四個通道并行,總帶寬高達80Gbps,相當于1.a的幾乎10倍。
藉此,Blackwell系列可以支持高達8K 165Hz規格的顯示器。
NVDEC解碼引擎升級到第九代,NVENC編碼引擎升級到第六代。
AV1格式升級支持到UHQ超高質量模式,HEVC(H.265)格式升級支持到MV-HEVC(多視圖), H.264解碼能力翻倍,色度格式則從4:2:0升級到4:2:2。
【RTX神經網絡渲染:實時光追新境界】
二三十年來,GPU渲染技術一直在創新突破,從2001年NVIDIA推出可編程著色器之后,著色器、編程語言不斷演進,尤其是2018年實時光追的加入堪稱一次革命性的飛躍。
如今,Blackwell首次引入神經網絡著色器,將更多AI的力量融入其中,又為開發者帶來了全新的編程方式。
這其中又分為多種細分技術,適用于不同對象的開發,包括神經網絡紋理壓縮(Neural Texture)、神經網絡材質(Neural Material)、神經網絡體積(Neural Volume)、神經網絡輻射場(Radiance Filed/利用深度學習從部分二維圖像集中重建復雜三維場景)、神經網絡輻射緩存(Radiance Cache/NRC),等等。
這就是RTX神經網絡著色器的工作流程示意圖,涉及到神經網絡處理游戲數據、神經網絡著色器、Tensor Core、Slang著色器編程語言、端側訓練等諸多環節,形成一個不斷增強的閉環。
其中,Cooperative Vector(協作矢量)是一個全新的API,可以讓開發者很方便地在DirectX游戲與應用中無縫集成神經網絡圖形技術,加速訪問AI加速器硬件。
這項技術已經得到微軟的大力支持,未來將會成為DirectX的一部分,能讓開發者充分挖掘RTX Tensor Core的潛力,從而在Windows系統上通過神經網絡著色器加速游戲開發。
RTX神經網絡紋理、RTX神經網絡材質可以簡單地理解為更高效、高質量的AI紋理與材質壓縮。
它能分層保留更多的材質細節,處理速度可提升5倍之多,而且顯存占用空間更小,甚至只需原來的1/7,大大降低硬件負擔。
當然,它也可以在同樣的顯存空間內壓縮保存更多材質,從而大大豐富畫面細節,比如金屬表面的銹跡、寶石表面的紋理,都能結合光線照射,更精致地呈現出來。
這種效果在以往需要漫長的渲染,只能在影視里展現,而現在可以做到實時呈現,從而放在游戲中。
RTX神經網絡輻射緩存(NRC)利用實時游戲數據訓練的神經網絡,更準確高效地估算游戲場景中的間接光照。
它只需追蹤有線的光線數量,結合實施自我訓練網絡,利用AI的力量,去預測、推算出大量的后續光線反射、彈跳,更準確地渲染場景的間接光照效果。
這不僅大大提升了路徑光追的質量,也減少了需要追蹤的光線數量,從而同時提升畫面質量與運行幀數。
NRC關閉、開啟效果對比:尤其注意地磚的陰影效果,而幀率是差不多甚至可以更高的。
基于神經網絡著色器渲染技術,NVIDIA已經開發出了多個應用實例,包括用于皮膚的RTX Skin、用于臉部的RTX Neural Face、用于毛發的RTX Hair。
我們知道,人類皮膚其實是半透明的,傳統渲染只能處理皮膚表面的紋理材質、光照效果,RTX Skin則使用了次表面散射(Subsurface Scattering/SSS)的方式,模擬光線穿透半透明材料的效果,就像“穿透”皮膚表層,從而獲得更真實的柔和、自然感。
人臉渲染一直是巨大的難題,很細微的偏差也很容易被看出來,稍有不慎就會引發“恐怖谷效應”,讓人感到極為不適。
RTX Neural Face基于在超級計算機上提前學習和訓練的成千上萬張人臉數據集,只需要簡單的光柵化渲染人臉、3D姿態數據,就可以通過生成式AI模型,實時推斷、渲染出更自然的人臉,效果,包括不同的角度、光照、情感、表情、遮擋等等。
毛發的自然處理同樣是老大難問題,往往涉及到海量的數據與計算。
傳統渲染使用大量三角形來獲得更自然的毛發效果,一般每根毛發需要30個三角形,整個人類發型就得大約400萬個三角形。
如果使用光追的包圍盒層次加速結構(BVH),計算量就會異常龐大,只能降低精度或者減少毛發數量。
Blackwell的線性掃描球體(LSS)技術,將三角形替換為球體,可以更精準地呈現毛發形狀,使得實時的毛發光追成為可能,還能減少顯存占用。
虛幻引擎5提出了一套名為Nanite的幾何系統,通過上億的海量三角形構建復雜的光追場景,但需要極高的硬件性能,比如《黑神話:悟空》對于顯卡的苛刻要求大家有目共睹。
為解決這一挑戰,NVIDIA提出了更高效的海量三角形幾何渲染方法“RTX Mega Geometry”。
它可以快速、智能地生成、處理、渲染100倍于傳統方法的光追三角形集群,并結合Ada架構上引入的OMM處理材質的透明度,同步提升光追性能和圖像質量,從而在復雜場景中獲得逼近現實的真實光照效果。
RTX Mega Geometry將會很快加入NvRTX的虛幻引擎分支,幫助虛幻引擎Nanite更高效地完成光追場景渲染。
左為傳統光追渲染,右為Mega Geometry渲染:尤其注意欄桿投影,傳統渲染有明顯缺失
統渲染的三角形數量
Mega Geometry渲染的三角形數量
渲染場景
實時渲染的三角形數量
同樣場景下傳統渲染的三角形數量
三角形數量已經多得“模糊一片”
【DLSS 4:性能輕松提升至8倍】
NVIDIA DLSS其實就是基于RTX Tensor Core的神經網絡渲染技術。
經過6年來的不斷演進,DLSS目前已有超過540款游戲和應用支持,2024年前20大游戲中有15款支持,超過80%的RTX顯卡玩家都會開啟,游戲總時間超過30億小時。
可以說,無論是技術創新,還是普及程度,NVIDIA DLSS都始終遠遠領先于AMD FSR、Intel XeSS。
全新的DLSS 4引入了2020年DLSS 2發布以來的最重磅升級:
DLRR光線重建、DLSR超分辨率、DLAA抗鋸齒都在傳統CNN(卷積神經網絡)模型的基礎上,引入了Transformer模型支持,這也是圖形領域的第一個實時Transformer應用場景。
Transformer正是ChatGPT、Flux、Gemini等前沿AI大模型使用的基礎架構,引入到DLSS之后參數量增加2倍,計算性能提升4倍,可以顯著增強畫質、提升穩定性、減少偽影,提供更多的細節表現。
此前,DLSS采用CNN架構,通過分析局部上下文、追蹤連續幀畫面有關區域的變化,來預測、生成新的像素和畫面,其應用潛力已經基本被挖掘殆盡
DLSS Transformer模型采用Vision Transformer,可以通過自注意力操作(Self-Attention),來評估整個畫面、多個幀畫面中每個像素的相對重要程度。
由于采用了2倍于CNN模型的參數量,更深入地理解場景,DLSS Transformer生成的像素具有更好的穩定性、更少的偽影、更豐富的運動細節、更平滑的邊緣。
最大的好消息是,DLSS Transformer并不是RTX 50系列獨享的,所有的RTX GPU都能使用。
在密集型光追的處理上,比如光線重建,Transformer模型可顯著提升畫質,尤其是在光照條件復雜的場景中。
比如《心靈殺手 2》,DLSS 4處理的鐵絲網區域更穩定,電線區域的閃爍完全消除。
再比如《地平線西之絕境》,DLSS 4下的背包紋理細節更豐富、清晰,整體清晰度也大大提高。
由于是第一次采用Transformer模型架構,DLSS 4仍有一些不足之處,比如圖像偽影仍然會偶爾出現、超性能模式優化不夠到位,但未來發展空間更大,會持續改進升級。
DLSS 4的另一大革新是多幀生成(MFG),AI可以生成更多的像素和幀。
DLSS 3首次加入了幀生成(FG),首先結合DLSR超分辨率、DLRR光線重建,渲染一個幀畫面。
然后通過AI模型和游戲數據,比如運動矢量、深度等,再借助RTX 40 GPU的光流加速器硬件,獲得一個額外的幀畫面。
換言之,每生成一個幀畫面,都需要大量的軟硬件協同,開銷非常大,效率也不夠高。
DLSS 4的多幀生成(MFG)技術引入新 模型之后,全新AI模型生成幀畫面的速度提升了40%,顯存占用降低了30%,而且只需運行一次,就能為每個傳統渲染幀額外生成多達三個幀。
再配合超分等一整套DLSS技術,可以將幀率提升至傳統渲染的最多8倍!
軟硬結合,DLSS 4可以生成16個像素中的15個(之前是7/8),同時保證出色的畫質、流暢度和延遲。
同時,RTX 50的多幀生成模型不再需要 光流加速器硬件,而是使用效率極高的AI模型代替它來加速光流場的生成,從而顯著降低額外幀生成的計算開銷。
當然,GPU 仍然需要在幾毫秒的時間里,為每一個渲染幀運行超分辨率、光線重建、多幀生成等5個AI模型,這時候第五代Tensor Core就發揮了其關鍵作用,可將AI處理性能提升最多2.5倍。
比如在《戰錘40K:暗潮》中,RTX 5090 D顯卡,4K分辨率,DLSS 4多幀生成可將性能從124FPS提高到137FPS,同時顯存占用從9GB降至8.6GB。
流暢度方面,DLSS 3 幀生成技術使用CPU Pacing技術控制幀畫面顯示。
在這種情況下,節奏差異會隨著附加幀數的增加而越發嚴重,導致每兩幀之間幀節奏不一致,進而影響流暢度,直觀表現就是卡頓。
Blackwell DLSS 4則改成了基于硬件的Flip Metering,使用顯示引擎控制幀節奏邏輯,更精確地管理顯示時間,從而平穩處理錯綜復雜的多幀生成過程。
Blackwell的顯示引擎也做了改進,像素處理能力提高一倍,從而支持更高分辨率和刷新率,滿足Flip Metering、DLSS 4的要求。
《賽博朋克2077》在不同DLSS下的性能對比:DLSS 2搭配超分辨率,可將性能提升至3倍,延遲降低大約50%;
DLSS 3.5搭配幀生成、光線重建,可再次將性能翻倍,延遲基本不變;
DLSS 4搭配多幀生成、Transformer模型,性能可達8倍之多,而延遲仍然只有一半左右。
《黑神話:悟空》現場演示DLSS 4多幀生成技術,性能輕松可達原生的8倍甚至更高!
正因為有了DLSS 4,RTX 5090或者RTX 5090 D這樣的頂級顯卡,就可以在4K分辨率下獲得幾百FPS的超高性能,完全可以匹配并發揮240Hz及以上高刷顯示器的潛力。
DLSS發展至今,已經是一整套不同技術的結合,而不同的GPU顯卡的支持程度也截然不同。
早期的RTX 20、RTX 30系列支持DLAA抗鋸齒、SR超分辨率、RR光線重建。
RTX 40系列增加了FG幀生成,RTX 50系列則又獨享MFG多幀生成。
這倒不是NVIDIA故意不讓老產品支持新技術,而是新技術依賴老產品所沒有的硬件單元,比如RTX 50系列的多幀生成,就離不開第五代Tensor Core。
目前已有75款游戲和應用確定在RTX 50系列顯卡上市首日支持DLSS 4和多幀生成技術。
第一批首發游戲包括《心靈殺手2》《賽博朋克2077》《奪寶奇兵:古老之圈》《星球大戰之絕地:幸存者》等 。
同時,后續還會有大量游戲更新支持DLSS 4技術,包括《永劫無間》《漫威爭鋒》《微軟飛行模擬2024》《黑色國度》《毀滅戰士:黑色時代》《沙丘:覺醒》《黑神話:悟空》等等。
如果游戲還沒有更新支持DLSS的最新模型和功能,NVIDIA App也會隨著RTX 50系列的上市而更新,提供專門的DLSS Override優化設置選項。
新選項位于圖形、程序設置界面中的“驅動設置”,可以為每個支持的游戲啟用不同的DLSS選項:
模型預設:游戲DLSS開啟,RTX 50/40系列用戶可以使用最新的幀生成模型,所有的RTX用戶都可以使用基于Transformer架構的DLSS超分辨率、DLSS光線重建模型。
幀生成:游戲幀生成開啟,RTX50系列用戶即可啟用多幀生成技術。
超分辨率:游戲超分辨率開啟,所有RTX系列用戶都可以使用DLAA抗鋸齒,或者超級性能模式。
隨著新模型在更多游戲中完成測試,有有越來越多的游戲加入DLSS優化設置支持列表。
【NVIDIA ACE:當游戲角色“活”過來】
幾十年發展下來,雖然游戲畫面越來越精致,游戲角色越來越像真人,但是NPC交互始終都是程序化的、固定化的,毫無樂趣可言。
2003年,NVIDIA就推出了數字人生成套件ACE,又打造了游戲助手G-Assist(來自2017年的一個愚人節創意),去年的CES 2024、臺北電腦展上我們都實地體驗了一番。
NVIDIA ACE可以利用先進的生成式AI本地小模型,在游戲、應用中生成可自然交互的虛擬數字人物,即時響應玩家的交互,包括文字、語音甚至視覺。
同時有Audio2Face(A2F)等AI模型可以生成豐富、自然的面部表情,Riva自動語音識別(ASR)可以用于多語言語音翻譯。
目前,NVIDIA正在將ACE的應用范圍,從對話型NPC,擴展至擁有自主意識的游戲角色,它能利用AI像真人玩家一樣感知、計劃和行動。
在生成式AI的加持下,ACE可以打造生動、動態的游戲世界,隊友能夠理解并支持玩家完成目標,而敵人則能靈活地應對玩家的戰術。
G-Assist可以幫助玩家回答有關生物、物品、背景知識、任務、關卡BOSS等方面的問題,而且是根據玩家不同進程的個性化交互,從而免去查找攻略或反復嘗試的麻煩。
它甚至能幫助玩家測試本機游戲的幀率、延遲、1%低幀等性能參數,并提供優化建議。
如今,NVIDIA ACE套件得到了極大增強,在多個環節都有全新技術加持。
比如在感知環節,新增了NemoAudio-4B,一種新的音頻+文本輸入和文本輸出小語言模型,能夠描述游戲環境的聲景。
比如在最終的動畫與渲染環節,基于Blackwell神經網絡渲染的RTX Face、RTX Skin、RTX Face等新技術,配合Audio2Face,可以生成更加栩栩如生的游戲人物角色。
CES 2025現場,NVIDIA有展示了多個游戲中的AI應用,包括《永劫無間手游》PC版、《絕地求生》、《動物朋克》、《傳奇5》。
其中的AI隊友、AI NPC、AI BOSS都變得栩栩如生,仿佛有了自己的自主意識,或者和你交互對話,或者和你共同打怪,或者有針對性地與你對戰。
另外,《誅仙世界》《inZOI》、《Dead Meat》、《AI People》、《異形:俠盜入侵》等游戲也將陸續加入ACE AI角色或系統。
比如《永劫無間手游》PC版,NVIDIA ACE 提供支持的AI隊友可以與玩家組隊,并肩作戰,找到所需的特定道具,交換裝備,提供解鎖技能的建議,并做出有助于取得勝利的戰斗決策。
比如《動物朋克》,首次在端側實現了游戲內的 Diffusion圖像生成,引導玩家在云海之上的漂浮廚房展開對話和互動。
玩家可與盟友討論在任務中收集到的情報,也可前往碼頭設計一艘新戰艦,幫助雷頓(Rayton)與機械帝國作戰。
再比如《傳奇5》,AI會評估真人玩家的裝備和設置,將其與過去的對戰進行比較,然后確定取得勝利的最佳行動方案。
因此,每一位玩家的BOSS對戰都是獨一無二的,即便是玩家再次擊殺已經被打敗的BOSS,結果也可能完全不同。
小結:
從硬件架構變革幅度上看,Blackwell算不上一次顛覆性的突破,但是在GPU發展史上,它注定是濃墨重彩的一筆,因為它將AI融入到了方方面面,甚至可能是圖形渲染技術演化 的一次重要轉折點。
按照傳統的GPU發展思路,我們只能暴力增加GPU規模,包括增加晶體管與計算核心數量、提升頻率與功耗,來達成更好的性能,獲得更好的畫面和幀率。
尤其是在摩爾定律越走越困難,先進制程工藝已經無法像從前那樣帶來顯著收益,半導體行業尤其是GPU行業,更需要重新思考如何更好地走下去。
如今在AI的加持下,一條新路正在越走越寬,從圖形畫面的渲染,到光線路徑的追蹤,再到游戲角色的塑造,都可以借助AI更高效地達成更好的效果。
或許你會認為這是投機取巧,這是作弊,但其實,這或許才是GPU乃至整個半導體發展的未來。
當然,現在下定論還為時過早,一切還是留給時間去檢驗吧。
目前,我們正在對RTX 5090D進行緊張的評測,將在第一時間為大家奉上,敬請期待!
- 免責聲明
- 本文所包含的觀點僅代表作者個人看法,不代表新火種的觀點。在新火種上獲取的所有信息均不應被視為投資建議。新火種對本文可能提及或鏈接的任何項目不表示認可。 交易和投資涉及高風險,讀者在采取與本文內容相關的任何行動之前,請務必進行充分的盡職調查。最終的決策應該基于您自己的獨立判斷。新火種不對因依賴本文觀點而產生的任何金錢損失負任何責任。