英特爾銳炫移動級獨立顯卡解析劍指高性能GPU領域

Posted on 2022-03-31 by GuideAH

北京時間2022年3月30日23點整，英特爾正式發佈首款全新的銳炫A系列高性能移動級獨立顯卡，也就是英特爾銳炫3顯卡傢族。自去年英特爾宣佈推出獨立顯卡的計劃以來，用戶對於這一天的到來期待已久。

數十年來，英特爾為PC用戶交付瞭一代又一代高性能CPU，為全球數十億人提供計算能力。而在獨立顯卡發佈之前，英特爾已經在集成顯卡領域打下瞭堅實基礎。尤其是隨著圖形技術大神Raja Koduri的加入，英特爾向高性能GPU領域邁進勢不可擋。

目前，首批搭載英特爾銳炫3獨立顯卡的筆記本電腦已經上市，而更加強大的銳炫5、銳炫7系列產品將於今年夏天問世。

英特爾銳炫獨立顯卡將包含通用架構和高級功能集，並且支持DX12 Ultimate以及英特爾最為先進的AI和媒體引擎。從產品定位來看，英特爾銳炫3系列主要立足於Evo輕薄筆記本電腦，為其提供增強的1080P遊戲性能和出色的內容創作性能。而銳炫5和銳炫7在提供領先內容創作功能之外，還會提供更高的圖形計算能力，以應對高性能遊戲需求。

那麼全新的英特爾銳炫3系列顯卡有哪些特性呢？

靈活可拓展的XeHPG微架構

首先，英特爾銳炫A系列產品全部基於Xe HPG架構打造，它包含瞭強大的AI引擎和增強的媒體引擎。除此之外，英特爾還為其打造瞭下一代Xe顯示引擎和新的圖形管線，用來處理各種不同顯示任務。

要想系統性的瞭解銳炫顯卡特性，我們首先從渲染切片（Rendering Slice）開始談起。渲染切片是英特爾可重用IP的基本構建塊，在XeHPG微架構裡，每4個Xe內核組成一個渲染切片。每一個Xe內核中都配備瞭數量可觀的運算單元，如矢量引擎XVE，矩陣引擎XMX。此外XeHPG也集成瞭其它主流圖形技術，如網格著色，采樣器反饋等，同時也能在渲染切片中找到其相應的硬件支持。

XeHPG架構最大特點就是擁有出色的靈活性。因此，英特爾可以通過疊加渲染切片來構建不同的SoC，目前最少為2個，最大可以做到8個。這樣的結構最主要的特點就是可擴展性很強，根據渲染切片數量不同，產品線變得更加豐富，為用戶提供更多選擇。與此前的Xe LP微架構相比，XeHPG每瓦性能提升瞭1.5倍。同時，渲染切片支持DX12 Ultimate，其中包括對所有圖形固定功能塊的改進，並且還有支持微軟DXR和Vulkan RT的專用硬件光追單元。每個切片還配備瞭4個硬件光追加速器，用來支持實時光線追蹤技術，能夠顯著提升3A大作的遊戲畫面表現和光影效果。

XeHPG的核心，是Xe-Core，即可Xe內核，它是XeHPG微架構的組成模塊，取代瞭此前集成顯卡中EU（執行單元）的概念。因此XeHPG架構中最基礎的執行單元是Xe-Core。它包括16個256位寬的SIMD矢量引擎，為傳統圖形著色器執行大部分運算。矢量引擎主要負責傳統圖像處理的計算任務。而由於AI算法核心幾乎完全圍繞著一系列大型矩陣乘法和累加算法，英特爾在每個Xe內核中構建瞭專用矩陣引擎來進行硬件加速。Xe內核包含16個矩陣引擎，每個引擎都是1024位寬。矩陣引擎專為加速AI運算而生。同時為瞭滿足矩陣、矢量和光線追蹤單元的高帶寬需求，英特爾在每個Xe內核中構建瞭一個192KB的大型本地內存。它可以根據每個工作負載的需要在L1緩存和共享本地內存(SLM) 之間動態分配。

談到矢量引擎，英特爾為瞭給浮點運算（FP）提供專用執行端口，對ALU（算術邏輯單元）進行瞭改進。FP指令現在可以與整數運算(INT)指令同時運行，其中包括DP4a的快速INT8計算。同時英特爾還強化瞭AI能力，增加瞭新的XMX矩陣引擎用於高吞吐量矩陣乘法，涵蓋最常見的AI數據類型，包括BF16和INT8。

那麼矩陣引擎的優勢在哪？其規模到底如何呢？

首先，MAC是圖形中使用的基本SIMD矢量指令，是銳炫顯卡矢量引擎的核心。它執行8次並行運算乘法，然後執行8次並行加法（每個時鐘總共16個Ops）。DP4a是針對那些不需32位精度的AI計算所做的優化。它的工作原理是將所有32位輸入分成8位塊，然後獨立的乘以這些塊，執行總共32次並行乘法（參考下圖中紫色方塊顯示）。接下來是32次累加或每個周期總共64次操作，這比標準SIMD MAC提高瞭4倍性能。矩陣引擎通過將乘法累加4深度流水線化，將其提升到一個新的水平。與DP4a一樣，每個操作數都被分成4個塊，這些塊被獨立的相乘和累加——每個階段64個操作（由紫色圖塊顯示）。通過4個階段，每個時鐘產生256次操作——比傳統32位SIMD MAC增加瞭16倍性能。

為瞭有效提高執行性能和算力，英特爾Xe HPG架構可以同時調度和執行浮點FP、整數INT和 XMX指令，並以鎖步形式並行兩個引擎和共享資源。

其實，矩陣引擎的一個主要應用是在實時渲染過程中調用AI。英特爾使用這種技術的第一個算法稱為XeSS，也就是英特爾自傢的超級采樣技術。與傳統高分辨率渲染相比，XeSS可在遊戲中提供更高的性能。它使用神經網絡輔助運動矢量，從低分辨率渲染中生成精美的高分辨率圖像。

目前，第一時間支持XeSS的遊戲總計有14款，未來數月還會有更多遊戲實現對XeSS的支持。此外，英特爾與遊戲開發者良好的關系，也將幫助其更加快速的拓展XeSS支持。

強大的Xe媒體引擎首個支持AV1編解碼的GPU

除瞭強大的AI引擎之外，英特爾銳炫顯卡還提供瞭強大的媒體引擎，即Xe媒體引擎，進而構建瞭領先的媒體加速器。

銳炫顯卡所搭載的媒體引擎內置瞭非常廣泛的編解碼器，包括H.265/HEVC、H.264/MPEG-4/AVC、VP9等，同時還是首個支持AV1硬件編解碼加速的GPU，這也使其在內容創作領域的應用倍受期待。

這裡我們重點說說AV1。

從效率比來講，AV1比最為常見的H.264編解碼器高出50%，比HEVC高出20%，因此能夠以更低帶寬和更小文件提供更高質量的畫面。而且AV1是完全開放沒有任何授權費用的編解碼器。雖然目前還沒有被廣泛采用，但行業內用戶對其前景非常認可。

和以往各類常用的編解碼器相比，AV1提供瞭更好的壓縮比和視覺效果。銳炫圖形中的AV1編碼硬件加速與傳統軟件實現相比，編碼速度提高瞭50倍。目前，包括FFMPEG、Handbrake、Adobe和XSplit都已集成瞭對銳炫AV1的支持。

擴展性方面，Xe顯示引擎支持HDMI 2.0b和DP1.4a，遊戲玩傢可享受1080p@360Hz畫面，或4臺4K@120Hz HDR顯示器拓展，雖然沒有支持到HDMI 2.1，但整體拓展性已經能夠覆蓋當下主流用戶的需求。

此外，英特爾銳炫顯卡支持Adaptive Sync技術，可提供流暢、無撕裂的遊戲畫面。而在此基礎之上，英特爾還打造瞭全新的Speed Sync技術，它可以適用於任何顯示器並解決不同問題。

時下，不少遊戲玩傢會通過V-Sync以避免在高渲染率下玩電子競技遊戲時的畫面撕裂。但由於顯示器與遊戲畫面刷新率不同步，會導致延遲大幅增加。Speed Sync通過關閉V-Sync來改善這一點，通過始終顯示最後一個渲染幀的整體，避免類似情況發生。

此外，Smooth Sync也是伴隨英特爾銳炫顯卡的一項新技術。該技術通過運用模糊化兩個撕裂幀之間的邊界來減少視覺失真。

兩種尺寸規格滿足不同筆記本電腦需求

英特爾銳炫3顯卡現階段主要載體是Evo認證輕薄本，不過考慮到後續拓展需求，英特爾設計瞭兩種不同尺寸的芯片。面積較大的芯片代號為ACM-G10，它包含32個Xe內核和光追單元，擁有16MB L2緩存，256bit GDDR6接口，16路PCIe 4.0接口。面積較小的芯片代號為ACM-G11，包含8個Xe內核和光追單元，4MB L2緩存，96bit顯存接口，8路PCIe 4.0。兩種芯片設計均包含兩個Xe多功能編解碼引擎，和4路顯示輸出引擎。

GPU頻率是非常重要的參數，直接影響最終性能表現。頻率提高相應就會要求更高的工作電壓，會帶來更大功耗。英特爾銳炫顯卡支持實時監控性能指標，如功耗、溫度和占用率，並且通過動態調節時鐘頻率來與之適配。

通常來說在筆記本設計中，功耗限制會壓低頻率。如果顯卡隻是間歇性被占用，由於每時鐘內功耗密度較低，時鐘頻率一般就會趨於上升。反之當顯卡負載較重，比如玩遊戲的時候，或者圖像視頻處理等場景下，時鐘頻率會相應降低，讓整體功耗保持在設計范圍內。

因此，英特爾銳炫顯卡在運行不同負載時，或者同一負載的不同階段時，其頻率、其占用率等指標是不一樣的，從而時鐘頻率會在一個范圍內動態調整，而且這個范圍的分佈也是有規律的，在分佈內，一些接近中部的頻率出現的概率會高一些。

考慮到這些情況，英特爾制定獨立顯卡參數時，首先標定瞭一個有代表性的負載，之後在這個負載運行的時候，全程測量並統計時鐘頻率的分佈，最終在整個負載完成後，把平均時鐘頻率作為參數配置中的定義。當然，對於不同的平臺，有著不同的TDP，即基於散熱的設計功耗。如圖中所描述的，更寬松的TDP限制下，時鐘頻率的分佈范圍也會整體提升。

Deep Link激發銳炫顯卡性能表現

英特爾銳炫獨顯性能一部分來自於出色的底層架構設計，以及先進的AI、媒體引擎加持。而另一部分則是不得不說的基於整個系統的Deep Link技術。

英特爾Deep Link簡單來說就是多種技術的總稱，目前包含動態功率共享，超級編碼和超級算力三大主要技術。

電腦在實際應用過程當中，CPU和GPU並不都是同時處於高負載狀態運行，因此借助動態功率共享技術，就可以在系統功耗的限制范圍內，盡可能最大化釋放CPU和GPU性能。簡單來說，當CPU更加需要功率去處理負載任務時，系統會自動把更多功率分配給CPU，反之對GPU也一樣，這樣就解決瞭功率浪費問題。

動態功率共享技術

動態功率共享運行原理是通過循環采集各種系統信息，包括但不限於CPU和GPU的溫度，占用率，各自的功耗等等，其中最核心的參數還是利用率。當系統發現GPU負載過高，比如玩遊戲的時候，系統會動態調整GPU和CPU的功率配比，將更多功率分配給GPU。反之則將更多功率分配給CPU。

此外，顯卡使用率其實是有一段最優區間，此時需要讓GPU既“不吃太飽也別餓著”，因此當顯卡占用率超過這一區間，就會提升顯卡功率配比。當顯卡占用率低於這一區間，則提升CPU功率配比。而當顯卡占用率非常低時，就會把功率盡可能都分配給CPU。現階段，所有搭載英特爾12代酷睿和銳炫顯卡的筆記本電腦都能夠啟用這項技術。

超級編碼技術

Deep Link裡的第二項重要技術就是超級編碼技術，如其名，該技術的存在就是為瞭大大提升編解碼效率。而超級編碼技術可以同時調用銳炫獨顯和銳炬核顯的硬件編解碼能力，可以看做是“顯卡交火”。

這種協作是通過OneVPL的API接口來實現的。OneVPL是一個跨平臺的開放性框架，應用程序通過接口可以識別並調用平臺上多個多媒體引擎，充分利用視頻處理能力。當超級編碼開始工作時，一組組解碼後的原始幀通過特定的API函數被交給oneVPL，進而按組被分配到不同的多媒體引擎上，拷貝到相應的內存中緩存起來。不論每一組有多少幀，相應的集顯或者獨顯的多媒體引擎會開始按照設定的格式編碼。而OneVPL會完成後續的打包工作，把編碼後的幀一組組拼接成最終視頻來輸出。這種並行處理，編碼效率比單一顯卡更加顯著。

超級算力技術

隨著內容創作個人化趨勢加劇，算力需求也逐步提高。而GPU本身就是內容創作相關應用最高效的硬件之一，因此，超級算力技術某種程度上來說就是為內容創作而生。不過，英特爾並未忽視CPU在內容創作應用中的計算力，因此超級算力技術主要是通過把負載合理的分配給不同計算引擎，從而實現更加高效的內容創作過程。

為此英特爾設計瞭MLS，即基於機器學習的服務。

MLS是Open Vino中的一個框架，它能夠智能地把負載分配給不同算力模塊。根據當前應用或負載特征，例如延遲敏感度，吞吐量，性能要求，功率消耗等等。這些因素幫助MLS做出決策，把負載分配給獨立顯卡，集成顯卡，或者CPU。

以視頻處理為例我們來看看MLS的工作原理。比如在對視頻進行去噪點，超分，銳化等處理時，導入畫面會逐幀傳遞給MLS框架，每一幀還會拆成若幹塊，這些塊排在工作隊列裡，MLS啟動一個個工作線程，把這些塊根據需求自動分配到不同的算力模塊中。

如下圖所示，MLS將一部分工作線程分配到集顯的計算引擎，一部分分配到獨顯的矩陣引擎。隨著顯卡完成當前任務，MLS會不斷派發新的任務。直到最後完成所有塊的處理，打包這些增強後的畫面作為最終輸出結果。

其實簡單來講，超級算力的實現就是靠CPU、集成GPU、獨立GPU協同工作來、並行計算實現算力和效率的增強。

銳炫3為輕薄本賦予更強的遊戲性能

接下來回歸到具體產品。英特爾今天正式發佈的銳炫3傢族，是移動級獨立顯卡，主要覆蓋輕薄型筆記本，後續的銳炫5、銳炫7會覆蓋到遊戲本。

銳炫3傢族首發型號為A350M和A370M兩款。其中，A350M包含6個Xe內核，6個光追單元，頻率1150MHz，擁有4GB GDDR6顯存，64bit位寬，功率為25-35W；A370M包含8個Xe內核和8個光追單元，頻率1550MHz，同樣擁有4GB GDDR6顯存，64bit位寬，功率為35-50W。

功能特性方面前面我們也介紹瞭，銳炫3系列顯卡均支持DirectX12 Ultimate，並且支持光線追蹤，可變速率著色，網格著色和采樣器反饋。此外，英特爾也放出瞭一些遊戲實測數據，可以看到A370M獨顯與英特爾銳炬Xe核顯相比，在遊戲的中或高畫質下，畫面幀數差異還是相當大的，A370M整體表現還是相當不錯的。

其實對於輕薄型筆記本而言，能夠在遊戲方面有這樣的表現已經相當不錯。

不過從目前A系列顯卡應用適配情況來看，其特性更加契合內容創作需求。在視頻編解碼方面，以Davinci為例，4K H.264轉H.265的性能相比銳炬Xe核顯提升多達60%。

隨著銳炫3獨顯發佈，英特爾還帶來瞭全新的銳炫控制面板，即Intel ARC Control。它提供瞭一站式與銳炫顯卡相關的設定或者信息接收，包括可以讓用戶快速升級驅動，及時看到顯卡性能的工作負載、虛擬攝像頭設定、自動生成遊戲高光時刻、提供便捷的直播、串流相關的功能和設置，用戶可以快速的開啟直播功能將遊戲精彩的畫面分享到直播平臺上。

ARC Control控制面板也將提供便捷的安裝和自動更新服務，每當有新遊戲上架或遊戲發佈新驅動時，用戶會自動收到通知，如果用戶不想要被這些信息打擾，也可以根據自己的需求靈活調整。

此外，ARC Control控制面板還會提供性能檢測功能，並以具體的參數和可視化圖標提供給用戶參考。

目前，ARC Control控制面板已經開放下載，而且即便不是銳炫顯卡，它也支持英特爾銳炬核顯。另外最為重要的是，它真的不需要登錄使用。

結語

銳炫3系列獨立顯卡是英特爾重歸高性能GPU領域交出的第一張答卷，我們非常期待拿到實際產品後的測試結果究竟如何。不過無論怎樣，在NVIDIA和AMD兩強相爭多年的格局下，英特爾重回GPU市場，無疑會在未來幾年內對市場格局帶來巨大沖擊。而且憑借英特爾的技術力，相信在不久之後，英特爾顯卡將爆發出更加強勁的實力。

本篇文章就到這裡瞭，希望能夠給你帶來幫助，也希望您能夠多多關註GuideAH的更多內容!