RTX 2080Ti2080顯示卡遊民首測:4K平均60幀
本文作者:Kalama
記得上一代GeForce 10的Pascal架構首發,也就是GTX 1080顯示卡釋出,還是2016年的五月份,NVIDIA的遊戲顯示卡換代從來沒有哪次像這樣讓人等得望眼欲穿。一代顯示卡的正式服役週期通常是一年半,早在一年前坊間就不斷爆出新顯示卡釋出的時間,結果都是“狼來了”。於是各種猜測甚囂塵上:“老黃在憋大招”,“A卡不給力”,現在這些都不重要了,在全世界的玩家苦等了一年之後,狼真的來了。
8月21日的科龍游戲展上,NVIDIA正式曝光了新一代遊戲顯示卡的旗艦與準旗艦型號,真相讓所有人都瞠目結舌,因為之前關於新顯示卡的一切猜測幾乎都是錯的,連型號名稱也是如此。
現在我們已經知道了,新旗艦叫做GeForce RTX 2080Ti,次旗艦為GeForce RTX 2080,而不是之前確信的GTX 1180,架構也不是之前認為板上釘釘的Volta,而是Turing。NVIDIA不但將系列名稱直接升到GeForce 20,連自上古時代一直傳承下來的遊戲專屬字首GTX也捨棄了,取而代之的叫RTX。不過,筆者相信當你仔細瞭解完這款全新的架構之後,就絲毫不再感到驚奇了,因為與架構本身相比,這點兒名稱上的變化實在是微不足道。
各家非公版GeForce RTX 2080Ti與2080顯示卡
首先來說一下RTX的由來,R和T分別是光線追蹤Ray Tracing的兩個首字母,而X沒猜錯的話應該是代表Express。組合起來就是“高速光線追蹤”意思,喻意從這一代開始NVIDIA顯示卡最重要的架構、功能革新。
由於Turing架構所涉及的新技術較多,這方面的描述對於圖形計算基礎知識薄弱的玩家閱讀起來會十分晦澀,所以筆者將盡可能地深入淺出,挑選對玩家日後遊戲體驗影響重大的變革加以詳細描述。 覺得這部分枯燥的玩家可直接跳轉到第N頁遊戲測試部分。
現在,讓我們開始這次Turing之旅吧。
圖靈的來龍去脈
Turing架構其實並不是完全陌生的,去年NVIDIA釋出了TITAN V時就預示了它的存在,只是這次NVIDIA換了一種方式來構建遊戲產品線。
按照以往習慣,幾乎每一代旗艦遊戲顯示卡都脫胎於該架構的首款TITAN,所以當去年Volta架構的TITAN V如約而至時,我們每個人都認為已經看到了未來的下一代80Ti遊戲旗艦的長相。
TITAN V相比之前的TITAN顯示卡是更加脫離遊戲的存在
實際上TITAN V與初代基於Kepler的GeForce GTX TITAN已經相去甚遠,初代TITAN的定位是一款萬能顯示卡,既可作為遊戲發燒友的旗艦遊戲顯示卡,也為專業消費者提供全雙精度浮點(FP64)計算能力。在TITAN V誕生之前,TITAN產品線幾乎都是基於這種設計方法,一顆巨大的GPU核心是NVIDIA“高大全”設計思路的最好代表。
而在Titan V上,NVIDIA再次擴充套件了大核心的上限。Volta最引人注目的則是其全新的專用處理模組——Tensor Core(張量計算核心),它與Volta的其他微架構改進,以及支援深度學習和HPC(高效能計算)的軟體/框架整合在一起,形成有史以來最大的815mm²核心,使得該系列產品比任何時候都更接近工作站級。
第一巨核+HBM2視訊記憶體意味著GV100註定與消費級無緣了
TITAN V核心GV100架構
簡單算一算就知道,TITAN V的GV100核心擁有5120個流處理器,與TITAN XP的GP102核心(3840個)相比增加了三分之一,但核心面積卻增加了73%,再上工藝提升到了TSMC的16nmFFET提升到了12nmFFN,增加的電晶體比例更大。可見在GV100上增加了許多流處理器之外的新功能單元,還有一部分計算功能被分配給了專用單元以提高效率。
但是追求高大全也是有代價的,較低的良率和高昂的成本,使在GV100上發展遊戲消費級顯示卡會得不償失,AMD的Fury就是一個典型的反例,所以今天RTX 2080Ti採用的Turing架構是由GV100為藍本發展而來的消費級專屬型號。
TU102晶片透檢視,核心面積754mm²,整合186億電晶體
與針對超算市場的GV100不同,RTX 2080Ti的Turing—TU102核心面積縮減到了754mm²,電晶體為186億,改用封裝容易的GDDR6視訊記憶體,並具有一些新的屬性。比如首當其衝的光線追蹤—Ray Tracing算力,使它更適合用於運行遊戲,計算卡與遊戲卡或許從此走向兩個分支。筆者將在下文中詳細介紹關於Turing架構的重要技術升級。
新顯示卡的核心規格
首先來看這次新發布的兩款顯示卡規格,我們已經知道了作為旗艦的RTX 2080Ti採用TU-102核心,就像上一代遊戲旗艦採用GP102一樣,準旗艦RTX 2080則使用規模小一圈的TU-104核心,它們都由TSMC的12nmFFN工藝製造。
GeForce RTX 2080Ti成為NVIDIA遊戲顯示卡家族的新臺柱
TU102也由6個GPC構成,相比GV100每個GPC少了一組TPC,一共有36組TPC,72組SM,流處理器總數為4608個,ROPs總數為96個,紋理單元288個。以上都是傳統的引數專案,不過Turing架構還加入了可以半精度計算與深度學習的張量計算核心Tensor Core以及專用於光線追蹤的RT Core,此後顯示卡的主要核心功能單元專案又多了兩個。其中Tensor Core為每個SM含8個,共576個,而RT core則每個SM含一個,與SM數量一致。
此外TU-102每個SM還有2個雙精度單元,共144個(有觀點稱雙精度計算也是由CUDA完成,只是暫存器的使用邏輯不同)。雙精度算力為單精度的1/32,但這無關緊要,除了科學計算以外,無論是遊戲用的GeForce RTX 2080Ti還是專業繪圖用的Quadro RTX 6000/8000,都對此項效能沒有要求。
TU102核心架構
說道Quadro,這裡就必須強調一點,目前只有Quadro RTX 6000/8000才搭載了完整的TU-102核心,GeForce RTX2080Ti就像它的上代一樣,進行了一定的削減,共減少了4個SM,流處理器總數為4352個,SM中包含或對應的其它單元也相應減少,視訊記憶體位寬由384bit削減至352bit。讓人有一點點失落,卻也無可厚非,畢竟消費級顯示卡是要控制成本和保證產量的,這或許預示著不久的將來NVIDIA有可能推出比RTX 2080Ti更高階的旗艦?
作為準旗艦的RTX 2080使用TU104核心,延續了之前幾代80顯示卡的慣例
與TU-102一起釋出的是TU-104核心,對應顯示卡為RTX 2080。前者擁有TU-102中所有新特性,包括RT Core、Tensor Core,以及對SM所做的架構改變。
TU104核心架構
完整的TU-104同樣有6個GPC,每個GPC包含4個TPC,全核一共有48個SM,3072個流處理器。Tensor Core與RT Core的配比都沒變,很容易推算出分別為384個和48個。
這裡要潑大家一盆冷水了,RTX 2080沒有像GTX 1080那樣擁有一顆完整的“104”準旗艦核心,也是削減了2組SM,流處理器數量為2944個,視訊記憶體位寬依然是256bit,完整的TU-104只用在Quadro RTX 5000專業卡上。考慮到TU-104的核心面積也達到了545mm²,不排除是為了加強成品率,但不管怎麼說,104這個檔位上得不到完整核心在心理上還需要時間去適應。
全新的流處理器簇單元(SM)
Turing架構採用了新的SM設計,該設計結合了早在去年Volta架構中就引入的許多特性。每個TPC包含兩個SM,每個SM總共有64個FP32核心和64個INT32核心。相比之下,帕斯卡架構中每個TPC只有一個SM,每個SM 128個FP32核心,TPC的概念被架空了。TuringSM支援FP32和INT32操作的並行執行,獨立執行緒排程類似於Volta GV100 GPU。
SM被劃分為四個處理塊,每個處理塊具有16個FP32核、16個INT32核、兩個張量核、一個排程器和一個排程單元。每個塊包括一個新的L0指令快取和一個64KB暫存器檔案。四個處理塊共享組合的96KB L1資料快取記憶體/共享儲存器。傳統的圖形工作負載將96KB L1共享快取劃分為64KB的專用圖形著色器快取以及32KB的紋理快取和暫存器溢位區域。計算工作負載可以將96KB分成32KB共享快取+64KB L1快取,或者64KB共享快取+32KB L1快取。
Turing實現了核心執行資料通道的主要更新。現代著色器工作負載通常具有諸如FADD或FMAD之類的FP算術指令與諸如用於定址和獲取資料的整數加法、用於處理結果的浮點比較或min/max等更簡單的指令的混合。每當這些非FP數學指令中的一個執行時,ATAPACH就會閒置。Turing在每個CUDA核旁邊新增第二個並行執行單元,該CUDA核與浮點數學並行執行這些指令。
對許多工作負載的分析顯示,每100個浮點運算平均有36個整數運算。
上圖為整數管道與浮點指令的混合變化,但是一些現代應用程式中,通常會看到每100個浮點指令大約有36個額外的整數管道指令。將這些指令移到一個單獨的管道上,就可以實現浮點的有效36%的額外吞吐量。
Turing SM中浮點和整數指令的平行計算
Turing的SM還引入了一種新的統一架構,用於共享記憶體、L1和紋理快取。這種統一的設計允許L1快取記憶體充分利用資源。與Pascal相比,每TPC增加2倍的命中頻寬,並且允許在共享記憶體分配沒有使用所有共享記憶體容量時重新配置L1快取記憶體以增大命中頻寬。Turing L1的大小可以高達64KB,與每個SM共享記憶體分配的32KB相結合,或者它可以減少到32KB,允許將64KB的分配用於共享記憶體,Turing的L2快取容量也有所增加。
新的共享快取架構
Turing SM新的L1資料快取和共享記憶體子系統可顯著提高效能,同時簡化程式設計並減少達到或接近峰值應用程式效能所需的調優。將L1資料快取與共享記憶體結合可以減少延遲,並提供比先前在Pascal 中使用的L1快取實現更高的頻寬。
根據官方資料,Turing架構SM設計的改變使得每個CUDA核心的綜合性能比之前Pascal提升了50%。
深度學習單元Tensor Cores
我們都知道Volta GV100中首次引入的張量核心Tensor Core,Turing架構中的張量核心是前者的增強版本。它設計增加了INT8和INT4精確模式來測算可接受的工作負載,FP16也完全支援這種工作負載的精確測算。
在基於Turing的GeForce遊戲核心中引入張量核心首次將實時深度學習引入遊戲應用程式。Turing張量核心加速了NVIDIA NGX神經服務的基於AI的特性,增強了圖形、渲染和其他型別的客戶端應用程式的效率。NGX AI特性的示例包括深度學習超級取樣(DLSS)、AI繪畫、AI Super Rez和AI Slow-Mo。
Turing張量核加速了神經網路訓練和推理函式的核心矩陣乘法。Turing張量核特別擅長於推理計算,其中有用的相關資訊可以透過基於給定輸入的訓練有素的深層神經網路(DNN)來推斷和傳遞。推理的例子包括識別Facebook照片中朋友的影象,識別和分類自駕車中不同型別的汽車、行人和道路危險,實時翻譯人類語言,以及線上零售中建立個性化的使用者建議,以及社交媒體系統。
TU102包含576個張量核心,每個張量核心可以執行多達64個浮點熔點乘加(FMA)操作,每個時鐘週期使用FP16輸入。SM中的八個張量核每個時鐘週期總共執行512次FP16相乘和相加操作,或者執行1024次總FP操作。新的INT8精度模式以雙倍的速率執行,每個時鐘週期可達到2048次整數運算。
Pascal和Turing張量核心配置之間的對比
Turing張量核為矩陣運算提供了顯著的加速,並且除了新的神經圖形函式之外,還用於深度學習訓練和推理運算。
首次應用GDDR6視訊記憶體
視訊記憶體子系統效能對應用加速至關重要。Turing改進主視訊記憶體、快取和壓縮架構,以增加視訊記憶體頻寬並減少訪問延遲。改進和增強的GPU計算特性有助於加速遊戲和許多計算密集型應用程式和演算法。新的顯示和影片編碼/解碼特性支援更高解析度和能夠HDR的顯示器、更先進的VR顯示器、在資料中心中增加影片流需求、8K影片製作和其他影片相關應用。
GDDR6記憶體子系統
隨著顯示解析度的不斷增加,著色器功能和渲染技術變得更加複雜,視訊記憶體頻寬和容量大小在GPU效能中起到了更大的作用。為了保持儘可能高的幀速率和計算速度,GPU不僅需要更多的記憶體頻寬,還需要大容量的記憶體來維持連續計算效能。
NVIDIA與儲存產業緊密合作,兩年前開發出世界上第一個GDDR5X視訊記憶體的GPU:GP-104,緊接著又第一個開發出使用HBM2視訊記憶體的GV-100。現在Turing再次成為首個使用GDDR6顯示卡的架構。
GDDR6是高頻寬視訊記憶體設計的最新成果。透過許多高速SerDes和RF技術的增強,Turing中的GDDR6視訊記憶體介面電路已經完全重新設計,以實現速度、功率效率和噪聲降低。這種新的介面設計帶來了許多新的電路和訊號訓練改進,最大限度地減少由於工藝、溫度和電源電壓引起的噪聲和變化。使用廣泛的時鐘門控來最小化低利用率期間的功耗,從而顯著地提高了整體功率效率。Turing的GDDR6記憶體子系統目前可實現14Gbps的速率,相對使用GDDR5X視訊記憶體的Pascal架構還有20%的功耗改善。
實現這種速度增長需要端到端的最佳化,為了滿足更高的速度要求,NVIDIA特別設計了Turing的封裝和佈線,將訊號串擾減少40%——這是大儲存系統中最嚴重的不穩定因素之一。
GDDR6的電荷分佈圖,可以看到高速執行下溢位極少,訊號十分清晰
為了實現14Gbps的速度,儲存器子系統的每個方面也都經過精心設計,以滿足這種高頻操作所需的苛刻標準。設計中的每一個訊號都被仔細地最佳化以儘可能建立最乾淨的視訊記憶體控制器連線。
除了新的GDDR6記憶體子系統之外,Trime還添加了更大更快的L2快取。TU-102附帶6MB的L2快取記憶體,是前一代GP-102 3MB的L2快取記憶體的兩倍。TU102還擁有比GP-102更高的L2快取記憶體頻寬。
VirtualLink與NVLink
在今天的PC上使用VR裝置需要在頭盔和系統之間連線多個電線;從顯示卡向頭盔中的兩個顯示器傳送影象資料的顯示電纜;為頭盔供電的電纜;以及傳輸位置感測器資料的USB連線。電纜的數量對於終端使用者來說是很不舒服的,這會限制了他們在戴著頭盔時四處走動的能力。
為了解決這個問題,NVIDIA將其中一個視訊輸出埠設計為USB-C並得到SudialLink的硬體支援,叫做VirtualLink。VirtualLink能將VR頭盔的供電、顯示和回傳資料整合到一個USB-C連線上。
Turing 引入的 USB-C 輸出可以支援 HBR3 四通道 DP 支援或者 HBR3 雙通道 DP+ 雙通道 SuperSpeed USB3 支援。
而 VirtualLink 則跟進一步,在提供 HBR3 四通道 DP 的同時還支援 SuperSpeed USB 3 用於傳輸反饋控制訊號。
USB-C 和 VirtualLink 都能為頭盔供電,其中 USB-C 提供了 100 瓦的可選供電支援,而 VirtualLink 則是強制 5 瓦、可選 27瓦。
如果頭盔的耗電在 27 瓦內,使用一根 VirtualLink 就能滿足包括供電、顯示、控制反饋,比目前的三根線要簡單多了,而它的介面同樣是 USB-C。
目前 VirtualLink 獲得了 NVIDIA、AMD、微軟、Oculus、Valve 的支援,但是 VR 頭盔的重要廠商 HTC 並不在列。
NVLink使SLI得到升級
SLI是NVIDIA在2004年的時推出的多卡並行渲染技術,它可以讓不同的顯示卡一起渲染畫面併合並輸出,實現效能的提升。早期的 SLI 根據產品定位的不同,分為需要和不需要使用橋聯結器兩種,使用橋連線可以繞過 PCIE 匯流排實現更快的畫面合成。
但是現在 NVIDIA 已經把 SLI 定義為高階發燒級應用,像GeForce GTX 1060這樣的中端顯示卡已經不再支援 SLI,若GTX 1060非要實現多卡並行的話,需要遊戲使用顯式MGPU程式碼才能實現。
所以,像Pascal或者說GeForce 10這一代顯示卡,只有GP104、GP102提供了SLI支援,它們都擁有SLI橋埠用於多卡並聯。
GeForce 10使用的SLI橋接器叫做SLIHB,HB即高頻寬的意思,其頻寬是畫素時鐘頻率0.65GHz乘3 位元組(RGB各一個位元組),合計約1.95GB/s 頻寬。1.95GB/s(15.6Gbps)的頻寬可以滿足4K 60Hz(12.54Gbps)輸出使用,但是遇到更高解析度例如8K或者4K高重新整理率的時候就會捉襟見肘。
#FormatImgID_39##FormatImgID_40#源自Tesla的NVLink技術支援更高的傳輸頻寬,用於高解析度下的高重新整理率
TU-102和TU-104使用NVLink,而不是SLI GPU的MIO和PCIE介面到GPU資料傳輸。TU-102 GPU擁有兩個x8第二代NVLink鏈路,TU104則擁有一個x8第二代NVLink鏈路。每個鏈路在兩個GPU(50 Gb/s雙向頻寬)之間提供每方向25Gb/s峰值頻寬。TU-102中的兩個鏈路在每個方向上提供50Gb/s,或者雙向100Gb/s。但凡具有NVLink的Turing GPU都支援雙路SLI,但不支援3路和4路SLI。
不過就跟Pacal一樣,Turing這一代也只有旗艦的102與準旗艦的104晶片支援NVLink,也就是說使用TU-106晶片的RTX 2070將無緣NVLink介面。關於RTX 2070的情況待到不久之後顯示卡上市時再為大家解析。
#FormatImgID_41##FormatImgID_42# 與以前的SLI橋相比,新NVLink橋的頻寬增加使得以前做不到的高階顯示器應用成為可能。
#FormatImgID_43##FormatImgID_44#隔單槽和隔雙槽的NVLink橋接器
NVIDIA原廠橋接器價格不菲,零售價70美元以上,專用於搭配公版RTX 2080Ti、2080的使用,裝上去天衣無縫,不考慮顏值的話,應該還有廉價的軟橋或硬橋可供選擇。
什麼是光線追蹤,什麼又是實時光線追蹤?
自上世紀90年代以來,傳統的3D渲染一直使用一種叫做光柵化的過程。整個過程簡單地描述就是光柵引擎根據頂點渲染生成的三角形以人眼所接收到的二維畫面來建立需要渲染的影象,接著將紋理資料按座標鋪入該影象中的三角形,得到完整的畫面資料,再由ROPs將完整的畫面資料填充到螢幕所看到的畫素。
光柵化技術多年來一直是實時渲染的常規技術,尤其是在遊戲中。雖然今天許多光柵化場景看起來已經足夠好了,可是基於光柵化的渲染侷限性依然無法避免。例如,僅使用光柵化呈現反射和陰影需要對需多不同視角進行假設和分析。常見的情況是靜態光圖可能看起來是正確的,若某些東西移動,光柵化的陰影經常出現混淆和光洩漏,亦或者畫面上任何物體的反射只能反射出螢幕上可見的物體。這些現象都有損於遊戲體驗的真實性,而且開發人員在光柵化的基礎上重新程式設計修復這些BUG的代價很高。
光柵處理示意圖
光線追蹤技術長期以來被用於非實時繪製,它透過模擬光的物理行為來提供逼真的光照。光線追蹤透過跟蹤光從觀看者的眼睛穿過虛擬3D場景時將採取的路徑來計算畫素的顏色。當它穿越場景時,光可以從一個物體反射到另一個物體(引起反射),被物體阻擋(引起陰影),或者穿過透明或半透明物體(引起折射)。所有這些相互作用被組合以產生然後在螢幕上顯示的畫素的最終顏色。
光線追蹤示意圖
這一種計算工作十分繁重的渲染技術,它真實地模擬場景及其物件的光照。能夠實時地渲染物理上正確的反射、折射、陰影和間接照明。相比傳統的光柵化渲染,光線追蹤技術創造的景象更符合人眼和大腦接受的視覺邏輯,視神經原本就是靠自然界的可見光反射來識別影象的。因為效果出眾,這項技術早就被應用在了影象渲染中,但非實時渲染,而是製作CG、電影。
NVIDIA光線追蹤演示DEMO
所以光線追蹤與實時光線追蹤是兩個概念,製作CG時我們有一整天的時間去渲染一幀畫面,但是在遊戲中一幀畫面只能耗時幾十分之一秒,否則就會影響流暢度。在過去,GPU的算力遠不足以使用單個核心對遊戲進行實時光線追蹤,使這項耳熟能詳的技術一直無法應用在遊戲中。需要30~90fps才能暢爽體驗的遊戲多年來一直依賴於快速的光柵化渲染,只能放棄電影般的逼真畫面。
星球大戰光線追蹤渲染演示,完全分不出哪個是電影哪個是DEMO
直到NVIDIA Turing架構問世,使通向遊戲渲染技術殿堂的那條路頭一次變得清晰起來。下
面讓大家再欣賞幾幅加入實時光線追蹤的遊戲視覺體驗。
《戰地5》光線追蹤關閉
《戰地5》光線追蹤開啟
《古墓麗影:暗影》光線追蹤關閉
《古墓麗影:暗影》光線追蹤開啟
圖靈如何實現光線追蹤
NVIDIA在Turing架構的每個SM中新增RT Core是邁向實時光線追蹤的關鍵,硬體加速是實現這一目標的唯一途徑。
層層篩選,判斷光線命中了哪個三角形
為了更好地理解RT核的功能,以及它們究竟加速了什麼,筆者首先解釋如何在沒有專用硬體光線追蹤引擎的情況下用GPU或CPU執行光線追蹤。基本上,BVH遍歷的過程需要透過著色器操作來執行,並且每光線投射數以千計的指令槽來針對BVH中的邊界框交點進行測試,直到最終命中三角形,並且交點處的顏色將被用於最終畫素填充。或者如果沒有三角形被擊中,背景顏色可以用來填充這個畫素,這樣就做到了模擬現實世界中人眼的視覺原理——你只能看到反射光的物體。
沒有硬體加速的光線跟蹤要求每條射線有數千個軟體指令槽來測試BVH結構中的連續較小的邊框,直到可能碰到一個三角形。這是一個海量計算的過程,使得在沒有基於硬體的光線跟蹤加速度的情況下,無法在GPU上進行實時處理,速度奇慢無比。
Turing的RT核心可以處理所有的BVH遍歷和射線-三角形相交測試,節省了SM在每條射線上花費數千個指令槽,這對於整個場景來說可能是無法承受的巨量指令。RT核心內有兩個專用單元,第一個單元進行邊框迴歸測試,第二個單元進行射線三角形相交測試。SM只需要啟動一個光線探測器,RT核進行BVH遍歷和射線三角形測試,並向SM返回命中或不命中,SM本身即可被充分釋放來做其它圖形計算工作。
因此RT核的Turing光線跟蹤效能比上一代Pascal依靠軟程式實現的快得多。Turing可以在不同的工作負載下提供比Pascal更多的千兆射線/秒,比如Pascal大約花費1。1千兆射線/秒,或者10TFLOPS/千兆射線在軟體中進行光線跟蹤,而Turing可以使用RT Cores進行10+千兆射線/秒,並且執行速度要快10倍。
儘管光線跟蹤比光柵化可以產生更逼真的影象,但它也是負荷很高的運算,目前單靠RT Core依然無法用完全的實時光線追蹤來流暢運行遊戲,最好的方法是混合渲染,用光線跟蹤和光柵化組合。使用這種方法,將光柵化用在需要效率的地方,而光線跟蹤用在比光柵化更多能增加逼真度的視覺增益區域,如反射、折射和陰影。
深度學習抗鋸齒(DLSS)
在現代遊戲中,渲染幀不直接顯示,而是經過後處理影象增強步驟,結合來自多個渲染幀的輸入,試圖去除視覺偽像,例如混疊,同時保持細節。例如,時間抗鋸齒(TAA)是一種基於著色器的演算法,該演算法使用運動向量結合兩幀來確定在何處取樣先前幀,這是當今使用的最常見的影象增強演算法之一。然而,這種影象增強處理從根本上來說是非常困難的。
諸如此類的影象分析和最佳化問題沒有沒有乾脆利落的演算法解決方案,唯有應用人工智慧。正如影象處理案例,是深度學習的最大成功應用之一。現在,深度學習已經實現了超人的能力,能夠透過觀察影象中的原始畫素來識別狗、貓、鳥等。在這種情況下,目標是結合渲染的影象,基於檢視原始畫素,以產生高質量的結果,不同的物件,但由近似的步驟完成。
為解決這一挑戰而開發的深度神經網路(DNN)被稱為深度學習超級取樣(DLSS)。DLSS從給定的一組輸入樣本中產生比TAA高得多的質量輸出,並可以利用此能力來提高總體效能。儘管TAA在最終目標解析度下進行渲染,減去細節,組合成每一幀,DLSS允許在較少的輸入樣本計數下進行更快的渲染,然後推斷出在目標解析度下與TAA相似的結果,僅需一半的著色工作。
4K DLSS的TRAIN是4K TAA Pascal的兩倍效能。
以上為虛幻4引擎的《滲透者》DEMO測試,DLSS提供了與TAA相似的影象質量,效能大大提高。RTX 2080 Ti本身的強大渲染效能,加上Tensor Core進行DLSS操作帶來的效能提升,使4K解析度下RTX 2080 Ti達到GTX 1080 Ti效能的2倍。
這個結果的關鍵在於DLSS的學習過程,DLSS有機會學習如何基於大量超高質量的取樣產生應有的畫面輸出。64x超級取樣意味不是對每個畫素進行一次著色,而是在畫素內以64個不同的偏移進行著色,然後組合輸出,產生具有理想細節和抗鋸齒質量的結果影象。接下來,DLSS還可以學習來匹配64xSS輸出幀,透過遍歷每個輸入,要求DLSS產生一個輸出,測量其輸出和64xSS目標之間的差異,並根據這些差異調整網路中的權重。在多次重複之後,DLSS自己學習以產生接近64xSS質量的結果,同時學習避免影響經典抗鋸齒(如TAA)的模糊、去遮擋和透明性的問題。
DLSS 2X與64×SS影象效果幾乎不可區分
除了以上描述的標準DLSS模式,還有第二種模式,稱為DLSS 2x。在這種情況下,DLSS輸入以最終的目標解析度呈現,然後由較大的DLSS網路組合以產生接近64x超級抗鋸齒的輸出影象,這果不可能透過任何傳統手段實現的。
DLSS 2X比TAA提供了更好的時間穩定性和影象清晰度
以上測試場景中展示了最具說服力的對比效果。遊戲中半透明的全系螢幕漂浮在不斷移動的背景前面。TAA傾向於盲目跟隨運動物件的運動向量,導致螢幕上的細節也被模糊了。DLSS則能夠識別場景中更加複雜的變化,並以更智慧的方式組合輸入,避免了模糊問題。
RTX 2080Ti/2080開發者版本解析(一)
RTX 2080Ti與2080的長什麼樣子相信大家都不陌生了,從NVIDIA官方公佈訊息開始就有若干官圖出現在各大媒體上。但官圖畢竟燈光刁鑽,後期滿滿,細節看不太清楚,下面就由筆者用三頁的篇幅獻出一套剛出爐實物圖供各位鑑賞。
由於RTX 2080Ti與2080外觀幾乎一模一樣,所以下面以展示RTX 2080Ti為主,在兩者不同的部分予以補充圖片說明。
終於不再是泰坦皮了
NVIDIA公版旗艦使用離心式散熱器幾乎有20年之久
鋁合金的背板與前蓋在邊緣匯聚為一個整體
銀色的GEFORCE RTX字樣用透光材質鏤刻而出,內藏信仰燈
以往離心式散熱器的封閉氣流通道可以直接將熱量排向出機箱外,儘可能降低顯示卡對機箱散熱的要求,提高適用範圍。如今NVIDIA終於摒棄了這個過於苛求可靠性的思路,轉而借鑑了非公版的設計思路,也用起了雙軸流扇。確實,在機箱風道得當的前提下,軸流扇的散熱效能明顯超過尺寸受限的離心扇 ,更有利於Boost超頻的機制充分發揮。
或許正是因為如此,NVIDIA這次才在一個型號上推出了RD和FE兩種公版,前者為參考設計版,Reference Design也就是指原來的公版,而後者Founders Edition則擁有更高的頻率,變成了NVIDIA的官方超頻版。看來老黃是鐵了心要跟小夥伴們搶肉吃啦。
不過RD和FE版本之間僅僅是核心Boost頻率不同,基礎頻率是一樣的。其中RTX 2080Ti的RD版為1545MHz,FE版為1635MHz,高了將近100MHz,基礎頻率都是1350MHz,視訊記憶體都是GDDR6 14Gbps。
RTX 2080Ti/2080開發者版本解析(二)
公版的NVLink介面自帶一個與背板融為一體的裝飾蓋,平時起保護金手指的作用,在組雙路SLI時可以拿下來。
不得不說NVIDIA的公版越來越精緻了
飾蓋內側為橡膠材質,可以很好地保護金手指
風扇直徑為9cm,這是保持原始高度所能用的最大尺寸了
RTX 2080Ti的外接電源為雙8pin,RD和FE版的TDP分別為250W/260W
RTX 2080外接電源為6pin+8pin,其中6pin像是用8pin堵掉了兩個針孔
這裡要說明的是,RTX 2080也分為RD和FE版,區別也只在於Boost頻率,前者為1710MHz,後者是1800MH,基礎頻率都是1515MHz,GDRR6視訊記憶體容量8GB,速率也是14Gbps。
視訊輸出埠提供三個DP1。4和一個HDMI2。0,還有一個USB-C
其中DP1。4支援8K HDR @60Hz,HDMI則支援 4K HDR @60Hz,USB-C轉為整合VR裝置而研發,前面技術解析部分有詳細介紹。
RTX 2080Ti/2080開發者版本解析(三)
到了拆解環節,這次的公版設計,背板螺絲非常小,跟米粒一樣,內層的散熱器固定還要用到六角套筒,至少需要三種工具,更重要的是原廠安裝的導熱矽膠墊極易破碎,筆者拆開基本就碎了一半,幾乎是一次性的。所以除了那些有充分的經驗、準備以及動手能力的老鳥,筆者非常不建議使用者自行拆解公版,矽膠墊的缺失會讓視訊記憶體、MOSFET散熱受阻,極有可能造成硬體損壞。
上為RTX 2080Ti,下為RTX 2080
核心規格差了許多,視訊記憶體位寬不同,兩款PCB的佈局必然不同,但它們尺寸是相同。RTX 2080Ti安裝了11顆視訊記憶體,留出一個空焊位,這根GTX 1080Ti是一樣的。RTX 2080也與GTX 1080相同,都是8顆視訊記憶體。
RTX 2080Ti的核心為TU102-300A,那麼Quadro RTX 6000很可能就是TU102-400
RTX 2080的核心為TU104-400A,那麼Quadro RTX 5000難道是TU102-450?
GDDR6視訊記憶體都來自鎂光,鎂光已成為NVIDIA御用RAM供應商了
RTX 2080Ti設計了龐大的核心供電陣列,分佈於GPU核心左右兩側
核心左側的供電模組
根據常識來判斷,RTX 2080Ti採用了6+7相核心供電,左側6相,右側7相,還有三相為視訊記憶體供電。MOSFET採用的應該是有自驅設計的DrMOS,能夠一定程度上緩解佈線的擁擠。再經過仔細觀察,似乎兩側的供電分別有各自獨立的PWM主控,可能引入了智慧電源管理設計,根據GPU的功耗來變化功率IC的工作模式,減少發熱。
影馳RTX 2080 GAMER
影馳RTX 2080 GAMER採用了全新的外觀設計,專為高階電競玩家、MOD愛好者量身打造,最大亮點是全新Turing架構TU104-400A核心、支援RTX光線追蹤、DLSS智慧抗鋸齒、非公設計方案、極光幻影燈效、軟控調燈、一鍵OC、影馳GAMER全家桶燈效同步。
影馳RTX 2080Ti大將
影馳RTX 2080Ti 大將採用了全新的包裝與內襯設計,定位主流市場,最大亮點是全新Turing架構TU102-200核心、支援RTX光線追蹤、DLSS智慧抗鋸齒以及區別於公版的三風扇設計與鏤空金屬背板。
在顯示卡外觀的設計上,影馳RTX 2080Ti大將區別於公版,採用6熱管三風扇設計,散熱效能更強,頂測設有三段式RGB呼吸燈,未來配合影馳光效軟體可與其他影馳產品達成燈效同步,搭配鏤空設計的強化金屬背板,散熱效能再度提升,並有效保護PCB。
微星RTX 2080暗黑龍爵
微星新款暗黑龍爵系列顯示卡在外觀設計方面採用銀黑配色,別緻的流暢線條和鋒利外形,充滿時尚美感。顯示卡背面裝備了表面拉絲處理的黑色強化金屬背板,銀色信仰龍標分外引人矚目,顏值爆表。
微星RTX 2080Ti GAMING TRIO魔龍
微星新款GAMING TRIO魔龍系列顯示卡採用黑色和鐵灰色混搭的時尚設計,配合流線造型和拉絲紋理金屬背板,更顯優雅大氣。同時顯示卡正面和側面都具備華麗的RGB燈效,透過微星Mystic Light軟體還能和其他RGB元件一起實現燈效同步,打造更具個性化的遊戲氛圍。
非公版同步發售:索泰RTX 2080Ti X-GAMING-OC
X-GAMING-OC是索泰顯示卡主打遊戲市場的拳頭產品,它在同型號中通常價格適中,效能處於中位。緊隨GeForce 20系列顯示卡釋出,索泰第一時間推出這款型號的RTX 2080Ti旨在造福遊戲玩家。熟悉索泰的玩家可能對至尊版印象頗深,而這款X-GAMING-OC實際上是在至尊版基礎上發展而來,用料,散熱都與至尊版十分接近。
非公版同步發售:技嘉RTX 2080Ti GAMING OC
各大NVIDIA合作伙伴都在第一時間推出遊戲向的圖靈顯示卡,技嘉也不例外。技嘉的GAMING OC是一直是顯示卡市場上最炙手可熱的型號之一,它的精髓不在於奢侈地堆料或華麗的外觀,而是看似平白無奇卻又包含底蘊的設計細節。
非公版同步發售:iGAME RTX 2080Ti Advanced OC
脫胎於七彩虹的高階子品牌iGAME依然保留著最初“玩家定製”的精神,他們一直孜孜不倦地想玩家之所想,憂玩家之所憂,切身處地的體會玩家的體驗,因而在許多其它品牌不經意間忽略的小細節上往往能一鳴驚人,出奇制勝。
非公版同步發售:耕升RTX 2080炫光
耕升現在是個低調又務實的品牌,它最近幾年設計了許多高性價比的產品,瞭解耕升歷史的人都知道這個品牌曾經的輝煌,而如今顯示卡行業列強林立,耕升確實不再像昔日那般鶴立雞群,但是他的產品卻從未掉隊。
測試平臺軟硬體配置介紹
所有該介紹的都介紹完了,終於要迎來最後的高能時刻,筆者已經抑制不住內心的激動,籠罩了一年的迷霧終於要撥雲見日,廢話少說,立刻進入上機測試環節。
除了3DMARK基準跑分之外,筆者還準備了20款具有代表性的單機遊戲大作來考驗Turing架構的效能,並分別將RTX 2080Ti和2080與GTX 1080Ti和GTX 1080對位比較。遊戲測試解析度將涵蓋1920×1080、2560×1440以及3840×2160三種解析度,遊戲畫面設定為最高,抗鋸齒開啟。
我們知道GTX 1080Ti基本徵服了2K解析度,在1080P下已明顯呈現效能過剩,那麼這次4K解析度將成為更強大的RTX 2080Ti挑戰的焦點,也是本次首測遊戲部分最大的看點。不過這裡有個遺憾,就是硬體技術通常會領先軟體釋出,儘管NVIDIA公佈了25款遊戲支援DLSS還有5、6款遊戲同時支援DLSS和光線追蹤,但實際上是“將要支援”,真到能用還有待遊戲廠商更新補丁。
最後筆者按例還會進行功耗和散熱的測試。
測試平臺特寫
測試平臺顯示卡近景
這裡需要說明的是,為了充分發揮顯示卡效能,儘可能消除系統瓶頸,筆者將測試平臺的CPU i7 8700K全核超頻至4。8GHz,Ring頻率與主頻同步。
測試平臺軟硬體配置如下:
測試電源為長城提供的金牌巨龍1250W,充沛的功率保證本次首測順利完成
RTX 2080Ti 3DMARK跑分測試
GeForce RTX 2080Ti 3DMARK Fire Strike Extreme得分15883
GeForce RTX 2080Ti 3DMARK Fire Strike Ultra得分8285
GeForce RTX 2080Ti 3DMARK Time Spy得分12471
GeForce RTX 2080Ti 3DMARK Time Spy Extreme得分5938
相比GTX 1080Ti,RTX 2080Ti的跑分提高了25%到30%左右。
RTX 2080 3DMARK跑分測試
GeForce RTX 2080Ti 3DMARK Fire Strike Extreme得分12673
GeForce RTX 2080 3DMARK Fire Strike Ultra得分6623
GeForce RTX 2080 3DMARK Time Spy得分10462
GeForce RTX 2080 3DMARK Time Spy Extreme得分4825
RTX 2080的跑分相比GTX 1080也提高了30%左右,與GTX 1080Ti的得分非常接近。看來當年GTX 1070逼平GTX 980Ti的輝煌是難以重現了,不過這次常規效能提升相對Turing的重大架構革新,確實只佔一小部分。
接下來讓我們看這兩款Turing顯示卡在遊戲中的表現如何
遊戲測試彙總分析
1080P解析度顯然已經不屬於RTX 2080Ti的戰場,有將近三分之一的遊戲RTX 2080Ti、RTX 2080和RTX 1080Ti差別不大,甚至個別幾個遊戲四款顯示卡的幀率都區域一致。RTX 2080總體上比1080Ti要強一點,極個別遊戲會反轉,也不排除是視訊記憶體規格的問題,前者的弱項主要在於此。這個解析度下高階顯示卡想有更多建樹,更依賴於CPU的提升,問題是測試平臺的CPU還是手動超了頻的,效能已經是目前消費級產品中的佼佼者了。
2K解析度下,顯示卡負載加大,四款顯示卡有擺脫焦灼的跡象,拉開了少許差距。RTX 2080與GTX 1080Ti依然在伯仲之間。同時我們還觀察到,RTX 2080Ti在大多數遊戲中的幀率竟然跟1080P解析度下差之毫釐嗎,可能真的只有4K解析度才能滿足它的胃口了。
4K解析度下四款顯示卡的效能被徹底拉開,RTX 1080Ti至少在其中一半的遊戲中幀率不低於60fps,其餘遊戲也在40~60fps之間,而且其中也以第三人稱RPG遊戲居多,對於這類遊戲而言,RTX 2080Ti的表現足夠給予玩家基本流暢的體驗。而且筆者在4K解析度測試彙總是開了一定抗鋸齒的,日後當DLSS技術在遊戲中普及,同樣抗鋸齒下效能將進一步得到釋放。
關於GTX 1080Ti與RTX 2080,仍然不相上下,格局沒有明顯變化。
散熱與功耗測試
最後一項測試是散熱與功耗,進氣入手的玩家要仔細看了,你的電源、機箱是否合適。
RTX 2080Ti待機時整機功耗114。8W
RTX 2080Ti滿載時整機功耗375。4W
滿載比待機提高了260W左右,當然待機本身也有功耗,如果減去滿載時平臺其它硬體的耗電,加減平衡,差不多等於NVIDIA官方宣稱的TDP 260W。
RTX 2080Ti滿載溫度74℃
對於一個754mm²的超巨核心來說,這個溫度表現令人驚喜,全新的雙風扇散熱方案功不可沒,這已達到大多數高階非公版散熱的水準。
RTX 2080待機時整機功耗100。9W
RTX 2080滿載時整機功耗347。5W
RTX 2080滿載比待機也提升了250W左右,兩者的滿載功耗倒是相差不大。RTX 2080 FE的官方TDP是225W,減去滿載時平臺增加的耗電,在考慮到相對較小的核心待機時更為省電,所以和官方資料也八九不離十了。
RTX 2080滿載溫度73℃
Turing的公版散熱方案有很好的溫控能力,儘管發熱量比RTX 2080Ti小,滿載時風扇的轉速比比RTX 2080Ti低一些,維持在相同的溫度區間,換取更好的靜音效果。
編輯點評
NVIDIA新一代Turing架構的兩款新品,旗艦RTX 2080Ti與準旗艦RTX 2080的首發測試到這裡就全部告一段落了。從常規效能上來說,Turing相對上一代Pascal的提升算中規中矩,其中RTX 2080Ti基本滿足了心理預期,而RTX 2080稍微差點兒意思,當然這跟它沒有用上完整的TU-104核心脫不開關係。
兩款顯示卡與上一代對位產品相比,基本都達到了30%左右的提升,放眼NVIDIA顯示卡發展史來看,也完全在合理範圍內,畢竟每一次升級的側重點不同,筆者在上文中也強調了,常規效能提升只是Turing利好的一部分,其主要價值在於整個架構的開創性進步。
說到架構進步,就不得不說一下其中最為核心的屬性光線追蹤,這項技術的應用,意義絲毫不亞於G80首次支援DX10和GF100首次支援DX11,但同時跟後兩者一樣,第一代應用新技術的硬體,在該技術上的效能總是不夠充沛的,這是必然規律,誰都難以跳出。所以這項技術的象徵意義暫時大於實用意義也是難以避免的,或許這得等到NVIDIA第二代光線追蹤晶片誕生之後。
關於DLSS,就目前測試DEMO中的表現來看,這確實是一項解放效能的神技,用它在4K解析度下開啟抗鋸齒將得到完美的精緻畫面,且預計未來中低端顯示卡也不用再一直忍受鋸齒的折磨,現在就待遊戲的完善與支援。
無論如何,Turing帶給我們的不僅僅是效能,而是打開了一扇全新的視覺體驗之窗
RTX 2080Ti售價9500元左右,RTX 2080售價6500元左右。我們都知道,每次顯示卡升級換代時,新一代顯示卡能媲美上一代更高定位的產品是很常見的,為了不擋老卡的銷路,新卡通常都會在一段時間內定一個比同性能老卡略高的價位,就像這次的RTX 2080。隨著老卡的停售,新卡也會逐漸回落到符合其身份的價格,但這次情況有些不妙,我們看到NVIDIA路線圖中RTX 2070將使用TU-106核心,這預示著NVIDIA的GPU將引來第二次定位抬升。第一次還是在Kepler時代,老黃面對毫無競爭力的A卡,愉快地將GK104核心用在了GTX 680上,原本只是一個甜品級的GPU就搖身一變成了準旗艦,而後甜品自然也就不再甜蜜。
現在本人只希望GTX 1080Ti和1080兩位前朝元老隱退後,Turing新貴能迴歸原本屬於它定位的價格,而不是在效能超越上代高階的同時,連它的售價一併超越,否則照這樣水漲船高下去,恐怕有一天X050也要賣到5000了。