英偉達顯示卡有這麼多型號，執行深度學習哪一個型號價效比最高？是算力越大越好麼？

作者：由 Sunny 發表于攝影時間：2022-01-21

靜秋水玉坊2022-01-21 20:24:45

深度學習中模型的計算流程，可以分成三個階段：

1。資料載入階段。該階段主要是從儲存系統中載入資料到記憶體。該階段主要受儲存系統的磁碟10和儲存系統到計算系統之後的網路IO影響。

2。資料處理階段。該階段涉及對資料的預處理操作。比如對資料進行歸一化、提取資料特徵等相關操作。該操作主要受本地CPy的效能和記憶體效能影響。

3。資料計算階段。該階段是將資料輸入到模型計算，得出結果。該階段主要受GPU的計算能力和視訊記憶體容量的影響。

拿3090和A100對比，3090的單精度效能（FP32）達到35。7TFLOPS，遠超A100的19。5TFLOPS，針對DL的更低精度的FP16效能達到285TFLOPS，也接近A100的312TFLPOS。

a100單精度不如3090甚至3080的原因的是ga100核心有9。7tflop的fp64，fp64很耗電晶體，堆了這麼多雙精度單元后就沒法再堆像ga102那麼多的單精度單元了。而恰恰因為如此，3090沒法取代a100，因為許多科學計算的場景，如有限元的稀疏矩陣求解器，還有複雜表面流場的計算等，單精度是不可取的，這時候即便你自己去編cuda程式搞一個支援3090的求解器，也很可能算出個錯誤的結果。

並不是等比例減少的，在同一個型號的顯示卡上也會有完全不同的表現。

代岸玻2022-01-21 22:17:35

正好在做相關產品。如果單看賬面引數可能會被NVIDIA精準的刀法給搞懵了。請看以下各型號GPU引數彙總，注意下面半精部分部分GPU型號官方沒有直接給出，這裡根據TensorCore單元數量進行一個估算得出。

型號

視訊記憶體

單精（FP32）

半精（FP16）

TITAN Xp

12GB

12。15 T

1080 Ti

11GB

11。34 T

2080Ti

11GB

13。45 T

53。8 T

V100

16/32GB

15。7 T

125 T

3060

12GB

12。74 T

約24T

A4000

16GB

19。17 T

約38T

3080Ti

12GB

34。10 T

約70T

A5000

24GB

27。77T

約117T

3090

24GB

35。58 T

約71T

A40

48GB

37。42 T

149。7 T

A100

40/80GB

19。5 T

312 T

舉幾組例子來說明。3090和A40，2080Ti和A4000，A100自成一組

第一組：3090和A40，咋一看怎麼都是A40牛逼，單精、半精還有視訊記憶體都超過了3090。但是實測會發現並不是那麼回事，正好相反，跑多數演算法3090都比A40快，功率也是3090的大（350w）。為什麼呢？

先看A40的視訊記憶體引數：

再看3090的視訊記憶體引數：

是不是發現了，A40的視訊記憶體大了但是效能被閹割了，A40是GDDR6 695GB/s的視訊記憶體頻寬，而3090是GDDR6X 936。2GB/s的視訊記憶體頻寬，導致雖然A40計算效能高，但是被3090視訊記憶體的頻寬優勢拉平了，並且大多數做深度學習對視訊記憶體頻寬的要求比較高，使得最終3090佔據了更多優勢。當然對視訊記憶體有強需求除外。

第二組：再看2080Ti和A4000，咋看之下也是A4000更好，實測其實差不多甚至2080Ti效能更強，當然A4000的顯著優勢是視訊記憶體比2080Ti大了5GB。

先看2080Ti的視訊記憶體引數：

再看A4000的視訊記憶體引數：

又是2080Ti的視訊記憶體頻寬佔優勢。看上去可能是老黃的一貫伎倆，視訊記憶體大就閹割頻寬（手動狗頭）

第三組：A100。A100是一個特殊的存在，賬面資料單精只有19。5T，如果說只有A4000的算力那就大錯特錯了，準確說不完全對。實際上A100的GA100核心，TensorCore是完整的，擁有156T的TF32和312T的FP16。而GA102核心（3090、3080ti、A40、A5000都是基於此核心）是35T的TF32和150T的FP16，因此3090、3080ti、A40、A5000的TensorCore計算效能比A100大減。而TensorCore有什麼影響呢？以CUDA Core的算力來看A100的單精效能比較雞肋，但是TensorCore能為卷積和矩陣乘法提供FP32的計算能力，因此A100實測深度學習典型演算法的效能會甩其他卡一大截。

從兩個典型的深度學習演算法來看，ResNet系列的網路包含啟用較多，除了本身算力，視訊記憶體的頻寬也對效能有較大影響，所以不能光看上邊的賬面算力。Vision Transformer網路中的矩陣乘法多，這部分時間佔總計算時間的比重大，本身賬面算力大小佔主要因素。

AutoDL 有一個彙總測試，對比不同GPU型號跑ResNet和ViT的效能實測資料，請自行檢視。

以上資料參考網址：

NVIDIA A40 PCIe Specs

NVIDIA GeForce RTX 3090 Specs

NVIDIA RTX A4000 Specs

NVIDIA GeForce RTX 2080 Ti Specs

NVIDIA A100 SXM4 40 GB Specs

AutoDL效能實測

其他補充：

本身NV在GA100和GA102核心上的設計是緊貼需求的，因為GA102核心本來就是用於圖形渲染的。圖形渲染只能呼叫CUDACore，所以CUDACore數量死命地堆。但是因為DLSS的出現，使得渲染低解析度影象，然後透過超分或者GAN提升成為加速手段，這樣整體算力佔用就是CUDACore為主，TensorCore為輔。在深度學習計算裡面，正好反過來。TensorCore的矩陣乘法幾乎承擔了80%以上的算力。CUDACore一般只用來算啟用函式、Norm、和向量加法（殘差連線）。

知乎使用者2022-01-22 02:45:17

先回答問題

比如3090算力比3080要高，那麼執行深度學習的時間是等比例減少的麼？ —— 不是

不同顯示卡型號提供的單精度、半精度、雙精度比例不同，是不是意味著不同的演算法在同一個型號的顯示卡上會有完全不同的表現？ ——沒明白。如果你是指不同演算法在比較時用fp16和fp32可能有不同的表現是對的。

DDR6視訊記憶體和DDR6X視訊記憶體在實際應用中差別大麼？——這個不知道。

深度學習顯示卡的價效比你直接按照預算來就行，只推薦這兩款：

1080Ti、3090

如果是自己組臺式來跑通程式碼或者跑demo，也可以3060（大視訊記憶體適合debug）。

在預算超過20W前（8卡3090伺服器價格），只建議用上面兩個型號，配多卡。如果你的預算大於3090單卡，就3090起，否則就雙卡or四卡1080ti。

汽車人參考2022-03-17 20:39:59

本文為英偉達全面分析第四篇文章，主要探討英偉達汽車計算平臺發展，嘗試回答英偉達在硬體層面如何搶佔智慧汽車市場這個問題，下一篇重點關注Xavier和Orin兩款SoC大殺器，請關注汽車人參考後續更新。

Drive平臺的持續迭代

英偉達的GPU架構從Tesla起，到2010年完整的Fermi，歷經Kepler，到2014年的Maxwell，再到2016年面向深度學習的Pascal、Volta，最終到2020年的Ampere。

伴隨著GPU架構演進，英偉達逐步在智慧汽車上搭建計算平臺，2015年推出NVIDIA Drive系列，其中DRIVE CX面向座艙，DRIVE PX面向自動駕駛。

在此後5年時間，以一年一代產品的節奏，快速迭代出了DRIVE PX、DRIVE PX2、Drive PX Xavier、DRIVE PX Pegasus、DRIVE AGX Orin自動駕駛平臺。

每一代平臺都依託核心SoC的迭代，從Tegra X1，到Parker，到Xavier，Orin，以及Atlan。

初代Drive PX

第一代Drive PX，基於Tegra X1 SoC晶片開發，採用20nm工藝，256核Maxwell架構Cuda Core的GPU，和8個CPU（4個ARM CortexA57和4 ARM CortexA53），

Tegra X1是一顆移動處理器，並不專為汽車而設計，

算力為1T左右。

搭載1顆Tegra X1的第一代DRIVE CX面向座艙，搭載2顆Tegra X1的DRIVE PX面向自動駕駛。

第二代Drive PX2

英偉達2016推出了第二代Drive PX2，基於Parker SoC晶片開發，採用16nm工藝。

在Parker架構中，擁有256核Pascal架構Cuda Core的GPU，和6個CPU核（4個ARM Cortex A57和2個 ARM Denver），

這是英偉達開始嘗試滿足車規級的第一顆SoC晶片。

PX2衍生出了AutoCruise（單Parker晶片）和Auto Chauffeur（雙Parker晶片）兩種版本，相比第一代PX把後備箱塞得滿滿當當的工控機，DRIVE PX2在體積上已經大大縮小。

特斯拉2016年在HW 2。0中，就搭載了英偉達PX2 AutoCruise版本。

第三代PX Xavier/Pegasus

由於GPU屬於通用型計算晶片，算力高同時也會帶來高功耗與搭建成本，PX2中2顆Parker SoC功耗約為250W，需要水冷散熱。

英偉達在2017年釋出了Drive PX Xavier，Xavier平臺可以看作是PX2小型高能效版，在算力稍有提升前提下，面積縮小了一半，功率僅為PX2的1/8。

PX Xavier核心在於Xavier SoC晶片，據悉英偉達研發投入高達20億美元，耗費2000名工程師4年時間開發。

Xavier採用12nm工藝，算力30TOPS，功耗30W，擁有8核ARM 64 CPU（Carmel）和512核Volta架構Cuda Core的GPU。

作為一款專為自動駕駛設計的晶片，Xavier還搭載了深度學習加速模組DLA模組和向量處理單元PVA，DLA和PVA是兩個專用ASIC，DLA用於推理，PVA用於加速傳統視覺演算法，這是

英偉達首次採用CPU+GPU+ASIC的技術路線。

同年，英偉達推出了適用於Robotaxi、更注重效能的DRIVE PX Pegasus，Pegasus由2顆Xavier晶片和2顆單獨的Turing架構的GPU（4680CUDA Core+576 Tensor Core+RT Core）組成，可以實現320TOPS的算力。

第四代，DRIVE AGX Orin

英偉達在2019推出了DRIVE AGX Orin平臺，該平臺由2顆Orin SoC晶片和2顆 Ampere架構的GPU組成，最高算力達到2000TOPS，功耗800W，這也是Orin SoC晶片的首次亮相。

至此，英偉達透過Xavier和Orin完成了自動駕駛從ADAS到L5的全棧佈局，透過不同組合，滿足不同客戶對不同自動駕駛等級的需求。

汽車人參考小結

20年前英偉達重新定義了現代計算機圖形技術，並推動了PC遊戲市場的發展，而20年後，英偉達已搖身一變，成為一家在自動駕駛領域處於領先的頭部企業。

從雲端訓練、到移動晶片，再快速迭代到智慧汽車晶片，將算力作為核心戰略控制點，提前預判使用者的需求，再和自身優勢結合起來，在沒有人的地方去競爭，使得英偉達遠遠甩開先於已經發展好多年的Mobileye，成為自動駕駛領域又一個炙手可熱的明星。

下一篇探討有關英偉達的Xavier和Orin晶片

本文為汽車人參考第383篇原創文章，如果您覺得文章不錯，“推薦和關注”是對我最大的支援。

九月清晨2022-03-27 01:43:13

3060

標簽： 3090 視訊記憶體偉達算力 GPU

上一篇:莫桑鑽鑲嵌的奧秘！

下一篇：山師學科數學的一點想法

英偉達顯示卡有這麼多型號，執行深度學習哪一個型號價效比最高？是算力越大越好麼？

猜你喜歡

RX 6500XT 和RTX 3050 、GTX 1650Super 、GTX 1660Super 差距多大？

筆記本雷電4介面能相容雷電3的顯示卡塢嗎？我主要深度學習用？

求不吹不黑， Intel vs AMD晶片到底哪家強？

英偉達老黃又來送大禮，全新Titan V CEO限量版GPU火力全開

RTX 3090 AI效能實測：FP32訓練速度提升50%，張量核心縮水