siemens x
人工智能

用“AI核彈”飽和攻擊的英偉達,如何贏下AI計算新賽場?

2025China.cn   2020年05月22日

  在2012年的ImageNet挑戰(zhàn)賽(ILSVRC)上,深度卷積神經(jīng)網(wǎng)絡AlexNet橫空出世,在圖像分類識別領(lǐng)域?qū)崿F(xiàn)了質(zhì)的飛躍,被認為是AI時代的標志性事件,代表著深度學習時代的正式開端。

  在此之前,深度學習“如何出圈”的一大挑戰(zhàn),就是深度神經(jīng)網(wǎng)絡訓練面臨算力不足的難題。而讓AlexNet實現(xiàn)算力突破的關(guān)鍵,就在于當時研究者使用了英偉達的GPU。

  GPU一戰(zhàn)成名,成為伴隨AI技術(shù)一同進化的基礎(chǔ)設施。英偉達也同時抓住了AI計算的新增長機遇。隨著AI算力要求的爆炸式增長,英偉達GPU產(chǎn)品系列也經(jīng)歷了多輪的升級。

  現(xiàn)在,英偉達的GPU家族又迎來一次 “史上最大”的性能升級。而此次升級距離上一次發(fā)布“地表最強AI芯片”Tesla V100已經(jīng)過去三年。

  三年蟄伏,一鳴驚人。

  (NVIDIA A100 GPU)

  英偉達首次推出第8代安培GPU架構(gòu),以及首款基于安培架構(gòu)的NVIDIA A100 GPU,采用7nm工藝,在和上一代Volta架構(gòu)V100 GPU幾乎相同面積的晶圓上放置了超過540億個晶體管,晶體管數(shù)量增長了2.5倍,但尺寸卻僅大了1.3%,而在AI訓練和推理算力上,均較上一代Volta架構(gòu)提升20倍,HPC性能提升到上一代的2.5倍。

  A100 GPU的獨特之處在于,作為一個端到端機器學習加速器,第一次在一個平臺上面統(tǒng)一了AI訓練和推理,同時也將作為數(shù)據(jù)分析、科學計算和云圖形設計等通用工作負載的加速器。簡單來說A100 GPU就是為數(shù)據(jù)中心而生的。

  在A100 GPU的基礎(chǔ)上,英偉達同時發(fā)布了全球最強AI和HPC服務器平臺——HGX A100,全球最先進的AI系統(tǒng)——DGX A100系統(tǒng),以及由140個DGX A100系統(tǒng)組成的DGX SuperPOD集群。此外,還有涉及智能網(wǎng)卡、邊緣AI服務器、自動駕駛平臺合作以及一系列軟件層面的平臺型產(chǎn)品的發(fā)布。

  可以說,英偉達這次不是放出一顆“核彈”,而是一個“核彈集群”,還是飽和攻擊的那種。英偉達從云端到邊緣再到端側(cè),從硬件到軟件再到開源生態(tài),幾乎建立起一個堅不可摧的AI計算的壁壘,同時也將AI芯片的競爭帶上了一個小玩家難以企及的高度。

  英偉達的AI服務器芯片業(yè)務正在發(fā)生哪些新變化?A100 GPU的發(fā)布,對于AI服務器芯片市場有哪些影響,以及對于云計算市場帶來哪些變化?這成為我們在“看熱鬧”之余,要重點探討的幾個問題。

AI服務器芯片:英偉達AI計算增長新極點

  眾所周知,游戲、數(shù)據(jù)中心、專業(yè)視覺化以及自動駕駛等新興業(yè)務是英偉達的四大核心業(yè)務板塊。其中,游戲業(yè)務雖仍然是營收的支柱板塊,但是受到PC游戲市場趨于飽和并向移動端轉(zhuǎn)移的影響,獨顯業(yè)務的比重正在逐步縮小;專業(yè)視覺化業(yè)務一直為英偉達貢獻著穩(wěn)定營收,但受其他業(yè)務增長的影響,業(yè)務占比也在持續(xù)下滑;自動駕駛等新興業(yè)務板塊,目前只占整體應收的很小部分,且增速有限,但可以看作是英偉達未來的長線市場。

  (Nvidia: Sequential Revenue Change)

  最明顯的則是英特爾在數(shù)據(jù)中心業(yè)務板塊的增長。近幾年中其營收大部分時間處于高速增長狀態(tài),且營收占比逐步靠近游戲業(yè)務。

  根據(jù)英偉達最新的2020財年Q4財報數(shù)據(jù)顯示,”游戲“收入高達14.9億美元,約占總營收的47%;而增長強勁的數(shù)據(jù)中心板塊,AI服務器芯片的營收達到9.68億美元,同比增長了42.6%,,逼近10億美元大關(guān),遠遠超出市場預期的8.29億美元。

  整體上,隨著全球數(shù)據(jù)中心,特別是超大型數(shù)據(jù)中心,對AI芯片需求的加速擴張,英偉達的AI服務器芯片也迎來了高速增長,正在躍升為英偉達最具有市場拓展?jié)摿Φ臉I(yè)務分支。

  從業(yè)務增長的前景上看,英偉達推出A100 GPU服務器芯片以及AI系統(tǒng)集群,所要把守住的正是在當前數(shù)據(jù)中心中AI服務器市場的霸主地位。

  那么,英偉達正在如何構(gòu)建這一AI服務器芯片的產(chǎn)品體系呢?

  一般來說,對于深度神經(jīng)網(wǎng)絡算法模型,其模型框架的訓練需要涉及非常龐大的數(shù)據(jù)計算,但運算方法要求又相對簡單,所以需要在云端進行大量高并行、高效率和高數(shù)據(jù)傳輸?shù)倪\算。因此相較于擅長復雜邏輯運算、但核心數(shù)較少的CPU,擁有多個計算單元的GPU更適合于進行深度神經(jīng)網(wǎng)絡的訓練任務。

  這是英偉達的GPU在全球云端AI服務器芯片市場,尤其是訓練端,贏得市場先機的根本原因。與此同時,英偉達針對一系列AI服務開發(fā)的完備的TESLA GPU產(chǎn)品線以及成功布局針對GPU的“CUDA”開發(fā)平臺,才是英偉達在AI服務器芯片市場一家獨大的主要原因。

  從2016年推出第一個專為深度學習優(yōu)化的Pascal GPU,到2017年又推出性能相比Pascal提升5倍的新GPU架構(gòu)Volta,再到現(xiàn)在推出比Volta性能高20倍的Ampere(安培)架構(gòu),英偉達在數(shù)據(jù)中心的GPU產(chǎn)品一直成功實現(xiàn)高速且穩(wěn)定的性能提升。

  此外,英偉達推出了神經(jīng)網(wǎng)絡推理加速器TensorRT,可以為深度學習應用提供低延遲、高吞吐率的部署推理加速,兼容目前幾乎所有主流的深度學習框架,使其能夠滿足超大數(shù)據(jù)中心從AI訓練到部署推理的完整的AI構(gòu)建。

  而在去年3月,英偉達宣布以68億美金收購了以色列網(wǎng)絡通信芯片公司Mellanox。通過對Mellanox的加速網(wǎng)絡平臺的整合,英偉達可以解決通過智能網(wǎng)絡結(jié)構(gòu)連接大量快速計算節(jié)點,以形成巨大的數(shù)據(jù)中心規(guī)模計算引擎的整體架構(gòu)。

  就在發(fā)布A100 GPU的同時,英偉達也基于Mellanox技術(shù),推出全球第一款高度安全、高效的25G/50G以太智能網(wǎng)卡SmartNIC,將廣泛應用于大型云計算數(shù)據(jù)中心,大幅優(yōu)化網(wǎng)絡及存儲的工作負載,實現(xiàn)AI計算的更高安全性和網(wǎng)絡連接效能。

  當然,收購Mellanox的意義不止于此,除了解決高性能的網(wǎng)絡連接和算力輸出問題,英偉達還將也擁有GPU、SoC、NPU面向不同細分領(lǐng)域的三大處理器,這意味著英偉達已基本具備了獨立打造 AI 數(shù)據(jù)中心的能力。

  整體上,隨著云端數(shù)據(jù)中心正在從傳統(tǒng)的數(shù)據(jù)存儲向著進行深度學習、高性能計算(HPC)和大數(shù)據(jù)分析的方向演變,英偉達也將在其中扮演著更加重要的AI計算服務商的角色。

跨越英偉達的堅壁高墻,AI計算競賽加劇

  當然,云端AI服務器芯片市場還遠未到格局已定的地步,反而在2019年迎來最激烈的競爭態(tài)勢。

  英偉達的GPU產(chǎn)品,因其高耗能和高價格一直制約著云計算數(shù)據(jù)中心的AI算力的成本。從服務器芯片市場的另一位大佬英特爾,到AMD、高通,云計算服務商亞馬遜、谷歌、阿里、華為以及眾多新興的AI芯片創(chuàng)業(yè)公司,都在積極投入云端AI服務器芯片的研發(fā),尋求替代GPU的解決方案??梢娞煜驴唷癎PU”久矣。

  在2019年,相比英偉達的略顯沉寂,其他各家則紛紛推出了自己的AI服務器芯片產(chǎn)品。比如去年上半年,英特爾、亞馬遜、Facebook以及高通都陸續(xù)推出或宣布推出自己的專用AI服務器芯片,試圖在AI推理運算上實現(xiàn)對GPU和FPGA的替代。年中,我國的主要云端AI廠商也集體發(fā)力,寒武紀在6月宣布推出第二代云端AI芯片思云270;8月,華為正式發(fā)布算力最強的AI處理器Ascend910及全場景AI計算框架MindSpore;9月,阿里推出當時號稱全球最強的AI推理芯片含光800,基本都在對標英偉達的T4系列產(chǎn)品。

  在所有AI芯片的競爭者中,作為第二名的英特爾顯然是最想挑戰(zhàn)英偉達的霸主位置,也是最有可能挑戰(zhàn)英偉達的代表。

  作為通用服務器芯片的傳統(tǒng)巨頭,英特爾最有可能的策略就是把GPU和AI都融入到自己的CISC指令集和CPU生態(tài)中,也就是把CPU和GPU部署在一起,云服務商們只需購買一家的產(chǎn)品,就能更好地發(fā)揮AI計算的效能。

  在All IN AI的英特爾那里,他們是如何來構(gòu)建這一AI計算策略的?

  英特爾最先補足的就是AI硬件平臺版圖,而收購則是最快的方案。2015年,英特爾先是天價收購了FPGA的制造商Altera,一年后又收購了Nervana,為全新一代AI加速器芯片組奠定了基礎(chǔ)。

  去年12月,英特爾再次花掉20億美元高價收購了成立僅3年的以色列數(shù)據(jù)中心AI芯片制造商Habana Labs。與英偉達收購Mellanox一樣異曲同工,通過收購Habana,英特爾也將補足數(shù)據(jù)中心場景下的通信和AI兩種能力。

  受到這一收購的激勵,英特爾宣布停止去年8月才發(fā)布的用于AI訓練的Nervana NNP-T,轉(zhuǎn)而專注于推進Habana Labs的Gaudi和Goya處理器產(chǎn)品,以對標英偉達的tesla V100和推理芯片T4。此外,一款基于Xe架構(gòu)的GPU也將在今年中旬面世。

  在軟件層面,為應對異構(gòu)計算帶來的挑戰(zhàn),英偉達在去年11月發(fā)布了OneAPI公開發(fā)行版。不管是CPU、GPU、FPGA還是加速器,OneAPI都嘗試最大程度來簡化和統(tǒng)一這些跨SVMS架構(gòu)的創(chuàng)新,以釋放硬件性能。

  盡管英特爾以“全力以赴”的姿態(tài)投入到AI計算當中,通過四處出手收編了涵蓋GPU、FPGA 到ASIC的AI芯片產(chǎn)品陣列,并建立了廣泛適用的軟硬件生態(tài)。但是在挑戰(zhàn)英偉達的通用GPU產(chǎn)品上面,仍然還有一定距離。

  首先,英特爾通過CPU適用于AI計算的策略一直未能得到主要云計算廠商的青睞,大多數(shù)廠商仍然樂于選擇CPU+GPU或FPGA的方案來部署其AI訓練的硬件方案。而GPU仍然是英偉達的主場,V100和T4仍然是當下數(shù)據(jù)中心主流的通用GPU和推理加速器。

  其次,英特爾在AI芯片的布局才剛剛發(fā)力,受到Nervana AI芯片一再延遲的影響,Habana產(chǎn)品才剛剛開始進行整合,這將使得英特爾短期內(nèi)難以挑戰(zhàn)英偉達的AI服務器芯片的市場份額。

  而現(xiàn)在英偉達最新的安培架構(gòu)的A100 GPU以及AI系統(tǒng)集群的發(fā)布,更是給英特爾以及市場其他競爭對手一場飽和攻擊。盡管說,長期來看云計算廠商和AI服務器芯片廠商開發(fā)的定制芯片會侵蝕一部分GPU的份額,而如今都要先跨越英偉達A100所搭起的AI計算的堅壁與高墻。

AI計算升級,帶來數(shù)據(jù)中心全新布局方案

  我們先看數(shù)據(jù)中心本身的變化。受到AI相關(guān)應用需求和場景的爆發(fā)式增長,中小型數(shù)據(jù)中心無法承受如此巨量的“AI計算之痛”,市場對超大型數(shù)據(jù)中心的需求越發(fā)強烈。

  第一,以亞馬遜AWS、微軟Azure、阿里、谷歌為代表的公有云巨頭,正在占據(jù)超大型數(shù)據(jù)中心的主要市場份額。一方面,超大型數(shù)據(jù)中心將帶來更多的服務器及配套硬件的增長;另一方面,AI算法的復雜度增加和AI處理任務的持續(xù)增長,又需要服務器的配置以及結(jié)構(gòu)得到持續(xù)升級。

  在一些視覺識別為主的AI企業(yè),建立一個超算中心就需要部署上萬塊GPU,對于那些TOP級云服務商的云計算數(shù)據(jù)中心,為支持深度學習訓練任務,所需要的GPU量級也將是海量級別。

  第二,云服務廠商都在推出自研的芯片,來緩解因為價格昂貴和數(shù)據(jù)量巨大而帶來的GPU計算成本飆升的問題。這些廠商推出的大多是推理芯片,以節(jié)省GPU的通用算力。但這些推理芯片只在通用性上面的不足,造成其很難突破自研自用的局面。

  那么,英偉達的A100 GPU芯片的發(fā)布,對云計算數(shù)據(jù)中心帶來哪些新的變化呢?或者說為AI服務器芯片的對手們設立了怎樣的門檻呢?

  首先,作為采用全新的安培架構(gòu)的A100 GPU,支持每秒1.5TB的緩沖帶寬處理,支持TF32 運算和FP64雙精度運算,分別帶來高達20倍FP32的AI計算性能和HPC應用2.5倍的性能提升。此外還包括MIG 新架構(gòu)、NVLink 3.0以及AI運算結(jié)構(gòu)的稀疏性等特性,這些使得 A100 加速卡不僅可用于AI訓練和AI推理,還可以用于科學仿真、AI對話、基因組與高性能數(shù)據(jù)分析、地震建模及財務計算等多種通用計算能力。而這一解決方案有可能緩解很多云服務廠商在推理上面的計算壓力,也對其他廠商的推理芯片帶來一定的競爭壓力。

  其次,英偉達發(fā)布的第三代的DGX A100的AI系統(tǒng)在提高吞吐量同時,大幅降低數(shù)據(jù)中心的成本。由于A100內(nèi)置了新的彈性計算技術(shù),可以分布式的方式進行靈活拆分,多實例 GPU 能力允許每個 A100 GPU 被分割成多達七個獨立的實例來推斷任務,同時也可以將多個A100作為一個巨型 GPU 運行,以完成更大的訓練任務。

  (“The more you buy,the more money you save!”)

  用黃仁勛舉的例子來說,一個典型的AI數(shù)據(jù)中心有50個DGX-1系統(tǒng)用于AI訓練,600個CPU系統(tǒng)用于AI推理,需用25個機架,消耗630kW功率,成本逾1100萬美元;而完成同樣的工作,一個由5個DGX A100系統(tǒng)組成的機架,達到相同的性能要求,只用1個機架,消耗28kW功率,花費約100萬美元。

  也就是說,DGX A100系統(tǒng)用一個機架,就能以1/10的成本、1/20的功率、1/25的空間取代一整個AI數(shù)據(jù)中心。

  總體而言,英偉達用一套性能驚人又極具創(chuàng)新性的AI計算架構(gòu)與AI服務器芯片硬件,帶來了AI數(shù)據(jù)中心計算平臺的全新升級。英偉達的野心將不再只是提供性能升級的GPU硬件產(chǎn)品,而是要重新定義數(shù)據(jù)中心的AI計算的規(guī)則,將數(shù)據(jù)中心視作基本的計算單元。

  實際來講,一個DGX A100 GPU系統(tǒng)的單價就要20萬美元,對于要為了AI訓練而采購成千上萬塊企業(yè)級GPU的云計算廠商來說,可想而知成本將有多高。現(xiàn)在,也只有全球主要的云計算廠商、IT巨頭以及政府、實驗室為DGX A100下了初始訂單。

  對于其他競爭對手而言,英偉達這次在AI服務器芯片及AI數(shù)據(jù)中心計算平臺鑄就的堅壁高墻,似乎在短期內(nèi)難以逾越。同時,也會成為未來幾年,AI服務器芯片廠商努力去對標的性能標準。當然,對英偉達A100的挑戰(zhàn),也自然就此開始。至于是英特爾、AMD還是AWS、谷歌,我們拭目以待。。(轉(zhuǎn)載自腦極體,作者海怪)

(轉(zhuǎn)載)

標簽:AI計算 英偉達 我要反饋 
2024世界人工智能大會專題
即刻點擊并下載ABB資料,好禮贏不停~
優(yōu)傲機器人下載中心
西克
2024全景工博會
專題報道
2024 工博會 | 直播探館 · 全景解讀
2024 工博會 | 直播探館 · 全景解讀

第二十四屆中國工博會于9月24日至28日在國家會展中心(上海)舉行,展會以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會
2024世界人工智能大會

WAIC 2024將于7月在上海舉行,論壇時間7月4日-6日,展覽時間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會專題
2024漢諾威工業(yè)博覽會專題

2024 漢諾威工業(yè)博覽會將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會,本屆展覽會... [更多]