在談英偉達(dá)的大戰(zhàn)略之前,明確兩個(gè)重要事件:
英偉達(dá)NVIDIA在2019年3月公開以69億美元現(xiàn)金收購Mellanox,該項(xiàng)交易最終在2020年4月塵埃落定。
英偉達(dá)NVIDIA在2020年9月宣布以400億美元現(xiàn)金加股票的方式,對(duì)軟銀旗下芯片設(shè)計(jì)公司、全球重要芯片架構(gòu)提供商Arm進(jìn)行收購。
這兩件事情的成功,為英偉達(dá)在芯片領(lǐng)域的發(fā)展帶來了更深入、更廣泛的發(fā)展前景,以及更為利好的影響。從資本市場(chǎng)的表現(xiàn)就可見一斑,按周一美東時(shí)間11月16日16:00收盤時(shí)的價(jià)格計(jì)算,英偉達(dá)的總市值為3335.56億美元,幾乎快超過某友商市值的兩倍。友商名字不方便公布,大家可以猜猜看。
前些天業(yè)內(nèi)朋友感嘆,這一年,過得太快了。其實(shí),我更想感嘆,英偉達(dá)的市值飆升得太快了。
但這市值增長(zhǎng)的背后,卻暗藏著英偉達(dá)的更大圖謀:超算大戰(zhàn)略。
根據(jù)最新的TOP500榜單排名顯示,英偉達(dá)全面領(lǐng)先,無論是針對(duì)超算領(lǐng)域的計(jì)算、網(wǎng)絡(luò)還是HPC。
事實(shí)上,NVIDIA GPU和網(wǎng)絡(luò)正在越來越多地用于加速世界上最快的超級(jí)計(jì)算機(jī)。
一是,基于NVIDIA技術(shù)構(gòu)建的超算系統(tǒng)占比絕對(duì)領(lǐng)先,包括8個(gè)TOP10超算系統(tǒng)在內(nèi),近70%進(jìn)入TOP500榜單的超算系統(tǒng)都基于NVIDIA技術(shù)構(gòu)建。
二是,NVIDIA Selene超級(jí)計(jì)算機(jī)(HPC)在全球超級(jí)計(jì)算機(jī)速度排行中位列第五。該超級(jí)計(jì)算機(jī)基于NVIDIA DGX A100 640GB系統(tǒng)和NVIDIA Mellanox InfiniBand網(wǎng)絡(luò)構(gòu)建。
三是,在衡量系統(tǒng)能源效率的Green500榜單中,NVIDIA DGX SuperPOD系統(tǒng)位居榜首,得到業(yè)界一致肯定。
從SC20(Supercomputing Conference)超算大會(huì)公布的最新TOP500榜單可以看出,英偉達(dá)的超算大戰(zhàn)略勢(shì)在必得,將在強(qiáng)化現(xiàn)有技術(shù)能力部署的前提下,明確了下一步戰(zhàn)略的“三駕馬車”:GPU更強(qiáng)、HPC更快、網(wǎng)絡(luò)更優(yōu)。面向超算領(lǐng)域,英偉達(dá)的戰(zhàn)略很明確,一點(diǎn)兒都不用含糊,更強(qiáng)更快更優(yōu),也將會(huì)是其長(zhǎng)期屹立超算領(lǐng)域的制勝法寶。
更強(qiáng):GPU一路高歌猛進(jìn)
在超算行業(yè),強(qiáng)中自有強(qiáng)中手。作為超算領(lǐng)域最佳加持者,英偉達(dá)在GPU這條發(fā)展路上,可謂一路高歌猛進(jìn)。
AI算力的強(qiáng)大,再一次彰顯了英偉達(dá)整體超算戰(zhàn)略的英明。似乎,這也是英偉達(dá)命中注定的好趨勢(shì),誰叫AI行業(yè)化,行業(yè)AI化的智能化時(shí)代來得如此之快呢。
針對(duì)數(shù)據(jù)中心GPU需求來看,英偉達(dá)以A100、A40、V100、T4、RTX 6000、RTX 8000多款業(yè)界知名的產(chǎn)品系列既已覆蓋。
然而術(shù)業(yè)有專攻。針對(duì)大流量數(shù)據(jù)工作負(fù)載方面,AI算力的需求特別突出,但是隨著NVIDIA A100 80GB GPU的出現(xiàn),非常有助于各種訓(xùn)練、推理和超級(jí)計(jì)算應(yīng)用等方面的發(fā)展,在速度和性能上得以前所未有的滿足。
作為英偉達(dá)創(chuàng)始人、現(xiàn)任CEO黃仁勛親手推出的GPU力作,A100第一代產(chǎn)品是在幾個(gè)月前的英偉達(dá)GTC 2020大會(huì)上首次亮相的。
因?yàn)槭腔谟ミ_(dá)安培(Ampere)架構(gòu)的首款圖形處理器,所以備受業(yè)界關(guān)注。當(dāng)時(shí)A100引入了有著里程碑式意義的Tensor Cores雙精度計(jì)算技術(shù)。要知道以前在NVIDIA V100 Tensor Core GPU上需要10個(gè)小時(shí)的雙精度模擬作業(yè),在A100上4小時(shí)即可完成。
NVIDIA A100 Tensor Core GPU針對(duì)AI、數(shù)據(jù)分析和高性能計(jì)算 (HPC)等應(yīng)用上,實(shí)現(xiàn)了更強(qiáng)的加速,針對(duì)極其嚴(yán)峻的計(jì)算挑戰(zhàn)上有了更大作為。A100高效擴(kuò)展性也很突出,數(shù)千個(gè)A100 GPU在同一個(gè)系統(tǒng)中成功實(shí)現(xiàn)集成,也可以利用NVIDIA多實(shí)例 GPU (MIG) 技術(shù)將每個(gè)A100 劃分割為七個(gè)獨(dú)立的GPU實(shí)例,獲得對(duì)各種規(guī)模工作負(fù)載的加速。
需要注意的是,這里針對(duì)HPC性能的對(duì)比中,僅限于NVIDIA V100 GPU第一代產(chǎn)品。
A100的出現(xiàn),對(duì)數(shù)據(jù)中心大規(guī)模的計(jì)算帶來了更強(qiáng)的優(yōu)化效果,不僅統(tǒng)一了人工智能訓(xùn)練和推理,同時(shí)將靈活、彈性加速的實(shí)現(xiàn)可能性向前又推進(jìn)一步。
作為A100 GPU系列中的最新力作,A100 80GB GPU在繼承了第一代A100 GPU的優(yōu)勢(shì)基礎(chǔ)上,內(nèi)存比第一代A100 GPU提升一倍,也支持NVIDIA HGX AI超級(jí)計(jì)算平臺(tái)。
大內(nèi)存容量和高帶寬,對(duì)于AI與HPC實(shí)際應(yīng)用的好處有目共睹,畢竟在這個(gè)領(lǐng)域中一切都要以速度決勝負(fù)。全新A100采用HBM2e技術(shù),可將A100 40GB GPU的高帶寬內(nèi)存增加一倍至80GB,提供每秒超過2TB的內(nèi)存帶寬。這使得數(shù)據(jù)可以快速傳輸?shù)饺蜃羁斓臄?shù)據(jù)中心GPU A100上,使研究人員能夠更快地加速其應(yīng)用,處理最大規(guī)模的模型和數(shù)據(jù)集。
由此,我們可以很容易看到全新一代的增強(qiáng)A100 80GB GPU在HPC領(lǐng)域的表現(xiàn)更為突出,相比最早一代2016年代表之作P100 GPU,A100 80GB GPU實(shí)現(xiàn)了HPC應(yīng)用性能的11倍提升。
不僅如此,在深度學(xué)習(xí)、數(shù)據(jù)分析、能效方面都獲得了前所未有的優(yōu)化。
對(duì)于如RNN-T等自動(dòng)語言識(shí)別模型的AI推理,單個(gè)A100 80GB MIG實(shí)例可處理更大規(guī)模的批量數(shù)據(jù),將生產(chǎn)中的推理吞吐量提高1.25倍。
在TB級(jí)零售大數(shù)據(jù)分析基準(zhǔn)上,A100 80GB將其性能提高了2倍,使其成為可對(duì)最大規(guī)模數(shù)據(jù)集進(jìn)行快速分析的理想平臺(tái)。隨著數(shù)據(jù)的動(dòng)態(tài)更新,企業(yè)可以實(shí)時(shí)做出關(guān)鍵決策。
對(duì)于科學(xué)應(yīng)用,A100 80GB可為天氣預(yù)報(bào)和量子化學(xué)等領(lǐng)域提供巨大的加速。材料模擬軟件Quantum Espresso采用單節(jié)點(diǎn)A100 80GB實(shí)現(xiàn)了近2倍的吞吐量提升。
從這幾個(gè)比較典型的需要大量數(shù)據(jù)存儲(chǔ)空間的應(yīng)用來看,A100 80GB GPU在應(yīng)用性能上確實(shí)成為新一代GPU的亮點(diǎn)。由此在架構(gòu)特性上可以總結(jié)為幾點(diǎn):
一是,采用第三代Tensor Core核心。通過全新TF32,將上一代Volta架構(gòu)的AI吞吐量提高多達(dá)20倍。通過FP64,將HPC性能提高多達(dá)2.5倍。通過 INT8,將AI推理性能提高多達(dá)20倍,并且支持BF16數(shù)據(jù)格式。
二是,采用更大、更快的HBM2e GPU內(nèi)存。從而使內(nèi)存容量增加一倍,在業(yè)內(nèi)率先實(shí)現(xiàn)2TB/s以上的內(nèi)存帶寬。
三是,采用MIG技術(shù),將單個(gè)獨(dú)立實(shí)例的內(nèi)存增加一倍,可最多提供七個(gè)MIG,每個(gè)實(shí)例具備10GB內(nèi)存。
四是,采用結(jié)構(gòu)化稀疏技術(shù),將推理稀疏模型的速度提高兩倍。
五是,第三代NVLink和NVSwitch,相較于上一代互連技術(shù),可使GPU之間的帶寬增加至原來的兩倍,將數(shù)據(jù)密集型工作負(fù)載的GPU數(shù)據(jù)傳輸速度提高至每秒600 gigabytes。
AI能力的強(qiáng)大,表現(xiàn)在GPU產(chǎn)品的推陳出新,以及GPU為行業(yè)應(yīng)用帶來革命性的改變。這就是英偉達(dá)的過人之處,好技術(shù)帶來行業(yè)改變和產(chǎn)業(yè)格局變化。
更智即更強(qiáng)。由此而言,對(duì)于超算行業(yè)的發(fā)展來說,更智能也就自然表現(xiàn)得更為強(qiáng)大了。
更快:HPC沒有最快只有更快
超算的核心在于快,競(jìng)爭(zhēng)的價(jià)值在于更快。在超算領(lǐng)域只有在超算系統(tǒng)上實(shí)現(xiàn)更快的速度,才能實(shí)現(xiàn)超算系統(tǒng)整體能力的更強(qiáng)。
作為強(qiáng)化AI算力的全球領(lǐng)先廠商,英偉達(dá)新一代DGX Station A100和DGX A100 640GB移動(dòng)數(shù)據(jù)中心引起了我特別的注意,這也是在 SC20超級(jí)計(jì)算大會(huì)上與A100 80GB GPU同期發(fā)布的重量級(jí)產(chǎn)品。
DGX Station A100的AI性能可以達(dá)到2.5 petaflops,通過NVIDIA NVLink完全互連,實(shí)現(xiàn)四個(gè)全新NVIDIA A100 80GB GPU融合在一起的工作組服務(wù)器,同時(shí)GPU內(nèi)存高達(dá)320GB。更為特別是DGX Station A100也是唯一支持NVIDIA多實(shí)例GPU技術(shù)(MIG)的工作組服務(wù)器。借助MIG,單一DGX Station A100最多可提供28個(gè)獨(dú)立GPU實(shí)例以運(yùn)行并行任務(wù),并可在不影響系統(tǒng)性能的前提下支持多用戶應(yīng)用。
這也是全球唯一的千萬億級(jí)工作組服務(wù)器,如此性能超快的DGX Station A100,被業(yè)內(nèi)稱之為一體式AI數(shù)據(jù)中心,也就是說,用戶借助一臺(tái)DGX Station A100,就可以在任何地方部署AI超算中心了。
如此說來,作為服務(wù)器級(jí)的系統(tǒng),DGX Station A100無需配備數(shù)據(jù)中心級(jí)電源或散熱系統(tǒng),卻具有與NVIDIA DGX A100數(shù)據(jù)中心系統(tǒng)相同的遠(yuǎn)程管理功能。當(dāng)數(shù)據(jù)科學(xué)家和研究人員在家中或?qū)嶒?yàn)室辦公時(shí),系統(tǒng)管理員可輕松地通過遠(yuǎn)程連接,執(zhí)行任何管理任務(wù)。
作為一臺(tái)隨處可得的AI超級(jí)計(jì)算機(jī),性能上的突出表現(xiàn)尤為吸引人。為支持諸如BERT Large推理等復(fù)雜的對(duì)話式AI模型,DGX Station A100比上一代DGX Station提速4倍以上。對(duì)于BERT Large AI訓(xùn)練,其性能提高近3倍。
此外,全新DGX A100 640GB系統(tǒng)也將集成到企業(yè)版NVIDIA DGX SuperPOD解決方案,使機(jī)構(gòu)能基于以20 個(gè)DGX A100系統(tǒng)為單位的一站式AI超級(jí)計(jì)算機(jī),實(shí)現(xiàn)大規(guī)模AI模型的構(gòu)建、訓(xùn)練和部署。
配備A100 80GB GPU的NVIDIA DGX SuperPOD系統(tǒng)將率先安裝于英國的Cambridge-1超級(jí)計(jì)算機(jī),以加速推進(jìn)醫(yī)療健康領(lǐng)域研究,以及佛羅里達(dá)大學(xué)的全新HiPerGator AI超級(jí)計(jì)算機(jī),該超級(jí)計(jì)算機(jī)將賦力這一“陽光之州”開展AI賦能的科學(xué)發(fā)現(xiàn)。
由此可見,新一代DGX Station A100和DGX A100 640GB移動(dòng)數(shù)據(jù)中心的出現(xiàn),將給AI超級(jí)計(jì)算機(jī)的行業(yè)格局帶來一次新的震動(dòng)。全球云觀察分析,這有望將超算從傳統(tǒng)超算時(shí)代推向真正的智能超算時(shí)代,那么英偉達(dá)必定就是其中舉足輕重的使能者之一。同時(shí)AI超算上的創(chuàng)新也將因?yàn)镹VIDIA A100 80GB GPU而再次迎來新的發(fā)展,對(duì)AI超算的行業(yè)應(yīng)用普及帶來了更大的發(fā)展?jié)摿εc空間。
更優(yōu):高效網(wǎng)絡(luò)性能空前
任何超算系統(tǒng),離開了高效的網(wǎng)絡(luò),基本上談不上超算。可見網(wǎng)絡(luò)對(duì)于超算系統(tǒng)整體價(jià)值的貢獻(xiàn)缺一不可。
為此,英偉達(dá)并購Mellanox后,對(duì)于InfiniBand高效網(wǎng)絡(luò)的性能發(fā)揮得到了空前的提升。
400G InfiniBand系統(tǒng)在之前聽說過業(yè)內(nèi)傳聞,沒有想到英偉達(dá)如今很快變成了現(xiàn)實(shí)。“NVIDIA Mellanox 400G InfiniBand的海量吞吐量和智能加速引擎使HPC、AI和超大規(guī)模云基礎(chǔ)設(shè)施能夠以更低的成本和復(fù)雜性,實(shí)現(xiàn)了全球最具挑戰(zhàn)性的網(wǎng)絡(luò)互連性能。”
為了支撐更強(qiáng)更快的AI超算的需要,Mellanox 400G InfiniBand帶來的加速能力也是值得一看。Mellanox NDR 400G InfiniBand交換機(jī),可提供3倍的端口密度和32倍的AI加速能力。并且將框式交換機(jī)系統(tǒng)的聚合雙向吞吐量提高了5倍,達(dá)到1.64 petabits/s,減少交換機(jī)使用量獲得更大工作負(fù)載的支撐,必然對(duì)用戶整體應(yīng)用成本帶來更良好的回報(bào)。
當(dāng)然,好的產(chǎn)品,特別是在行業(yè)領(lǐng)域有著技術(shù)創(chuàng)新領(lǐng)先性的產(chǎn)品,往往贏得市場(chǎng)的認(rèn)同更為廣泛。
從一組財(cái)報(bào)數(shù)據(jù)來看,英偉達(dá)截至2020年7月26日的第二季度財(cái)報(bào),營(yíng)收為38.7億美元,創(chuàng)歷史新高,較去年同期的25.8億美元增長(zhǎng)50%,較上一季度的30.8億美元增長(zhǎng)26%。
其中有一個(gè)關(guān)鍵信息就是該季度數(shù)據(jù)中心方面業(yè)務(wù)收入出奇高增長(zhǎng),財(cái)報(bào)期內(nèi)為17.5億美元,為2019年同期收入6.55億美元的兩倍多。這也是數(shù)據(jù)中心領(lǐng)域帶來的收入首次出現(xiàn)超越英偉達(dá)成立以來的主營(yíng)視頻游戲領(lǐng)域業(yè)務(wù),財(cái)報(bào)期內(nèi)視頻游戲業(yè)務(wù)為16.5億美元。
就此來說,英偉達(dá)在數(shù)據(jù)中心取得高速增長(zhǎng)成績(jī),與收購Mellanox有著密切相關(guān)。
可見,英偉達(dá)Mellanox在高效網(wǎng)絡(luò)方面的性能表現(xiàn),已經(jīng)贏得了用戶的心聲,特別是在超算領(lǐng)域,英偉達(dá)Mellanox的InfiniBand技術(shù)一直備受矚目。
小結(jié):AI超算的未來已來
英偉達(dá)的超算大戰(zhàn)略,必然就是將AI加入到HPC中,并擴(kuò)展至傳統(tǒng)超級(jí)計(jì)算中心之外的平臺(tái),從而引發(fā)了全球AI超算大趨勢(shì)。
與此同時(shí),創(chuàng)新效率超高的英偉達(dá),在加速計(jì)算領(lǐng)域、HPC、網(wǎng)絡(luò)三大領(lǐng)域分別發(fā)布了新一代A100 80GB GPU處理器、新一代DGX StationA100和DGX A100 640GB移動(dòng)數(shù)據(jù)中心、Mellanox 400G InfiniBand系統(tǒng)多款重磅新品,可謂三駕馬車并駕齊驅(qū),以應(yīng)對(duì)全球爆發(fā)式增長(zhǎng)的數(shù)據(jù)處理需求和日益凸顯的機(jī)器學(xué)習(xí)需要。這對(duì)全球超算整體格局的變化,帶來非常積極的推動(dòng)作用。
更強(qiáng)的GPU,更快的AI超算,更優(yōu)的高效網(wǎng)絡(luò),也將成為英偉達(dá)持續(xù)向前發(fā)展的重要三部曲。
責(zé)任編輯:xj
-
gpu
+關(guān)注
關(guān)注
28文章
4753瀏覽量
129065 -
NIVIDA
+關(guān)注
關(guān)注
0文章
9瀏覽量
7211 -
超算
+關(guān)注
關(guān)注
1文章
115瀏覽量
9097
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論