當(dāng)前,AI芯片的功能日益復(fù)雜化、多樣化,一方面,芯片廠商紛紛給出不同的衡量標(biāo)準(zhǔn),聲稱其產(chǎn)品在計(jì)算性能、單位能耗算力等方面處于行業(yè)領(lǐng)先水平;另一方面,用戶卻關(guān)心如何能從廠商給出的信息中判斷出芯片是否能實(shí)際滿足其真實(shí)場(chǎng)景的計(jì)算需求。
因此,成立于2018年5月的行業(yè)基準(zhǔn)測(cè)試組織MLPerf推出了MLPerf基準(zhǔn)測(cè)試,MLPerf基準(zhǔn)測(cè)試是業(yè)內(nèi)首套衡量機(jī)器學(xué)習(xí)軟硬件性能的通用基準(zhǔn),即訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)在不同量級(jí)的設(shè)備(物聯(lián)網(wǎng)、智能手機(jī)、PC、服務(wù)器)、各種應(yīng)用(自動(dòng)駕駛、NLP、計(jì)算機(jī)視覺)上處理新數(shù)據(jù)的速度。MLPerf現(xiàn)有50多家成員,包括谷歌、微軟、Facebook、阿里巴巴等企業(yè),以及斯坦福、哈佛、多倫多大學(xué)等高校,并跟隨AI的發(fā)展步伐持續(xù)演進(jìn)。
根據(jù)近日發(fā)布的MLPerf基準(zhǔn)測(cè)試結(jié)果顯示,內(nèi)置超過2000個(gè)NVIDIA A100 GPU的NVIDIA全新DGX SuperPOD在市售商用產(chǎn)品中脫穎而出,在各項(xiàng)針對(duì)大規(guī)模計(jì)算性能的MLPerf基準(zhǔn)測(cè)試中均取得了優(yōu)異成績(jī)。此次已是NVIDIA在MLPerf訓(xùn)練測(cè)試中連續(xù)第三次展現(xiàn)了最強(qiáng)勁的性能。2018年12月,NVIDIA首次在MLPerf訓(xùn)練基準(zhǔn)測(cè)試中創(chuàng)下了六項(xiàng)紀(jì)錄,次年7月NVIDIA再次創(chuàng)下八項(xiàng)紀(jì)錄。
NVIDIA在測(cè)試中用到的產(chǎn)品基于最新NVIDIA Ampere架構(gòu)以及Volta架構(gòu)。A100 Tensor Core GPU在加速器的全部八項(xiàng)MLPerf基準(zhǔn)測(cè)試中展現(xiàn)了最快的性能。在實(shí)現(xiàn)總體最快的大規(guī)模解決方案方面,利用HDR InfiniBand實(shí)現(xiàn)多個(gè)DGX A100系統(tǒng)互聯(lián)的龐大集群——DGX SuperPOD系統(tǒng)在性能上,也開創(chuàng)了八項(xiàng)全新里程碑。
NVIDIA是唯一一家在所有測(cè)試中均采用市售商用產(chǎn)品的公司。其他大多數(shù)提交使用的要么是預(yù)覽類別(preview category),其所用的產(chǎn)品預(yù)計(jì)需要幾個(gè)月后才會(huì)面市,要么使用的是研究類別的產(chǎn)品,更是較長(zhǎng)一段時(shí)間內(nèi)都不會(huì)面市。
速度與規(guī)模兼得的DGX SuperPOD架構(gòu)
NVIDIA在Selene上運(yùn)行了系統(tǒng)的MLPerf測(cè)試,Selene是基于DGX SuperPOD的內(nèi)部集群。DGX SuperPOD是針對(duì)大規(guī)模GPU集群的公共參考架構(gòu),NVIDIA DGX SuperPOD基于NVIDIA DGX A100系統(tǒng)。NVIDIA DGX A100在一臺(tái)6U服務(wù)器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網(wǎng)絡(luò)技術(shù),可以為高性能計(jì)算、數(shù)據(jù)分析和AI工作(包括訓(xùn)練和推理)等多種組合提供加速,并實(shí)現(xiàn)快速部署。
Selene最近在TOP500榜單中首次亮相,憑借百億億次(exaflops)級(jí)別的AI性能,成為美國(guó)最快的工業(yè)系統(tǒng)。它也是Green500榜單中全球第二大節(jié)能系統(tǒng)。除了出色的能效表現(xiàn),Selene的快速部署能力也是令人刮目相看。工程師們可以使用NVIDIA的模塊化參照架構(gòu),在不到四周的時(shí)間內(nèi)就能快速構(gòu)建Selene。4名操作人員僅需不到1個(gè)小時(shí),就能組裝起一套由20臺(tái)系統(tǒng)組成的DGX A100集群,創(chuàng)建出一套性能可以達(dá)到2petaflops的系統(tǒng)。
目前,客戶已經(jīng)采用這些參考架構(gòu)來構(gòu)建自身的DGX POD和DGX SuperPOD。其中包括美國(guó)最快的學(xué)術(shù)領(lǐng)域AI超級(jí)計(jì)算機(jī)HiPerGator,該超級(jí)計(jì)算機(jī)也將成為佛羅里達(dá)大學(xué)跨學(xué)科AI創(chuàng)新的基石。
同時(shí),全球領(lǐng)先的超算中心Argonne國(guó)家實(shí)驗(yàn)室正在使用DGX A100,尋找抗擊COVID-19疫情的方法。Argonne國(guó)家實(shí)驗(yàn)室是六個(gè)首批采用A100 GPU的高性能計(jì)算中心中的先行者之一。
DGX SuperPOD現(xiàn)已助力汽車領(lǐng)域的大陸集團(tuán)、航空航天領(lǐng)域的Lockheed Martin和云計(jì)算服務(wù)領(lǐng)域的微軟等公司取得了良好的業(yè)務(wù)成果。這些系統(tǒng)的順利運(yùn)轉(zhuǎn),部分得益于其廣泛的生態(tài)系統(tǒng)對(duì)于NVIDIA GPU和DGX支持。
軟硬結(jié)合一年半內(nèi)實(shí)現(xiàn)4倍性能提升
MLPerf最新基準(zhǔn)測(cè)試包含兩項(xiàng)新的測(cè)試和一項(xiàng)經(jīng)大幅修訂的測(cè)試。NVIDIA在這三項(xiàng)測(cè)試中均取得了優(yōu)異的成績(jī)。其中,一項(xiàng)基準(zhǔn)測(cè)試對(duì)推薦系統(tǒng)的性能進(jìn)行了排名。推薦系統(tǒng)是日益普及的一項(xiàng)AI任務(wù)。另一項(xiàng)基準(zhǔn)測(cè)試對(duì)使用BERT的對(duì)話式AI進(jìn)行了測(cè)試。BERT是現(xiàn)有最復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型之一。最后,強(qiáng)化學(xué)習(xí)測(cè)試中使用了Mini-go和全尺寸19x19圍棋棋盤。該測(cè)試是本輪最復(fù)雜的測(cè)試,內(nèi)容涵蓋從游戲到訓(xùn)練的多項(xiàng)操作。
最新結(jié)果表明,NVIDIA聚焦于不斷發(fā)展跨處理器、網(wǎng)絡(luò)、軟件和系統(tǒng)的AI平臺(tái)。例如,測(cè)試結(jié)果顯示,相較于首輪MLPerf訓(xùn)練測(cè)試中使用的基于V100 GPU的系統(tǒng),如今的DGX A100系統(tǒng)能夠以相同的吞吐率,實(shí)現(xiàn)高達(dá)4倍的性能提升。同時(shí),得益于最新的軟件優(yōu)化,基于NVIDIA V100的DGX-1系統(tǒng)亦可實(shí)現(xiàn)高達(dá)2倍的性能提升。
不到兩年,整個(gè)AI平臺(tái)的創(chuàng)新就取得了如此優(yōu)異的成績(jī)。如今,NVIDIA A100 GPU搭配CUDA-X庫(kù)的軟件更新,為通過Mellanox HDR 200Gb/s InfiniBand網(wǎng)絡(luò)構(gòu)建的擴(kuò)展集群注入了強(qiáng)勁動(dòng)力。HDR InfiniBand可實(shí)現(xiàn)極低的延遲和高數(shù)據(jù)吞吐量,同時(shí)通過可擴(kuò)展分層聚合和縮減協(xié)議(SHARP)技術(shù),提供智能深度學(xué)習(xí)計(jì)算加速引擎。
NVIDIA Ampere市場(chǎng)采用速度刷新紀(jì)錄
A100是首款基于NVIDIA Ampere架構(gòu)的處理器。得益于其諸多創(chuàng)新,NVIDIA A100集合了AI訓(xùn)練和推理,其性能相比于前代產(chǎn)品提升了高達(dá)20倍。
NVIDIA Ampere GPU采用了7納米制程工藝,包含超過540億個(gè)晶體管,這樣的數(shù)據(jù)足以令人乍舌。而NVIDIA廣泛采用的Tensor Core核心也獲得了更新,具有TF32的第三代Tensor Core核心能在無需更改任何代碼的情況下,使FP32精度下的AI性能提高多達(dá)20倍。此外,Tensor Core核心現(xiàn)在支持FP64精度,相比于前代,其為HPC應(yīng)用所提供的計(jì)算力比之前提高了多達(dá)2.5倍。
同時(shí),全新Ampere架構(gòu)搭載了多實(shí)例GPU(MIG)、第三代NVIDIA NVLin、結(jié)構(gòu)化稀疏等技術(shù)。其中MIG技術(shù)可以將單個(gè)A100 GPU分割為多達(dá)七個(gè)獨(dú)立的GPU,為不同規(guī)模的工作提供不同的計(jì)算力,以此實(shí)現(xiàn)最佳利用率和投資回報(bào)率的最大化。而第三代NVIDIA NVLink使GPU之間的高速聯(lián)接增加至原來的兩倍,實(shí)現(xiàn)服務(wù)器的高效性能擴(kuò)展。第三代NVIDIA NVLink互聯(lián)技術(shù)能夠?qū)⒍鄠€(gè)A100 GPU合并成一個(gè)巨大的GPU來執(zhí)行更大規(guī)模的訓(xùn)練任務(wù)。
A100不僅打破了性能紀(jì)錄,其進(jìn)入市場(chǎng)的速度也比以往任何NVIDIA GPU更快。A100在發(fā)布之初用于NVIDIA的第三代DGX系統(tǒng)。正式發(fā)布僅六周后,A100就正式登陸了Google Cloud 。
為了滿足市場(chǎng)的強(qiáng)勁需求,AWS、百度云、微軟Azure和騰訊云等全球領(lǐng)先的云提供商,以及Dell Technologies、HPE、浪潮和超微等數(shù)十家主要服務(wù)器制造商,均采用了A100。全球用戶都在使用A100以應(yīng)對(duì)AI、數(shù)據(jù)科學(xué)和科學(xué)計(jì)算中最為復(fù)雜的挑戰(zhàn),包括新一代的推薦系統(tǒng)或?qū)υ捠紸I應(yīng)用,或進(jìn)一步探索COVID-19的治療方法。
阿里巴巴在11月的“雙十一”期間創(chuàng)造了380億美元的銷售紀(jì)錄,其推薦系統(tǒng)使用了NVIDIA GPU,使每秒查詢量達(dá)到了CPU的100倍以上。而對(duì)話式AI自身也成為了業(yè)界關(guān)注的焦點(diǎn),推動(dòng)從金融到醫(yī)療健康等行業(yè)的業(yè)務(wù)發(fā)展。
今年五月,NVIDIA發(fā)布了兩個(gè)應(yīng)用框架——用于對(duì)話式AI的Jarvis和用于推薦系統(tǒng)的Merlin。 Merlin中包含了助力最新MLPerf基準(zhǔn)測(cè)試結(jié)果的HugeCTR訓(xùn)練框架。這些應(yīng)用框架僅僅是一部分。在不斷壯大的應(yīng)用框架中,還有面向汽車行業(yè)市場(chǎng)的NVIDIA DRIVE,面向醫(yī)療健康市場(chǎng)的Clara,面向機(jī)器人技術(shù)市場(chǎng)的Isaac,以及面向零售/智能城市市場(chǎng)的Metropolis。
NVIDIA生態(tài)系統(tǒng)賦能AI產(chǎn)業(yè)
事實(shí)上,NVIDIA的GPU成為人工智能的基石,一方面是其在GPU上面的持續(xù)創(chuàng)新,更因?yàn)槠渖鷳B(tài)系統(tǒng)。在提交結(jié)果的九家公司中,除NVIDIA外還有六家公司提交了基于NVIDIA GPU的測(cè)試結(jié)果,其中包括三家云服務(wù)提供商(阿里云、谷歌云和騰訊云)和三家服務(wù)器制造商(戴爾、富士通和浪潮),凸顯了NVIDIA生態(tài)系統(tǒng)的優(yōu)勢(shì)。
這些合作伙伴大多采用了NVIDIA軟件中心NGC中的容器,以及用于參賽的公開框架。包括這些MLPerf合作伙伴在內(nèi)的近二十家云服務(wù)提供商和OEM組成的生態(tài)系統(tǒng),已采用或計(jì)劃采用NVIDIA A100 GPU來打造在線實(shí)例、服務(wù)器和PCIe卡。
現(xiàn)在,大多數(shù)NVIDIA及其合作伙伴在最新MLPerf基準(zhǔn)測(cè)試中使用的軟件,已可通過NGC獲取。NGC中包括多個(gè)GPU優(yōu)化的容器、軟件腳本、預(yù)訓(xùn)練模型和SDK,可助力數(shù)據(jù)科學(xué)家和開發(fā)者在TensorFlow和PyTorch等常用框架上加速AI工作流程。
結(jié)語(yǔ)
目前人工智能將成為新一輪產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力,從MLPerf基準(zhǔn)測(cè)試結(jié)果可以看到NVIDIA最新一代A100 GPU的強(qiáng)大AI性能,這為用戶進(jìn)行AI選型提供了參考依據(jù),更好地支撐AI應(yīng)用的創(chuàng)新實(shí)踐,推動(dòng)整個(gè)AI產(chǎn)業(yè)鏈的發(fā)展。
? ? ? ?責(zé)任編輯:pj
評(píng)論
查看更多