NVIDIA為全球最快的10臺超級計算機中的8臺提供加速。NVIDIA Selene成為美國速度最快的工業系統,同時具有領先水平的能效表現。
最新TOP500超級計算機榜單展現了現代科學計算的整體情況:通過AI和數據分析進行擴展并使用NVIDIA技術提供加速。
目前,全球排名前十的超級計算機中有8臺采用了NVIDIA GPU、InfiniBand網絡技術,或同時采用了兩種技術。其中包括美國、歐洲和中國最強大的超級計算機系統。
在TOP500榜單的所有系統中,有三分之二的系統(333套)采用了NVIDIA(現已與Mellanox合并)為其賦力。而在2017年6月發布的榜單上,采用兩家公司的系統占比總和還不到一半(203套)。
如今,榜單上有將近四分之三(74%)的全新InfiniBand系統采用了NVIDIA Mellanox HDR 200G InfiniBand,這也展現了該最新智能高速數據互連技術的迅速普及。
自2019年以來,榜單上使用HDR InfiniBand的TOP500系統數量幾乎增加了一倍。共有141臺超級計算機使用了InfiniBand,自2019年6月以來增長了12%。
越來越多TOP500系統采用了NVIDIA GPU、Mellanox網絡技術,或同時采用了這兩種技術。
在TOP500超級計算機中,有305套系統使用了NVIDIA Mellanox InfiniBand和Ethernet網絡(占61%),包括所有141套InfiniBand系統和164套(占63%)使用Ethernet的系統。
在能效方面,使用NVIDIA GPU的系統表現也都脫穎而出。與不使用NVIDIA GPU的系統相比,其能效(以gigaflops/watt為單位)平均高出2.8倍。
這也是為何排在TOP500榜單前25的超級計算機中有20臺系統都選擇采用NVIDIA GPU的原因之一。
NVIDIA GPU提高了TOP500超級計算機的能效。
最能夠證明此能效表現的是NVIDIA內部研究集群的新成員—— Selene(如上圖所示)。該系統在Linpack基準測試中以27.5 petaflops的性能表現,在最新Green500榜單中排名第二,在整個TOP500榜單中排名第七。
Selene的功耗為20.5 gigaflops/watt,與Green500榜單上的第一名相差甚微,但排名第一的系統體積更小,其性能表現僅排在第394位。
Selene是排名前100系統中唯一突破20 gigaflops/watt能效表現大關的系統,同時也是全球性能排名第二的工業超級計算機,僅次于意大利能源巨頭Eni S.p.A.的NO. 6 系統(同樣使用了NVIDIA GPU)。
在能效方面,相比于未使用NVIDIA GPU的其它TOP500系統的平均能效表現,Selene的能效高出了6.8倍。Selene的優異性能和能效均要歸功于NVIDIA A100 GPU中的第三代Tensor Core核心。該核心可以為傳統的64位數學模擬及精度較低的AI工作提供加速。
Selene所取得的名次對于它來說已經是一項了不起的成就了,畢竟該系統只用了不到4周的時間就構建完成了。工程師們可以使用NVIDIA的模塊化參照架構,快速構建Selene。
該參考架構既NVIDIA的DGX SuperPOD。該系統基于強大而靈活的現代數據中心構建模塊 —— NVIDIA DGX A100系統。
高度靈活的DGX A100系統現已上市。該系統在一臺6U服務器中集成了8顆A100 GPU以及NVIDIA Mellanox HDR InfiniBand網絡技術,可以為高性能計算、數據分析和AI工作(包括訓練和推理)等多種組合提供加速,并實現快速部署。
從系統擴展至SuperPOD
參照該參考架構設計,任何企業機構都可以快速搭建屬于其自己的世界級計算集群。參照設計展示了如何像搭積木一樣使用高性能NVIDIA Mellanox InfiniBand交換機連接20臺DGX A100系統。
InfiniBand為排名前10的超級計算機中的7臺提速,其中包括中國、歐洲和美國性能最強大的系統。
4名操作人員僅需不到1個小時,就能組裝起一套由20臺系統組成的DGX A100集群,創建出一套性能可以達到2-petaflops的系統,如此性能表現足以被列入TOP500榜單當中了。此類系統能夠在標準數據中心的功率和散熱能力承擔范圍內輕松運行。
通過添加NVIDIA Mellanox InfiniBand交換機層,工程師將14套分別配置有20臺DGX A100系統的模塊組相連接,從而創造出了Selene。Selene系統具有:
280臺 DGX A100系統
2240顆NVIDIA A100 GPU
494臺NVIDIA Mellanox Quantum 200G InfiniBand交換機
56 TB/s的網絡架構
7PB的高性能全閃存
Selene最重要的性能規格之一是可以提供超過1 exaflops的AI性能。此外,在TPCx-BB關鍵數據分析基準測試中,其僅使用了16臺DGX A100系統就創造了新紀錄,其性能表現高出其他系統20倍。
如今,AI和分析已成為科學計算中的新需求,因此這些結果也顯得格外重要。
在全球各地,研究者正在使用深度學習和數據分析預測各種最具潛力的領域,并進而開展實驗。這一方法能夠幫助研究者減少成本高昂且費時的實驗量,從而加快取得科學成果的速度。
例如,目前有6臺在建系統雖然沒有出現在此次TOP500榜單中,但它們都采用了NVIDIA于上月發布的A100 GPU。這些系統將被用于加速HPC和AI的融合,開辟科學研究的新時代。
TOP500擴展科學計算應用
在這些系統當中,其中一臺位于美國阿貢國家實驗室(Argonne National Laboratory)。該機構的研究者將使用24臺NVIDIA DGX A100系統組成的集群對數十億種藥物進行掃描,以尋找COVID-19的治療方法。
阿貢國家實驗室的計算生物學家Arvind Ramanathan在有關A100 GPU的首批用戶報告中表示:“這項工作中的一大難點在于在計算機上進行模擬,因此我們運用AI來指導下一步的采樣地點和時間。”
美國國家能源研究科學計算中心(NERSC)正在將AI應用于幾個針對Perlmutter的項目中,Perlmutter是該中心的pre-exascale系統,擁有6200顆A100 GPU。
例如,其中一個項目將使用強化學習來控制光源實驗,另有一個項目將使用生成模型在高能物理探測器上重現復雜的模擬。
為了加快新冠病毒蛋白的分析速度,慕尼黑的研究者們正在依靠Summit超級計算機中的6000顆GPU訓練自然語言模型。有跡象表明,領先的TOP500系統正在超越使用雙精度數學運行的傳統模擬。
AI、數據分析和邊緣串流正在重新定義科學計算。
隨著向深度學習和分析的擴展,科學家們也在運用云計算服務,甚至運用來自于網絡邊緣的遠程儀器的流式數據。這些要素共同構成了NVIDIA所加速的現代科學計算的四個支柱:
模擬:在抗擊新冠病毒的過程中,橡樹嶺國家實驗室(Oak Ridge National Laboratory)的研究者使用Summit超級計算機的內置GPU運行AutoDock,在24小時內模擬了20億種化合物。
AI和數據分析:Spark 3.0 為關鍵且耗時的機器學習處理流程前端提供GPU加速。
科學邊緣串流:歐洲核子研究所(CERN)最近宣布,NVIDIA GPU將使其大型強子對撞機內粒子碰撞事件產生的數據量減少500倍。
可視化:NVIDIA的IndeX和Magnum IO軟件幫助增強火星登陸者號的可視化功能,這是全球規模最大的交互式實時立體可視化項目。
這些都表明研究者和企業都迫切需要從云到網絡邊緣的AI和分析加速,這也是為什么全球最大的云服務提供商以及全球頂尖的OEM廠商們都在采用NVIDIA GPU的原因。
此外,最新的TOP500榜單也以另一這種方式說明了NVIDIA為實現AI和HPC民主化所付出的努力。任何想要在計算能力上領先一步的公司都可以使用NVIDIA技術,如為全球最強大的系統提供支持的DGX系統。
最后,NVIDIA要向排名第一的日本Fugaku超級計算機的幕后工程師們表示祝賀,這表明Arm正在變得日益實用并且已經成為高性能計算的可行選擇。這也是NVIDIA在去年宣布為Arm處理器架構提供CUDA加速計算軟件的原因之一。
責任編輯:pj
-
gpu
+關注
關注
28文章
4768瀏覽量
129227 -
超級計算機
+關注
關注
2文章
464瀏覽量
41986 -
AI
+關注
關注
87文章
31490瀏覽量
269915
發布評論請先 登錄
相關推薦
評論