將HPC的超高算力搬到云上,什么技術路子這么強?
云是未來,這在全球各大科技巨頭的最新財報中已經得到明確的驗證。最新財季,AWS凈銷售額同比增長27%,微軟智能云收入同比增長20%,谷歌云收入同比增長37%,阿里云營收同比增長4%,百度智能云營收同比增長24%……
承載著“讓算力資源大眾化”使命的云計算,形成了撐起科技巨頭未來的新型支柱業務。而要持續拉高算力峰值、提高客戶上云服務體驗,推進架構層的變革已是箭在弦上。
技術迭代的洪流滾滾向前,被冠以數據中心“第三顆主力芯片”的DPU,正成為傳統云計算架構向云原生超級計算升級的“底牌”。
01.
數據中心下一站:云原生超級計算
云是未來,已是無可爭議。但如何通過云服務向暴漲的用戶同時提供更大規模的算力支持,是擺在每個云大廠面前的核心議題。
▲當前云和數據中心面臨平衡性能與能耗的挑戰(圖源:NVIDIA)
云服務的優勢是隨用隨取、按需分配算力,高性能計算則擁有強大算力。一種“優勢互補”的思路開始走向落地:如果將兩者的技術路線結合,是不是就能在云上提供媲美超級計算機的性能?
乍一想可行,但落到實處,需解決很多的技術挑戰。在傳統云原生的算力基礎設施中,CPU是事無巨細的芯片“大總管”,既要處理計算任務,又要監管通信和存儲,忙著這頭,就顧不上那頭,中間造成大量的排隊等待時間和算力資源浪費。
這就好比餐廳,規模小、顧客少時,一位大廚還能忙得過來。此時這位大廚包攬了后廚的所有工作,除了忙著炒菜外,還操心采買、倉儲、切配、端菜等等。然而等顧客越來越多,如果還靠他一手包辦,那么炒菜效率就低了,每個顧客的等菜時間都長,體驗都不好。
為解決這些痛點而生的云原生超級計算架構,正在云計算數據中心流行開來。
▲云原生超級計算架構(圖源:NVIDIA)
云原生超級計算的核心思路是“分而治之”,相當于給廚師配上幫廚、服務員等專業幫手,這樣一來,廚師能夠專心把菜炒得又快又好。
如今,越來越多的商業云開始提供高性能計算(HPC)云服務,大型算力中心也產生更多的上云需求。主要承擔HPC和大型人工智能(AI)訓練任務的算力中心,本身算力資源池非常大,存在算力資源閑置問題。
而引入云原生超級計算技術,可以將算力資源切分供給多用戶多業務,通過編排調度,讓每個業務都能享有堪比獨占所有資源時的高性能。
無論是從提升性能、優化設計,亦或是從節能減排的角度,云原生超級計算對于商業云和大型算力中心的架構優化思路都很有借鑒價值。
02.
給高性能業務上云開路!
解讀云原生超級計算的靈魂
云原生超級計算請的專業幫手,就是DPU。
作為替CPU分攤工作的輔助“大腦”,DPU接手了通信、存儲、安全等任務,讓CPU能專心處理用戶業務,這樣各種計算和通信任務就可以同步進行,不再像以往那樣出現擁堵問題。
▲典型的DPU/DOCA卸載及加速通信流程示意圖(圖源:NVIDIA)
經過兩年發展,這個被AI計算巨頭NVIDIA(英偉達)帶火的芯片新秀,已經開始廣泛落地于云計算和高性能計算的算力基礎設施建設大潮中。
具體而言,NVIDIA BlueField DPU對數據中心的最大價值,就是實現性能和能效的顯著提升。
首先是性能,提升數據中心整體性能的一大關鍵阻力是網絡。原本計算能力有十成,多個任務同時處理后,CPU處理這個計算任務或者管理調配通信、存儲等資源時,另一個計算任務就只能浪費時間等待。此外,如果兩個任務在通信過程中狹路相逢,造成網絡阻塞,那么就會造成延時。在金融銀行等對延時高度敏感的應用場景中,這可能給客戶交易造成損失。
而在 NVIDIA BlueField DPU主管網絡、存儲等基礎架構功能后,不僅CPU可以將更多計算資源用在云服務客戶的業務上,整體網絡阻塞問題得到明顯改善,而且BlueField DPU本身攜帶的計算資源也可以輔助加速計算。
▲典型的DPU/DOCA卸載及加速通信流程示意圖(圖源:NVIDIA)
再從能效來看,隨著數據中心規模越來越大,改善耗電量、降低基礎設施采購和降低電力成本,已經是優化現代數據中心和主要目標。
引入NVIDIA BlueField DPU,已是較大數據中心提升系統能效的有效途徑之一。在運行基礎設施任務時,內置專用硬件引擎的NVIDIA BlueField DPU,效率要比CPU高得多。此外,NVIDIA BlueField DPU上的CPU核心采用Arm架構,天然比多數x86服務器CPU更加節能,并且可以直接訪問網絡管線。
換個角度來看,同樣的CPU數量,將計算資源更集中的供給云服務業務后,能夠提供更高性能。反過來,實現相同的性能,其實要比以前消耗更少的CPU,這相當于減少了硬件采購成本,進而有助于大幅降低總體擁有成本(TCO)。
根據《NVIDIA BlueField DPU能效白皮書》,通過用NVIDIA BlueField DPU卸載,在3年期間將1萬臺服務器的每臺服務器耗電量降低200W,可在中國地區節省的成本估算值接近400萬美元(近2800萬人民幣)。
▲根據2020/2021年電價,在不同國家/地區,通過使用DPU卸載在3年期間將1萬臺服務器的每臺服務器耗電量降低200瓦,可節省的成本估算值(圖源:NVIDIA DPU能效白皮書)
如果為擁有1萬臺服務器的大型數據中心計算,將IPsec加密/解密卸載到NVIDIA DPU,那么大型數據中心的3年TCO有望節省約2630萬美元(折合約1.8億人民幣)。
▲為擁有1萬臺服務器的大型數據中心計算將IPSec加密/解密卸載到BlueField DPU的TCO(圖源:NVIDIA DPU能效白皮書)
如此顯著的成本優化,得益于英偉達極有遠見的前瞻性布局:將硬件做到業界性能標桿,用軟件培養開發者習慣,從而構建一個普適的高性能生態環境。
03.
開業界先例
實現公有云上的業務性能隔離
與GPU如出一轍,提及DPU,英偉達絕對是被最先想起的公司,足見英偉達在業界的影響力。
而軟硬“雙劍合璧”,加上在生態合作和口碑方面的優勢滾雪球般越滾越大,長期是英偉達能夠站在潮頭、難以復制的殺手锏。
硬件上,NVIDIA BlueField DPU在本地Host Memory和遠端Host Memory之間建立了一條直接的通信通道,整個過程不需要CPU分神參與任何通信操作,并通過提供Pre-Active擁塞控制技術實現性能隔離。
▲DPU硬件與DOCA軟件協作(圖源:NVIDIA)
而硬件性能的充分發揮,離不開大量的軟件工作。針對BlueField DPU,英偉達打造了NVIDIA DOCA來提供各種加速庫及標準編程接口,為其客戶不斷降低相應應用的DPU開發門檻。
再加上與英偉達其他先進網絡技術的協同配合,數據中心的網絡頑疾得以有效優化,能夠更充分地發揮硬件資源的性能。
這些優勢的疊加,推動云原生超級計算技術走向落地。最新典例便是在HPC云服務方面一馬當先的云巨頭微軟智能云Azure,在英偉達BlueField DPU相關產品及技術的支持下,它在業界率先實現了公有云上的業務性能隔離。
也就是說,讓業務在云上擁有像獨享資源時一樣的高性能水平,已經從設想轉變為現實。
▲借助云原生超級計算技術,Azure在業界率先實現公有云上的業務性能隔離(圖源:NVIDIA)
NVIDIA網絡亞太區高級總監宋慶春告訴芯東西,如果現有公有云想將計算平臺升級向云原生超級計算,可以先從英偉達BlueField DPU或標準網卡著手,在體驗到相應的技術優勢后,在逐步演進至更多網絡計算技術的替換,最終改造成基于云原生超級計算的最優計算平臺。
目前云原生超級計算主要應用于面向高性能業務的上云,包括傳統高性能計算業務(如氣象預測、石油勘探、生命科學等應用)、大規模AI訓練任務、推薦任務等,并通過多項測試,驗證了NVIDIA BlueField DPU在提升數據中心性能和能效的真本事。
例如,VMware和英偉達在服務器上測試Redis鍵值存儲的測試表明,在25Gb/s網絡上運行Redis工作負載的VMware vSphere分布式服務引擎時,將網絡功能卸載到NVIDIA BlueField DPU上,可釋放12個CPU核心,同時提高Redis的性能。
相比不使用DPU,使用NVIDIA BlueField DPU卸載,可為近萬臺服務器3年節省約5650萬美元(近4億人民幣)的總體擁有成本。
▲將VMware ESX網絡功能卸載到DPU后的TCO計算結果,其中Redis工作負載最初運行在1萬臺服務器上,并支持每臺服務器每秒處理1400萬個Redis事務(圖源:NVIDIA DPU能效白皮書)
面向大型科研項目,通過DPU加速通信,分子動力學模型性能可提升20%,數據建模應用實現26%的性能提升,天氣預告模型實現約24%的性能提升。即將走向市場的NVIDIA BlueField-3 DPU將支持400G帶寬,內存平衡較上一代提升4倍。
▲DPU卸載和加速帶來的高性能計算性能優勢(圖源:NVIDIA)
內置NVIDIA BlueField DPU的NVIDIA Quantum InfiniBand網絡平臺,也已經在超級計算領域功勛赫赫,并在全球超算榜單中展現出越來越高的存在感。以最新全球IO500高性能存儲網絡方案榜單為例,10節點測試中,前4名系統均采用NVIDIA Quantum InfiniBand網絡。
▲2022年11月全球IO500高性能存儲網絡方案榜單(圖源:NVIDIA)
04.
結語:釋放云的力量
奔赴新型數據中心未來
2020年秋季,當“芯片圈知名帶貨王”NVIDIA首席執行官黃仁勛在GTC大會上亮出DPU時,DPU對于不少云計算及超級計算從業者來說還是一個新鮮但不確定有多大價值的新概念。
今天,再談起DPU,你也許會想起AWS Nitro,也許會想起阿里云CIPU,會想起英特爾IPU,抑或是這兩年突然涌起的DPU創業與投資熱潮。而引爆DPU概念的NVIDIA,已經低調地將重心轉向部署,讓“第三顆主力芯片”真槍實彈地進入一線數據中心客戶的真實業務戰場,作為云原生超級計算的靈魂,為數據中心展現新的架構可能。
如今,DPU正呈“神仙打架”之勢,通過推動網絡和計算架構的創新,它將幫助大型數據中心的建設者們穿越周期,奔赴一個高計算密度、智能集約、綠色低碳、安全可靠的數據中心未來。
審核編輯 :李倩
-
云計算
+關注
關注
39文章
7854瀏覽量
137679 -
數據中心
+關注
關注
16文章
4843瀏覽量
72285 -
DPU
+關注
關注
0文章
366瀏覽量
24226
原文標題:三年節省上億人民幣!DPU如何改造大型數據中心?
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論