2022年第三季度,英偉達(dá)營收達(dá)到59.31億美元,其中數(shù)據(jù)中心業(yè)務(wù)貢獻(xiàn)了38.3億美元,同比增長31%,再度成為英偉達(dá)最強大的收入來源。
作為數(shù)據(jù)中心的「扛把子」芯片,DPU已經(jīng)成為英偉達(dá)戰(zhàn)略布局的重中之重。但除了高性能之外,DPU其實還抓住了現(xiàn)代數(shù)據(jù)中心的一個最大痛點:節(jié)能。
在各大科技公司紛紛「降本增效」的2022年,綠色與節(jié)能,比往年受到了更多人的關(guān)注。
數(shù)據(jù)中心的最大「殺手」
數(shù)字化經(jīng)濟時代,數(shù)據(jù)成為重要資源。就拿每天都在使用的手機為例,無論是瀏覽各種APP產(chǎn)生的交互,還是瀏覽圖片、播放視頻,抑或是微信端的聊天記錄,本質(zhì)上都是大量的數(shù)據(jù)。而這些數(shù)據(jù)的傳輸、處理、計算、存儲,很大程度上都需要數(shù)據(jù)中心來完成。
現(xiàn)在,數(shù)據(jù)中心成為匯聚所有數(shù)據(jù)的核心。隨著全球數(shù)據(jù)量的爆發(fā)性增長,數(shù)據(jù)中心的規(guī)模也在不斷擴大。
之前的文章里我們就介紹過,性能早就不是衡量數(shù)據(jù)中心的唯一標(biāo)準(zhǔn)、甚至不是最重要的標(biāo)準(zhǔn)。建設(shè)一個現(xiàn)代化數(shù)據(jù)中心,它能提供的算力大小固然重要,但還有很多因素同樣重要,首當(dāng)其沖的就是:耗電。
全球能源的大部分電能消耗均來自大型數(shù)據(jù)中心。有調(diào)查顯示,目前數(shù)據(jù)中心的耗電量占全球發(fā)電量的比例高于1%,而這一占比在美國為 1.8%、在歐洲為 2.7%。在 2015 年有報告數(shù)據(jù)就預(yù)計,到 2030 年,數(shù)據(jù)中心消耗的電量占全球發(fā)電量的比例將上升到 8%~13%。
2020年,中國數(shù)據(jù)中心年度用電總量已達(dá)至1380億度,占我國全社會用電量的2%。高昂的電費已經(jīng)成為數(shù)據(jù)中心運行成本的大頭,約占60%~70%。
有點諷刺的是,全球經(jīng)濟與科技的發(fā)展,已經(jīng)越來越追求綠色和低碳。但驅(qū)動這些技術(shù)發(fā)展的數(shù)據(jù)中心,卻成為當(dāng)今消耗電力和能源最多的場景之一。
問題就來了:如何解決數(shù)據(jù)中心的耗電難題?目前業(yè)界主要有兩種方法。
首先,就是把數(shù)據(jù)中心搬到電費更便宜的地方。比如我國的貴州、內(nèi)蒙等地,就建了不少數(shù)據(jù)中心,很重要的考慮就是利用當(dāng)?shù)馗阋说碾娰M,拉低數(shù)據(jù)中心的運營成本。我國現(xiàn)在已經(jīng)開始推進的「東數(shù)西算」工程,一個很重要的考慮也是把更多算力放在更便宜的地方,從而促進國家算力網(wǎng)更加平衡的發(fā)展。
但是不難看出,數(shù)據(jù)中心「搬家」,其實并沒有從根本上解決數(shù)據(jù)中心的高能耗,只是降低了使用能源的成本。所以并不能作為唯一的解決方案。
第二,就是在數(shù)據(jù)中心的架構(gòu)設(shè)計上做文章。常見的方法包括提高冷卻效率、采用智能電源管理系統(tǒng)提高電源使用率、提高每臺機器的負(fù)載利用率等等。這些方法在某種程度上觸及到問題的本質(zhì),并且可以將數(shù)據(jù)中心的能耗降低不少。
不過隨著數(shù)據(jù)中心的不斷發(fā)展,新的問題又出現(xiàn)了。2012年,業(yè)界首次提出「數(shù)據(jù)中心稅」的概念。它指的是數(shù)據(jù)中心里存在大量「基礎(chǔ)設(shè)施」,也就是前面說的對數(shù)據(jù)進行傳輸、存儲、計算的軟硬件。對于用戶來說,這些基礎(chǔ)設(shè)施是不可見的,但用戶仍然需要為它們付費。
就像在超市買個面包,它的標(biāo)價其實包含了面包的成本、運輸、儲藏這一系列費用,甚至也包括超市的電費、房租等這些和面包沒什么關(guān)系的費用分?jǐn)偂?/p>
有研究顯示,目前「數(shù)據(jù)中心稅」已經(jīng)達(dá)到30%。也就是說,用戶花100元買數(shù)據(jù)中心服務(wù),有30元其實都是花在了數(shù)據(jù)中心的基礎(chǔ)設(shè)施成本上。
究其原因,就是傳統(tǒng)的數(shù)據(jù)中心硬件不能滿足日益增長的計算存儲和傳輸需求了,造成了費力不討好的尷尬局面。一方面花了大量資源去支撐基礎(chǔ)設(shè)施、造成數(shù)據(jù)中心稅;另一方面,這些投入的資源和算力卻并不是為了基礎(chǔ)設(shè)施的功能而設(shè)計的,導(dǎo)致運行效率非常低。這也從另一個角度解釋了,為什么數(shù)據(jù)中心耗電量如此巨大的原因,就是沒把好鋼用在刀刃上。
因此,升級數(shù)據(jù)中心硬件、特別是芯片,讓數(shù)據(jù)中心更加綠色高效,就成了國際學(xué)術(shù)界和工業(yè)界關(guān)心的重要課題。
DPU如何實現(xiàn)數(shù)據(jù)中心能效提升
顧名思義,DPU是一種面向數(shù)據(jù)的處理器。2020年,英偉達(dá)在GTC 秋季大會上宣布推出BlueField-2 DPU,它集成了大量特定領(lǐng)域?qū)S眉铀倨?,專門用來執(zhí)行執(zhí)行網(wǎng)絡(luò)、存儲和安全等基礎(chǔ)設(shè)施任務(wù)的處理。同時,在DPU芯片上擁有比x86 CPU更節(jié)能的Arm CPU核心,主要負(fù)責(zé)控制類的應(yīng)用,比如卸載基礎(chǔ)設(shè)施應(yīng)用的控制平面、服務(wù)器虛擬化平臺或容器管理軟件的部分功能。
DPU出現(xiàn)的意義,就是為了進一步提升數(shù)據(jù)中心的效率、解決「數(shù)據(jù)中心稅」的難題。具體來說,英偉達(dá)將DPU的主要任務(wù)總結(jié)成了三點:卸載、加速、隔離。
一、卸載,就是將原本在通用CPU上運行的應(yīng)用,轉(zhuǎn)移到DPU上來完成,從而實現(xiàn)對CPU的「卸載」,相當(dāng)于給CPU減了負(fù)。比如在數(shù)據(jù)中心里常見的網(wǎng)絡(luò)協(xié)議棧的處理,通常都是由CPU上運行的軟件來實現(xiàn)的。相比之下,從智能網(wǎng)卡發(fā)展而來的DPU可以非常直接地連接網(wǎng)絡(luò),也有更強的網(wǎng)絡(luò)處理能力。
比如英偉達(dá)的BlueField-2 DPU,就能支持200Gbps網(wǎng)絡(luò)的線速處理,并且能實現(xiàn)OvS等數(shù)據(jù)中心常見應(yīng)用。這樣就釋放了寶貴的CPU內(nèi)核資源給用戶,而不是用來交「數(shù)據(jù)中心稅」,從而極大提升了數(shù)據(jù)中心的資源使用率。
二、加速,就是利用專門的硬件,把卸載下來的應(yīng)用做的更快、性能更高。說白了,就是不僅把活接下來,還干的比原來還好。
比如,將OvS卸載到BlueField DPU后,服務(wù)器的網(wǎng)絡(luò)吞吐量從19.8Gbps增至49.3Gbps。不僅在加速網(wǎng)絡(luò)吞吐量兩倍多,還釋放了原本用于運行OvS的18個虛擬CPU核心。
從能耗角度來看,一方面可以用耗電更低的DPU芯片實現(xiàn)更高的性能、用更少的服務(wù)器完成同樣的工作;另一方面還提高了CPU的利用率,二者結(jié)合,自然將服務(wù)器的能耗大幅降下來了。根據(jù)英偉達(dá)測試的數(shù)據(jù),采用DPU之后,每臺服務(wù)器至少可節(jié)省300-400瓦的耗電量。
除了OvS,在運行數(shù)據(jù)中心基礎(chǔ)設(shè)施的其他任務(wù)時,DPU也有專門的硬件引擎來用于加速網(wǎng)絡(luò)、數(shù)據(jù)加密/解密、密鑰管理、存儲虛擬化和其他任務(wù)。DPU 上的CPU核心通常比一般服務(wù)器CPU更節(jié)能,并且可以直接訪問網(wǎng)絡(luò)管線。
因此,即使一些網(wǎng)絡(luò)任務(wù)無法通過DPU的專用引擎來加速,DPU核心也能比服務(wù)器CPU更高效地執(zhí)行SDN、遙測、深度數(shù)據(jù)包檢查或其他網(wǎng)絡(luò)任務(wù)。
有了DPU,承載網(wǎng)絡(luò)側(cè)專用性的網(wǎng)絡(luò)堆棧算法和傳輸協(xié)議運算轉(zhuǎn)移,數(shù)據(jù)中心可以更高效地應(yīng)對多元化的算力需求,釋放CPU和GPU的算力資源,讓數(shù)據(jù)中心的性能得到進一步優(yōu)化。
三、隔離,就是利用DPU的專用硬件,實現(xiàn)數(shù)據(jù)中心關(guān)鍵的安全功能。比如,數(shù)據(jù)中心常見的加密協(xié)議IPsec通常需要CPU或者專用的加密加速器卡來完成。而BlueField DPU就集成了對IPsec的硬件支持,讓關(guān)鍵的加解密過程不經(jīng)過CPU,避免多用戶共享CPU和內(nèi)存時發(fā)生數(shù)據(jù)竊取和攻擊;也不需要額外的專用加密卡,進一步節(jié)省成本。
和CPU相比,采用DPU卸載IPsec之后,每臺服務(wù)器耗電量降低21%,可節(jié)電高達(dá)140瓦;客戶端也可節(jié)省能耗,最高耗電降低34%,節(jié)電高達(dá)247瓦。對于大型數(shù)據(jù)中心而言,這相當(dāng)于在三年間節(jié)省了近 900 萬美元的電費。
除了上面介紹的三個硬件特點之外,BlueField DPU還提供了DOCA軟件編程框架,它主要分成三個主要模塊,分別是DOCA服務(wù)、庫和驅(qū)動。此外,DOCA還將實例代碼、文檔、以及預(yù)打包容器都集成在一起,可以讓用戶直接對DPU進行編程。
有了這些框架和方法實例,軟件開發(fā)者就不需要管底層的硬件細(xì)節(jié),更不需要再花時間去學(xué)習(xí)硬件相關(guān)的知識和編程方法,而可以專注于自己業(yè)務(wù)本身的開發(fā)。
通過采用并部署DPU,可以減少服務(wù)器的部署數(shù)量、并降低每臺服務(wù)器的耗電量。根據(jù)《NVIDIA BlueField DPU能效白皮書》中的數(shù)據(jù),擁有1 萬臺服務(wù)器的大型數(shù)據(jù)中心三年期間可大幅節(jié)省 2600 萬美元。通過使用 DPU,服務(wù)器可節(jié)省 6.3%的資本性支出,由于較低的電力成本,運營性支出又節(jié)省了 46%。
此外,降低服務(wù)器耗電量還可以節(jié)省數(shù)據(jù)中心的附加成本,如配電和冷卻等。每瓦進入數(shù)據(jù)中心的電力都需要電源管理硬件。比如,不間斷電源、發(fā)電機(加上燃料輸送和存儲)和配電裝置,消耗的每一瓦電力都會轉(zhuǎn)變成必須從數(shù)據(jù)中心排放出來的熱量。從下圖中可以看到,高達(dá) 40% 的數(shù)據(jù)中心耗電量還專門用于冷卻。因此,服務(wù)器端節(jié)省的每一瓦電力都會減少數(shù)據(jù)中心冷卻裝置所需的電量,以及供電和散熱所需的資產(chǎn)設(shè)備數(shù)量。
結(jié)語
當(dāng)下,全球DPU市場已經(jīng)迎來爆發(fā)式增長。據(jù)賽迪顧問預(yù)計,中國DPU產(chǎn)業(yè)市場規(guī)模將在2025年超過565.9億元,復(fù)合增速達(dá)到 51.73%,而全球DPU產(chǎn)業(yè)市場規(guī)模更加龐大,將超過245.3億美元,復(fù)合增速高達(dá)至170.60%。
除了高性能和安全性的考慮,低功耗也逐漸成為DPU新的核心需求。通過DPU實現(xiàn)數(shù)據(jù)中心的綠色發(fā)展,已經(jīng)逐漸成為提高數(shù)據(jù)中心效率、降低能耗的大勢所趨。
想了解更多DPU在數(shù)據(jù)中心里的能耗優(yōu)勢,掃描二維碼獲取 NVIDIA BlueField DPU 能效白皮書。
審核編輯 :李倩
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4843瀏覽量
72285 -
DPU
+關(guān)注
關(guān)注
0文章
366瀏覽量
24226 -
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3832瀏覽量
91639
原文標(biāo)題:英偉達(dá)DPU的最大優(yōu)勢,竟然是省錢?
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論