2023開年,浪浪山的一只小豬妖火出了圈,在《中國奇譚》這部國漫的第一個單元中,小豬妖躊躇滿志,想要做出一番事業(yè),結(jié)果費盡千辛萬苦,自己的工作成果卻被否定,然后,小豬妖說出了那句經(jīng)典臺詞“我想離開浪浪山”。
小豬妖的遭遇,戳中了當代打工人的隱痛,也像極了數(shù)據(jù)中心里那些鮮為人知,又百抓撓心的困境。
近年來,我們能夠在很多論壇、峰會、發(fā)布會商聽到一些高瞻遠矚、提綱挈領的話,比如“計算力就是生產(chǎn)力”、“數(shù)字經(jīng)濟的基礎設施”、“上云用數(shù)賦智”等,這些宏觀層面的趨勢、路線支撐著云數(shù)據(jù)中心、智算中心等計算集群的快速發(fā)展,我們也在此前的文章中分析過很多。
不過,實際建設過程中,會面臨這樣那樣的具體挑戰(zhàn),可能是坐在辦公室/研究所,對著PPT指點江山的人很難想象的。
比如西部某高校中計算中心的一個女工作人員曾告訴我,服務器散熱主要靠風冷,維持降溫會加大送風風力,她們女員工進機房都是沒法穿裙子的;機房內(nèi)的噪音很大,常年負責運維的同事,聽力也受到了損害。
這些細節(jié)而真實的難題,構(gòu)成了數(shù)據(jù)中心必須翻越的浪浪山,否則就會像小豬妖一樣疲憊且做無用功,而這些問題,只能從扎根在腳下的土地中來,從與一線人員交流中來。今天我們就結(jié)合一些實地見聞來聊一聊,數(shù)據(jù)中心正在等待翻越哪些山巒。
第一重山:電
談到數(shù)據(jù)中心的中美差異,你會想到什么?芯片、架構(gòu)、軟件、產(chǎn)業(yè)鏈?有一個容易被忽略但很重要的因素是:供電。
益企研究院自2018年來實地考察了多個國內(nèi)云數(shù)據(jù)中心,發(fā)現(xiàn)2 路2U 是國內(nèi)服務器市場上的主流規(guī)格,IDC的服務器市場追蹤報告也證實,2018—2021 年,機柜式服務器中2U 規(guī)格占據(jù)了70%左右。然而,美國市場上,1U反而更受歡迎。
1U和2U究竟是什么?到底是什么原因?qū)е铝诉@種差別?又意味著什么呢?
(中國電子信創(chuàng)云基地(順義)機房的2U服務器)
我們知道,隨著IT設備技術(shù)的變化,現(xiàn)代數(shù)據(jù)中心采用的服務器高度一般為1U或2U,U指的是機架式服務器的厚度,1U是4.45厘米,而早期數(shù)據(jù)中心的機架式服務器高度一般在3-5U。
U的數(shù)字越少,服務器高度越低,單機計算密度越高,1U服務器的計算密度可以達到2U服務器的兩倍。然而,東數(shù)西算工程中對數(shù)據(jù)中心集群的要求,京津冀、長三角、粵港澳大灣區(qū)、成渝這幾個樞紐節(jié)點都強調(diào)了“高密度”。因為只有密度更高,才能在有限的土地面積上供給更多的算力,提高土地資源效益。
這樣看,1U應該是更好的選擇,但實地走訪得到的結(jié)果,卻是2U規(guī)格在中國云數(shù)據(jù)中心的占比較多,這是為什么呢?這里有一個決定性因素——供電能力。
因為1U比2U更耗電,支撐約18臺2U服務器的單機柜供電量需要達到6kW,如果換成部署36臺1U服務器,那供電量就要達到12kW。如果單機柜的供電能力達不到,就無法充分發(fā)揮1U的密度優(yōu)勢。
(和林格爾東方超算云數(shù)據(jù)中心內(nèi)景)
而目前,我國數(shù)據(jù)中心的機柜功率還是普遍偏低的,主流功率以4-6KW為主,“東數(shù)西算”工程的宣傳中,甚至還可以看到“2.5 千瓦標準機架”的配置,6kW以上的機柜占比只有32%。
數(shù)據(jù)中心的供電系統(tǒng),既有舊疾,也有新患。舊疾在于,傳統(tǒng)數(shù)據(jù)中心的各個機電系統(tǒng)分別運行,采集精度不足,調(diào)控范圍也有限,供電能力和IT需求無法精細化對等,一旦單機柜功率密度加大,電源連續(xù)運行的可靠性就可能受到影響,發(fā)生停機中斷的風險也會增大。對于云服務商來說,云數(shù)據(jù)中心斷電會直接導致客戶業(yè)務終端,帶來經(jīng)濟損失,這是不可承受之重。
新患在于,國家提出“雙碳”戰(zhàn)略后,建設綠色節(jié)能數(shù)據(jù)中心已經(jīng)成為共識,而單機功率密度的增加,會直接提高制冷要求,從而增加空調(diào)設備和空冷用電。以2021 年數(shù)字中國萬里行考察過的云數(shù)據(jù)中心為例,騰訊云懷來瑞北數(shù)據(jù)中心使用 52U 機柜,UCloud(優(yōu)刻得)烏蘭察布云基地使用 47U 和54U的機柜,如果都改用1U服務器,不僅不能真正提高密度,反而會增大服務器散熱設計的挑戰(zhàn)。
已知數(shù)據(jù)中心必須提高計算密度,那就要提高單柜密度,單機柜功率需要更高可靠、高可用的供電能力來保障,因此可以得出,供電能力接下來會是中國數(shù)據(jù)中心必須翻越的一重山。
第二重山:冷
前面提到,機柜功率密度的提升,會讓制冷用電上升。可能有機智的小伙伴會問,采用更高效節(jié)能的制冷方式,不就可以解決這個問題,順利向高密度進化了?
確實如此,數(shù)據(jù)中心行業(yè)為了更加節(jié)能的制冷系統(tǒng),可謂是操碎了心。一方面是加速“西算”,充分發(fā)揮烏蘭察布等西部地區(qū)的氣候優(yōu)勢,建設新數(shù)據(jù)中心,利用室外自然冷源。“數(shù)字中國萬里行”實地考察了7個數(shù)據(jù)中心集群,發(fā)現(xiàn)張家口數(shù)據(jù)中心集群、和林格爾數(shù)據(jù)中心集群的數(shù)據(jù)中心,一年有 10個月以上的時間可以使用自然冷源,年均 PUE 可達 1.2。
另外就是發(fā)揮液體冷卻在降低能耗上的優(yōu)越性,逐步用液冷服務器替代風冷。比如阿里巴巴2018年在河北省張家口市張北縣部署了一個浸沒式液冷(Immersion Cooling)機房,一個臥置的54U機柜,部署32臺1U雙路服務器和4臺4U的JBOD。開篇我們提到,風冷機房給女員工著裝上帶來的小困擾,液冷技術(shù)就能很好地解決這個問題。
這是不是意味著,液冷技術(shù)很快會在數(shù)據(jù)中心行業(yè)普及呢?結(jié)束2021年數(shù)字中國萬里行后,益企研究院推出的《2021中國云數(shù)據(jù)中心考察報告》,給出了“謹慎觀望”的答案。
我們認為,原因有三:
1.成熟期的生態(tài)問題。
液體冷卻雖然制冷效率遠高于風冷,但長期以來,風冷機房在數(shù)據(jù)中心建設中占據(jù)了主流,幾十年一貫制的風冷服務器已經(jīng)形成了成熟的生態(tài)鏈,建設和運營成本都有優(yōu)勢,因此一些氣候優(yōu)越的地區(qū),風冷方案就可以滿足降PUE的需求,比如華為烏蘭察布云數(shù)據(jù)中心就以 8 千瓦的風冷機柜為主。此外,在一些東部中部地區(qū)有引入液冷的需求和意愿,但也要考慮成本,如果能夠通過優(yōu)化UPS架構(gòu),采用智能化能效管理方案等,取得顯著的節(jié)能效果,那么能風冷就風冷。
2.過渡期的技術(shù)問題。
當然,對于HPC、AI等計算,采用液冷的優(yōu)勢很大,因此也有一些公司希望嘗試液冷技術(shù),但又不想改造風冷機房,于是從風冷升級到液冷的過渡期,出現(xiàn)了“風液混布”的市場需求。
我們知道,風冷服務器可以與制冷設備松耦合,環(huán)境適應性、靈活度很高,而浸沒式液冷需要將服務器的板卡、CPU、內(nèi)存等發(fā)熱元器件完全浸沒在冷卻液中,噴淋式液冷則需要對機箱或機柜進行改造,二者帶來的成本都比較高。過渡期中,冷板式液冷與風冷混合使用,是比較適合的方案。但是,冷板式液冷要將冷板固定在服務器的主要發(fā)熱器件上,依靠流經(jīng)冷板的液體將熱量帶走,全密封和防泄漏要求高,設計和制造難度很大。
(華為云東莞松山湖數(shù)據(jù)中心部署的Atlas 900集群,采用風液混合技術(shù)散熱)
3.產(chǎn)業(yè)鏈的協(xié)作問題。
液冷數(shù)據(jù)中心需要產(chǎn)業(yè)鏈上下游的協(xié)同創(chuàng)新,包括制造、設計、材料、施工、運維等各個環(huán)節(jié)。風冷模式也正因為松耦合,導致制冷行業(yè)和數(shù)據(jù)中心行業(yè)是比較割裂的,推動數(shù)據(jù)中心向液冷變革,必須要構(gòu)建一個新的生態(tài),加強各角色的聯(lián)系,降低液冷服務器的前期制造成本和后續(xù)維護成本。這需要一個多方磨合、配合的過程,不是一朝一夕能夠?qū)崿F(xiàn)的。
從這些角度來看,液冷數(shù)據(jù)中心雖然是大勢所趨,但還有較長的路要走,整個行業(yè)都在持續(xù)關注變化。
第三重山:芯
如果說供電效率、風冷液冷,是云數(shù)據(jù)中心機房基礎設施的重要變化,那么芯片可能就是IT基礎設施的重點關注對象。
2021年,由安謀科技獨家冠名贊助的數(shù)字中國萬里行,在考察貴州、內(nèi)蒙古烏蘭察布、和林格爾期間發(fā)現(xiàn)了一個新的現(xiàn)象——中國“芯”力量正在崛起,國產(chǎn)技術(shù)的成熟度和應用程度正在提升,追趕主流。阿里云的倚天710、AWS的Graviton、Ampere的Altra等,都獲得了長足的發(fā)展與應用。
造成這一局面的原因很多,比如云全棧走向自主化,為中國“芯”提供了市場支撐;政務、金融、交通、電力、制造等行業(yè)的數(shù)字化加快,為中國“芯”提供了應用落地場景;x86與 Arm 并存,為中國“芯”基于新架構(gòu)進行定制和優(yōu)化提供了研發(fā)基礎。
但必須指出的是,月亮都有暗面。中國“芯”崛起的背后,也要看到中國半導體領域還艱難中探索。
首先,是制程工藝的枷鎖。我們知道,摩爾定律的延續(xù)是基于制程工藝的推進,然而半導體制程工藝的提升已經(jīng)觸達天花板很久了,跟不上芯片規(guī)格提升的速度。所以,云數(shù)據(jù)中心開始采用“堆CPU”的做法來提升機柜密度,但是靠堆料帶來的性能提升是有邊界的,不能止步于此。
于是后摩爾時代,小芯片(Chiplet)開始被很多***廠商選中。這種新的芯片設計模式,可以把多個硅片封裝在一起,組成一個芯片網(wǎng)絡,x86 和 Arm 生態(tài)系統(tǒng)都在采用這項技術(shù)。但需要注意的是,目前的IP重用方法中,對IP的測試和驗證已經(jīng)有比較成熟的方法,但多個Chiplet封裝后如何測試、良率怎么保證,還是中國“芯”必須解決的問題。
更主要的是,小芯片的封裝依靠先進的封裝技術(shù),芯片I/O接口可以和封裝協(xié)同設計并優(yōu)化,對于芯片性能的提升非常重要。這就要求先進封裝設計與芯片設計有較強的交互性,同時也對設計工具提出了一定的要求,我們知道,EDA工具一直是我國半導體領域的“軟肋”之一,這一點不解決,在Chiplet越來越重要的當下,中國“芯”很難高枕無憂。
目前看來,數(shù)據(jù)中心集群作為數(shù)字基礎設施的重要組成部分,正在發(fā)生一系列變化,究竟干得怎么樣,有哪些待解問題,是一個必須回答又不容易回答的問題。
不識廬山真面目,只緣身在此山中。很多事情,只有在貼近實地一線,再抽離出來縱覽全局,才能看到困住數(shù)據(jù)中心前進腳步的一重重“浪浪山”。
2023數(shù)據(jù)中心需要跨越的山巒還很多,盡管道阻且長,但只要一直行在路上,總有海闊天空任鳥飛的那天。
-
芯片
+關注
關注
456文章
51157瀏覽量
426872 -
數(shù)據(jù)
+關注
關注
8文章
7134瀏覽量
89514 -
服務器
+關注
關注
12文章
9295瀏覽量
85997 -
數(shù)據(jù)中心
+關注
關注
16文章
4855瀏覽量
72361 -
算力
+關注
關注
1文章
1012瀏覽量
14939
發(fā)布評論請先 登錄
相關推薦
評論