人工智能(AI)性能的新突破,掀起了一場未來強(qiáng)大數(shù)據(jù)中心的競賽。隨著 AI 應(yīng)用的復(fù)雜性不斷提高,以及對計算的需求呈指數(shù)級增長,電源可能決定著哪些數(shù)據(jù)中心可提升到更高一級的處理水平并保持領(lǐng)先地位。
近年來,AI 在各行各業(yè)帶來了翻天覆地的變化——從醫(yī)療保健和金融到交通運輸。機(jī)器學(xué)習(xí)算法和深度神經(jīng)網(wǎng)絡(luò)已成為數(shù)據(jù)分析、模式識別和決策方面的強(qiáng)大工具。然而,這些 AI 應(yīng)用需要大量的計算能力和能源才能有效運作。
訓(xùn)練大的 AI 模型可能會消耗大量電力,圖形處理器 (GPU) 或張量處理器 (TPU) 等專用硬件常常被用來執(zhí)行深度學(xué)習(xí)算法所需的復(fù)雜矩陣計算,這樣的計算速度比傳統(tǒng) CPU 快得多。這些專用硬件單元旨在處理大量數(shù)據(jù)以及優(yōu)化機(jī)器學(xué)習(xí)所需的處理。
當(dāng)大模型開始擴(kuò)展
近期的例子表明,訓(xùn)練模型可能需要多達(dá)數(shù)百千瓦的電力。例如,OpenAI 的大語言模型 (LLM) GPT-3 的訓(xùn)練使用了 1,750 億個參數(shù)和來自互聯(lián)網(wǎng)的 570GB 數(shù)據(jù),據(jù)稱消耗了 355 兆瓦的電力。
OpenAI 的下一個版本 GPT-4 比 GPT-3 強(qiáng)大數(shù)百倍,其訓(xùn)練集包括 170 萬億個參數(shù),使其成為有史以來最強(qiáng)大的 AI 引擎——至少在目前是這樣。
OpenAI 使用了 Microsoft Azure 數(shù)據(jù)中心來開展 GPT 項目。公司將會繼續(xù)在自己的場所內(nèi)打造并維護(hù)數(shù)據(jù)中心,以幫助提升自身知名度或迅速擴(kuò)大用戶群。但公司可能還需要依賴基于云的服務(wù),例如 Microsoft Azure、Amazon Web Services 和 Google Cloud Platform,以提供額外計算能力來滿足突然激增的需求。
這些大規(guī)模云平臺一直引領(lǐng)著超大規(guī)模數(shù)據(jù)中心最佳實踐的發(fā)展,并推動數(shù)據(jù)中心在計算速度和帶寬方面的性能不斷進(jìn)步。
在這個競爭激烈的環(huán)境中,前景廣闊 AI 項目將會在最大計算處理負(fù)載的可靠數(shù)據(jù)中心方面展開爭奪。展望 AI 發(fā)展和數(shù)據(jù)中心升級的下一階段,可能沒有足夠的優(yōu)質(zhì)數(shù)據(jù)中心服務(wù)供每個人使用。
造成瓶頸的原因在很大程度上可能是電力限制。一項以 800 多名設(shè)計工程師及其經(jīng)理為調(diào)查對象的 Molex莫仕調(diào)查顯示,40% 的受訪者將電源管理列為在數(shù)據(jù)中心實施電源系統(tǒng)時面臨的最大挑戰(zhàn)。有 20% 的受訪者認(rèn)為,配電問題是第二大挑戰(zhàn)。
讓數(shù)據(jù)能力翻倍
當(dāng)今一流的數(shù)據(jù)中心可提供高達(dá) 112 Gbps 的數(shù)據(jù)傳輸率。許多數(shù)據(jù)中心正在升級硬件和連接器,以期達(dá)到這種速度和性能水平。
打造224 Gbps-PAM4數(shù)據(jù)中心趨勢已初現(xiàn)端倪,以滿足不斷增長的 AI 處理需求。然而,適用于 224G 的基礎(chǔ)設(shè)施組件還處于上市的早期階段,這意味著完全采用 224G 技術(shù)的設(shè)施要在幾年后才會普及。
讓全世界數(shù)據(jù)中心的數(shù)據(jù)傳輸率總體上翻倍將是一項艱巨的任務(wù),因為這需要大幅增加發(fā)電量。鑒于如今 AI 消耗的能源量占了能源消耗總量的 2%,未來的升級可能相當(dāng)于在這個世界新增幾個大城市,每個城市需要有自己的發(fā)電廠。
事實上,典型 GPU 模塊的電力需求已從 2018 年的每個模塊 450W 增加到 2022 年的 1000W,OCP OAM 的電力需求從每個機(jī)箱 3600W 增加到 8000W——推動這種增長的因素是對更強(qiáng)計算能力的需求。這種電力增長帶來了前所未有的高發(fā)熱量,并促使需要能夠耐受更高溫度的散熱片和組件。Molex莫仕 Mirror Mezz 連接器可滿足更高的電力需求并實現(xiàn)相關(guān)的熱管理。這些連接器可用于 450W 和 1000W GPU 型號,且具有出色的氣冷和液冷性能。
適應(yīng)未來發(fā)展趨勢
AI 數(shù)據(jù)中心的電力需求成倍增長,這與現(xiàn)有設(shè)施的局限性形成了矛盾,解決這種矛盾需要創(chuàng)造性的解決方案。目前,一些超大規(guī)模數(shù)據(jù)中心可能只是因為地理位置不佳而無法進(jìn)行下一代升級。某些地區(qū)可能不會選擇將本已有限的發(fā)電量分配給云服務(wù)提供商。而且,老舊的電網(wǎng)(即使已開始過渡到使用可再生資源)可能會出現(xiàn)間歇性停電,事實證明,這種情況會導(dǎo)致數(shù)據(jù)服務(wù)出現(xiàn)問題。
隨著數(shù)據(jù)中心從一種技術(shù)過渡到另一種技術(shù)并充分利用內(nèi)部配電架構(gòu),數(shù)據(jù)中心內(nèi)部也可能會出現(xiàn)瓶頸。除了硬件投資外,行業(yè)打造 AI 驅(qū)動的數(shù)據(jù)中心的趨勢,數(shù)據(jù)中心還必須著眼于尋找新方法優(yōu)化自身的功耗。優(yōu)化功耗的方法可能包括使用先進(jìn)的冷卻系統(tǒng)、高效節(jié)能的硬件和創(chuàng)新的電源管理策略。對于想方設(shè)法優(yōu)化現(xiàn)有資源的數(shù)據(jù)中心來說,AI 驅(qū)動的管理工具甚至可能是理想的未來解決方案。
AI 不斷重塑計算世界,數(shù)據(jù)中心必須做出調(diào)整,以滿足這些應(yīng)用不斷增長的需求。隨著 AI 領(lǐng)域的發(fā)展,以及越來越多公司希望在業(yè)務(wù)中部署 AI 應(yīng)用,對強(qiáng)大計算資源的爭奪將愈演愈烈。數(shù)據(jù)中心運營商必須投資于最新的技術(shù)和策略,以在這個不斷變化的環(huán)境中保持領(lǐng)先地位和競爭優(yōu)勢。因此,Molex莫仕投資于未來的技術(shù),其中包括 224 Gbps-PAM4 功能以及一整套數(shù)據(jù)中心電源管理解決方案。
-
連接器
+關(guān)注
關(guān)注
98文章
14561瀏覽量
136738 -
AI
+關(guān)注
關(guān)注
87文章
31077瀏覽量
269412 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8424瀏覽量
132761 -
莫仕
+關(guān)注
關(guān)注
0文章
91瀏覽量
11578
發(fā)布評論請先 登錄
相關(guān)推薦
評論