隨著企業(yè)開始采用經(jīng)過數(shù)據(jù)中心大運營商和托管服務提供商試用和測試過的機器學習技術(shù),人工智能將在數(shù)據(jù)中心運營中扮演更重要的角色。
目前的混合計算環(huán)境通常涉及到本地數(shù)據(jù)中心、云和托管站點,以及邊緣計算部署。企業(yè)發(fā)現(xiàn)管理數(shù)據(jù)中心的傳統(tǒng)方法并不是最優(yōu)的。通過使用人工智能,正如機器學習所展示的那樣,極有可能簡化復雜計算設施的管理。
目前,人工智能在數(shù)據(jù)中心的應用主要是圍繞使用機器學習來監(jiān)測設施組件,并進行自動管理,例如電源和配電單元、散熱基礎設施、機架系統(tǒng)和物理安全等。
在數(shù)據(jù)中心設施內(nèi)部,有越來越多的傳感器收集來自包括電源備份(UPS)、配電裝置、開關(guān)設備和冷水機組在內(nèi)的設備的數(shù)據(jù)。關(guān)于這些設備及其環(huán)境的數(shù)據(jù)由機器學習算法進行解讀,這些算法深度分析性能和容量,并確定適當?shù)捻憫绺脑O置或者發(fā)送警報等。隨著條件的變化,機器學習系統(tǒng)從變化中學習——它實際上是被訓練為自我調(diào)整,而不是依賴于具體的編程指令來執(zhí)行其任務。
其目的是使數(shù)據(jù)中心運營商能夠提高設施的可靠性和效率,并有可能更自主地運行這些設施。然而,獲取數(shù)據(jù)并不是一項簡單的任務。
施耐德電氣公司數(shù)據(jù)中心全球解決方案高級主管Steve Carlini說,基本需求是獲取來自主要組件的實時數(shù)據(jù)。也就是那些冷水機組、冷卻塔、通風機、風扇等組件的實時數(shù)據(jù)。在IT設備方面,它意味著服務器利用率、溫度和功耗等指標。
Carlini說:“很難對數(shù)據(jù)中心進行評價。數(shù)據(jù)中心與配電和散熱有關(guān)的連接點是非常多的,如果企業(yè)想嘗試人工智能,就需要獲得這些連接點的數(shù)據(jù)。”
IT專業(yè)人員習慣于設備監(jiān)測和實時報警,但在機房設施方面并非如此。Carlini說:“IT設備對信息的要求是即時的。而在電力系統(tǒng)中,不是即時的。其環(huán)境不同。”
過去不到十年的時間里,第一個數(shù)據(jù)中心已經(jīng)完全儀表化了,用儀表來監(jiān)測供電和散熱。在儀表存在的地方,很難進行標準化:數(shù)據(jù)中心運營商依賴于采用多種通信協(xié)議的樓宇管理系統(tǒng)——從Modbus和BACnet到LONworks和Niagara,并且必須兼容不共享數(shù)據(jù)或者不能通過遠程控制進行操作的設備。Carlini說:“TCP/IP、以太網(wǎng)連接——這類連接在傳動系統(tǒng)和散熱領(lǐng)域是前所未聞的。”
好消息是數(shù)據(jù)中心監(jiān)測正朝著高級分析和機器學習所需的深度發(fā)展。Carlini說:“服務提供商和托管提供商一直非常擅長在子架級或者機架級進行監(jiān)測,以及對能源使用情況的監(jiān)測。企業(yè)開始部署它,這取決于數(shù)據(jù)中心的規(guī)模。”
機器學習讓數(shù)據(jù)中心保持涼爽
2016年,德爾塔航空公司由于電力系統(tǒng)故障導致數(shù)據(jù)中心停電,三天時間內(nèi)停飛了大約2000次航班,使該航空公司損失了1.5億美元。這正是基于機器學習的自動管理功能可以避免的應用場景。由于數(shù)據(jù)中心性能的進步以及云中數(shù)據(jù)池的出現(xiàn),智能系統(tǒng)有可能發(fā)現(xiàn)數(shù)據(jù)中心運營中的漏洞,從而提高效率,而這是手動過程做不到的。
機器學習推動的智能應用的一個簡單例子是基于狀態(tài)的維護,它應用于數(shù)據(jù)中心中的消耗品,例如,冷卻過濾器等。Carlini說,通過監(jiān)測流過多個過濾器的空氣流量,智能系統(tǒng)可以檢測到一些過濾器是否比其他過濾器更容易堵塞,然后把空氣引導到不容易堵塞的單元中,直到需要更換所有過濾器為止。
另一個例子是監(jiān)測UPS系統(tǒng)中電池的溫度和放電情況。智能系統(tǒng)能夠發(fā)現(xiàn)一個UPS系統(tǒng)運行的環(huán)境更熱一些,并且可能比其他系統(tǒng)更頻繁地放電,然后會將其指定為備份UPS,而不是主用UPS。Carlini說:“它站在你的角度為你思考。這可以手動完成,但機器也可以做到。這是最基本的。”
層次更高的應用是動態(tài)散熱優(yōu)化,這是當今數(shù)據(jù)中心機器學習更常見的例子之一,尤其是對于數(shù)據(jù)中心大運營商和托管提供商。
通過動態(tài)散熱優(yōu)化,數(shù)據(jù)中心管理人員可以根據(jù)環(huán)境條件監(jiān)測并控制機房的散熱基礎設施。當設備移動或者計算流量出現(xiàn)激增時,建筑物內(nèi)的熱負荷也會發(fā)生變化。動態(tài)調(diào)節(jié)散熱輸出,以轉(zhuǎn)移熱負荷,這有助于避免不必要的散熱能力并降低運行成本。
451 Research公司的數(shù)據(jù)中心技術(shù)和生態(tài)效率IT渠道研究總監(jiān)Rhonda Ascierto評論說,托管服務提供商是動態(tài)散熱優(yōu)化技術(shù)的主要采用者。Ascierto說:“機器學習對數(shù)據(jù)中心來說并不陌生。長期以來,人們一直想根據(jù)容量和需求來更好地進行適當?shù)纳幔鴻C器學習使您能夠?qū)崟r地完成這項工作。”
Vigilent是動態(tài)散熱優(yōu)化領(lǐng)域的領(lǐng)導者。其技術(shù)用于優(yōu)化數(shù)據(jù)中心設施中的空氣流,自動發(fā)現(xiàn)并消除熱點。
Vigilent的創(chuàng)始人、總裁兼首席技術(shù)官Cliff Federspiel說,數(shù)據(jù)中心運營商運行的散熱設備往往比實際需要的多。“它產(chǎn)生的溫度分布通常還是能接受的,但代價很高。”
如果有一個熱點,典型的反應是進一步提高散熱能力。在現(xiàn)實中,如果空氣流速過快會產(chǎn)生壓力差,干擾設備上的空氣流,或者阻礙熱空氣返回到散熱設備。盡管這與我們的直覺不符,但能更有效地降低風扇速度。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
16文章
4850瀏覽量
72296 -
人工智能
+關(guān)注
關(guān)注
1794文章
47622瀏覽量
239587 -
機器學習
+關(guān)注
關(guān)注
66文章
8438瀏覽量
132912
原文標題:人工智能提高數(shù)據(jù)中心的可用性和效率
文章出處:【微信號:scinaniot,微信公眾號:司南物聯(lián)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論