有些人認(rèn)為,人工智能(AI)理解和解決問題時近乎具有神秘的力量。而人工智能廣泛應(yīng)用于人們?nèi)粘I畹脑S多領(lǐng)域,因此,實(shí)現(xiàn)這一目標(biāo)的硬件開始在數(shù)據(jù)中心中應(yīng)用。
數(shù)據(jù)中心本身存在一系列復(fù)雜的問題,包括優(yōu)化和預(yù)測。那么,如何采用人工智能這種神奇的技術(shù)來改善數(shù)據(jù)中心運(yùn)營?
將人工智能應(yīng)用在數(shù)據(jù)中心
機(jī)器學(xué)習(xí)(尤其是深度學(xué)習(xí))可以檢查大量的數(shù)據(jù)集,并在其中找到不依賴于人類用來理解和預(yù)測數(shù)據(jù)的模型的模式。它還可以預(yù)測未來將重復(fù)出現(xiàn)的模式。
如今的數(shù)據(jù)中心設(shè)施越來越成熟和齊全,傳感器可以提供大量有關(guān)IT性能和環(huán)境因素的實(shí)時和歷史數(shù)據(jù)。2016年,為了提高效率,谷歌公司將人工智能應(yīng)用到數(shù)據(jù)中心上,得到了業(yè)界關(guān)注。
谷歌公司使用其擁有的人工智能技術(shù)DeepMind來優(yōu)化其數(shù)據(jù)中心的冷卻。2014年,該公司宣布其數(shù)據(jù)中心工程師Jim Gao正在使用人工智能技術(shù)來實(shí)現(xiàn)推薦引擎。
2016年,該項(xiàng)目利用神經(jīng)網(wǎng)絡(luò)優(yōu)化了谷歌公司在新加坡的數(shù)據(jù)中心的冷卻設(shè)施,這些神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)如何預(yù)測數(shù)據(jù)中心的溫度,并提供了積極應(yīng)對的建議。
根據(jù)DeepMind的研究工程師Richard Evans的說法,該結(jié)果使該數(shù)據(jù)中心的冷卻費(fèi)用減少了40%,而PUE(能源使用效率)減少了15%。他表示,“由于算法是理解復(fù)雜動態(tài)的通用框架,因此我們計(jì)劃將其應(yīng)用于數(shù)據(jù)中心環(huán)境中的其他挑戰(zhàn)。”
該公司2018年宣布的下一步計(jì)劃是自動運(yùn)行數(shù)據(jù)中心冷卻系統(tǒng),人工智能系統(tǒng)在工作人員的監(jiān)督下調(diào)整數(shù)據(jù)中心的運(yùn)行設(shè)置。為了確保冷卻系統(tǒng)安全運(yùn)行,運(yùn)營團(tuán)隊(duì)限制了其設(shè)置,因此只節(jié)省了30%的冷卻費(fèi)用。
該系統(tǒng)每五分鐘用數(shù)千個傳感器對數(shù)據(jù)中心冷卻系統(tǒng)拍攝一次快照,并將其輸入云中的人工智能系統(tǒng)。這預(yù)測了潛在的行動將如何影響未來的能源消耗,并選擇了最佳的選擇。這將數(shù)據(jù)發(fā)送到數(shù)據(jù)中心,由本地控制系統(tǒng)驗(yàn)證,然后實(shí)施。
項(xiàng)目團(tuán)隊(duì)報告系統(tǒng)已經(jīng)開始產(chǎn)生出乎意料的優(yōu)化效果。Dan Fuenffinger來自谷歌公司的一家數(shù)據(jù)中心運(yùn)營商,他采用該系統(tǒng)工作了很長時間,他說:“我們看到人工智能學(xué)會利用冬季的低溫條件,產(chǎn)生比正常溫度更低的冷卻水,這真是令人驚訝,因?yàn)檫@樣可以減少數(shù)據(jù)中心內(nèi)冷卻所需的電能。”
Jim Gao表示,這個成功案例證明了該系統(tǒng)可以安全有效地運(yùn)作。其決策將受到安全規(guī)則的審查,運(yùn)營人員可以隨時接管。
在這個階段,谷歌公司的人工智能優(yōu)化只有一個客戶,那就是其自身。但這一想法得到了學(xué)術(shù)界的大力支持。
穩(wěn)定性很重要
加拿大安大略省麥克馬斯特大學(xué)計(jì)算基礎(chǔ)設(shè)施研究中心(CIRC)負(fù)責(zé)人Suvojit Ghosh表示,人類和簡單的基于規(guī)則的系統(tǒng)可以對任何情況做出反應(yīng),但是當(dāng)環(huán)境發(fā)生變化時,它們的反應(yīng)并不相同,而人工智能可以做得更好,因?yàn)樗軌蝾A(yù)測變化。
Ghosh說,“我們知道運(yùn)行的服務(wù)器過熱將會導(dǎo)致宕機(jī)。但如果有溫度波動,這種情況顯然會更糟。簡單的規(guī)則使數(shù)據(jù)中心迅速達(dá)到最佳穩(wěn)態(tài)位置,但在此過程中,它們會使溫度突然發(fā)生階段性變化,結(jié)果發(fā)現(xiàn)這會浪費(fèi)很多能量。如果溫度條件經(jīng)常變化,那么其能耗可能抵消收益。如果環(huán)境溫度已經(jīng)達(dá)到21℃~27℃,然后再下調(diào)的話,將會浪費(fèi)電能。”
一些數(shù)據(jù)中心服務(wù)商為此做出了回應(yīng)。數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)服務(wù)商已經(jīng)采用了人工智能技術(shù),而一些已經(jīng)在進(jìn)行預(yù)測分析的公司已經(jīng)采用了機(jī)器學(xué)習(xí)技術(shù)。
分析機(jī)構(gòu)Romonet公司聯(lián)合創(chuàng)始人Zahl Limbuwala說,“當(dāng)前機(jī)器學(xué)習(xí)的各個方面都處于平臺的初始數(shù)據(jù)處理階段,在將傳感器和儀表的原始數(shù)據(jù)輸入預(yù)測建模引擎之前,對其進(jìn)行標(biāo)準(zhǔn)化、清理、驗(yàn)證和標(biāo)記。”
電力和冷卻方面的智能化措施有不同的名稱。例如華為公司的電力、冷卻和DCIM智能化技術(shù)名稱分別稱之為iPower、iCooling和iManager。
與谷歌和其他公司一樣,華為公司從簡單的實(shí)際步驟開始,例如使用模式匹配來控制溫度并發(fā)現(xiàn)制冷劑泄漏的證據(jù)。在電力系統(tǒng)中,它致力于使用人工智能識別和隔離設(shè)備故障。
該公司高級營銷經(jīng)理Zou Xiaoteng表示,在擁有1,540個機(jī)架的廊坊數(shù)據(jù)中心,華為公司大幅降低了使用iCooling技術(shù)的PUE值。該數(shù)據(jù)中心設(shè)施的功率密度約為每機(jī)架6kW,IT負(fù)載率為43%。
DCIM供應(yīng)商N(yùn)lyte公司在2018年將其工具與世界上最知名的人工智能項(xiàng)目之一IBM公司的Watson集成之后,將其應(yīng)用在DCIM產(chǎn)品中。
Nlyte公司首席執(zhí)行官Doug Sabella當(dāng)時預(yù)測,人工智能技術(shù)增強(qiáng)DCIM將帶來偉大的成就。
他說,“簡單的事情就是預(yù)防性維護(hù)。但是,除了預(yù)測性事物之外,工作人員借助DCIM更好地管理工作負(fù)載。在應(yīng)用程序性能管理方面需要考慮一些問題:可以根據(jù)有限的數(shù)據(jù)集選擇要放置工作負(fù)載的位置,那么將它放在公共云中還是私有云中?有助于確定位置和基礎(chǔ)設(shè)施的屬性是什么?
這一決定中并沒有包含整體關(guān)鍵信息,但從人工智能的角度來看,可以幫助數(shù)據(jù)中心實(shí)際減少工作負(fù)載和優(yōu)化工作負(fù)載,并降低工作負(fù)載失敗的風(fēng)險。我們看到人工智能對數(shù)據(jù)中心的運(yùn)營將產(chǎn)生巨大的影響。”
IBM Watson公司物聯(lián)網(wǎng)北美市場營銷負(fù)責(zé)人Amy Benett看到了另一個實(shí)用的方面。他說,“人工智能作為數(shù)據(jù)中心團(tuán)隊(duì)的新成員可以一直工作卻不會感到疲倦。”
據(jù)報道,Watson技術(shù)在醫(yī)療保健等要求更高的領(lǐng)域并沒有像承諾的那樣達(dá)到預(yù)期效果,這讓W(xué)atson的表現(xiàn)有些黯然失色。但應(yīng)用在數(shù)據(jù)中心可能是其恢復(fù)良好聲譽(yù)的舞臺。數(shù)據(jù)中心的關(guān)鍵設(shè)施的管理要比人體健康簡單得多。
下一階段的發(fā)展
Ghosh說,“現(xiàn)在是人工智能解決更大問題的時候了。”這與Sabella的觀點(diǎn)相呼應(yīng)。在最初的應(yīng)用之后,提高功率和冷卻效率的努力最終實(shí)現(xiàn)了收益。在這一點(diǎn)上,人工智能可以開始管理加載的內(nèi)容。
Ghosh 表示,“使用計(jì)算歷史記錄的成本進(jìn)行智能負(fù)載平衡或容器編排,可以降低特定應(yīng)用程序的能源成本。這可能會節(jié)省一半的IT能源成本。只需使用人工智能來安排工作,而這不會考慮關(guān)閉閑置服務(wù)器或其他類似的事情。”
除此之外,Ghosh還在數(shù)據(jù)中心進(jìn)行設(shè)備運(yùn)行聲音的人工智能分析。他說,“經(jīng)驗(yàn)豐富的員工會根據(jù)設(shè)備運(yùn)行的聲音知道出了什么問題。”
華為公司高級經(jīng)理Zou Xiaoteng說,“如果變壓器出現(xiàn)問題,其噪聲模式會發(fā)生變化。通過學(xué)習(xí)變壓器的噪聲模式,人工智能可以使用聲學(xué)技術(shù)來監(jiān)控變壓器的運(yùn)行狀態(tài)。”
Ghosh說,“這種方法允許人工智能超越專家具有的知識和經(jīng)驗(yàn),并了解人類認(rèn)知永遠(yuǎn)無法理解的東西。在接下來的10年,我們將能夠在故障發(fā)生之前對其進(jìn)行預(yù)測。我希望能夠創(chuàng)建一種能夠完全消除預(yù)防性維護(hù)需求的算法。”
華為公司高級經(jīng)理Zou Xiaoteng認(rèn)為還有一些好處是,人工智能可以將資源利用率再提高20%,同時減少人為錯誤。
他對人工智能的應(yīng)用進(jìn)行了分級。零級數(shù)據(jù)中心是一個完全采用人工管理的數(shù)據(jù)中心;第一級數(shù)據(jù)中心的基本功能是采用傳感器可視化數(shù)據(jù)中心設(shè)施;第二級數(shù)據(jù)中心可以為工作員提供一些幫助,實(shí)現(xiàn)無人值守部分功能,人工智能技術(shù)將向工程師報告情況,工程師將做出適當(dāng)?shù)捻憫?yīng);第三級數(shù)據(jù)中心可以提供根本原因分析和虛擬幫助來解決問題。華為公司的數(shù)據(jù)中心已經(jīng)到達(dá)了這個階段。
他說:“在未來,我相信可以使用人工智能來預(yù)測是否存在任何問題,并使用人工智能實(shí)現(xiàn)數(shù)據(jù)中心的自我恢復(fù)。”
他預(yù)測,在這個階段,DCIM系統(tǒng)甚至可以從專門的人工智能處理器中獲益。華為公司已經(jīng)在嘗試使用其Ascend系列人工智能處理器,在云計(jì)算和邊緣方面采用DCIM進(jìn)行管理。
大多數(shù)用戶目前仍然處于早期階段,但有些用戶顯然對此持樂觀態(tài)度。富國銀行任務(wù)關(guān)鍵設(shè)施現(xiàn)場經(jīng)理Eric Fussenegger表示,“如今,我們使用人工智能來監(jiān)控設(shè)定點(diǎn),采用DCIM加強(qiáng)了數(shù)據(jù)中心設(shè)施的控制措施。”
Fussenegger表示,人工智能在未來可以進(jìn)一步發(fā)揮作用,智能設(shè)備可以在數(shù)據(jù)中心的日常實(shí)際維護(hù)和操作中發(fā)揮更大作用。
他說,“總有一天,機(jī)器人可以接管數(shù)據(jù)中心清潔工作或維護(hù)IT設(shè)備,并且工作人員不必在冷熱通道區(qū)域進(jìn)行維護(hù)。但我認(rèn)為其工作還是需要工作人員的監(jiān)督。”
責(zé)任編輯:ct
評論
查看更多