大多數(shù)圍繞人工智能(AI)的討論都集中在自動車輛、聊天機器人、數(shù)字孿生技術(shù)、機器人技術(shù)以及使用基于人工智能的“智能”系統(tǒng)從大型數(shù)據(jù)集中提取商業(yè)洞察力。但是人工智能和機器學習(ML)總有一天會在企業(yè)數(shù)據(jù)中心內(nèi)部的服務器機架中扮演重要角色。
人工智能在提升數(shù)據(jù)中心效率以及擴展業(yè)務方面的潛力可分為以下四個主要類別:
電源管理:基于人工智能的電源管理有助于優(yōu)化加熱和冷卻系統(tǒng),從而降低電力成本,減少員工人數(shù),提高效率。該領(lǐng)域的代表性供應商包括施耐德電氣、西門子、Vertiv和伊頓公司。
設備管理:AI系統(tǒng)可以監(jiān)控服務器、存儲和網(wǎng)絡設備的運行狀況,檢查系統(tǒng)是否保持正確配置,并預測設備何時會出現(xiàn)故障。據(jù)Gartner稱,AIOpsIT基礎設施管理(ITIM)類別的供應商包括OpsRamp、Datadog、Virtana、ScienceLogic和Zenoss。
工作負載管理:人工智能系統(tǒng)可以自動將工作負載實時移動到最高效的基礎設施上,包括在數(shù)據(jù)中心內(nèi)部,以及在混合云環(huán)境中,在prem、云和邊緣環(huán)境之間。有越來越多的小型公司提供基于人工智能的工作負載優(yōu)化,包括Redwood、TidalAutomation和Ignio。思科(Cisco)、IBM和VMware等重量級企業(yè)也有產(chǎn)品。
?安全性:人工智能工具可以“了解”正常網(wǎng)絡流量的情況,發(fā)現(xiàn)異常情況,區(qū)分需要安全從業(yè)者注意的警報的優(yōu)先級,幫助對出了什么問題的事后分析,并為填補企業(yè)安全防御漏洞提供建議。提供此功能的供應商包括VectraAI、Darktrace、ExtraHop和Cisco。
綜上所述,人工智能可以幫助企業(yè)創(chuàng)建高度自動化、安全、自我修復的數(shù)據(jù)中心,這些數(shù)據(jù)中心幾乎不需要人工干預,并且能夠以高水平的效率和彈性運行。
戴爾技術(shù)公司全球CTO辦公室的杰出工程師Tabet解釋說:“人工智能自動化可以擴展到超出人類能力的水平來解釋數(shù)據(jù),收集優(yōu)化能源使用、分配工作負載和最大化效率所需的必要見解,以實現(xiàn)更高的數(shù)據(jù)中心資產(chǎn)利用率。”。
當然,就像自動駕駛汽車的承諾一樣,自動駕駛數(shù)據(jù)中心還沒有出現(xiàn)。在數(shù)據(jù)中心,存在著阻礙人工智能突破的重大技術(shù)、操作和人員配備障礙。如今,采用技術(shù)才剛剛起步,但潛在的好處將使企業(yè)不斷尋找機會采取行動。
電源管理利用服務器工作負載管理
據(jù)估計,數(shù)據(jù)中心將消耗全球3%的電力供應,造成約2%的溫室氣體排放,因此,無論是為了省錢,還是為了環(huán)保,那么多企業(yè)都在認真研究數(shù)據(jù)中心的電源管理。
451Research的高級分析師丹尼爾·比佐(DanielBizo)表示,基于人工智能的系統(tǒng)可以幫助數(shù)據(jù)中心操作員了解當前或潛在的冷卻問題,例如,由于高密度機柜堵塞氣流、HVAC裝置性能不佳或冷熱通道之間的空氣密封不足而導致的冷空氣輸送不足。
Bizo說,人工智能承諾提供“不僅僅是良好的設施設計所能帶來的好處”。人工智能系統(tǒng)在數(shù)據(jù)中心層“可以通過關(guān)聯(lián)暖通空調(diào)系統(tǒng)數(shù)據(jù)和環(huán)境感知讀數(shù)來學習設備”。
IT咨詢和咨詢公司StorageIO的創(chuàng)始人格雷格·舒爾茨(GregSchulz)補充說:“電源管理是一個很容易實現(xiàn)的成果。”今天,它是關(guān)于生產(chǎn)力的,關(guān)于每BTU完成更多工作,每瓦能源完成更多工作,這意味著工作更智能,讓設備工作更智能。”
還有一個容量規(guī)劃的角度。除了尋找熱點和冷點之外,人工智能系統(tǒng)還可以確保數(shù)據(jù)中心為適當數(shù)量的物理服務器供電,并且在需求臨時激增的情況下,有能力啟動(和關(guān)閉)新的物理服務器。
Schulz補充說,電源管理工具正在開發(fā)連接到管理設備和工作負載的系統(tǒng)的掛鉤。例如,如果傳感器檢測到服務器運行太熱,系統(tǒng)可能會快速自動地將工作負載轉(zhuǎn)移到未充分利用的服務器上,以避免可能影響任務關(guān)鍵型應用程序的潛在停機。然后系統(tǒng)可以調(diào)查服務器過熱的原因——可能是風扇出故障(HVAC問題)、物理組件即將崩潰(設備問題),或者服務器剛剛過載(工作負載問題)。
人工智能驅(qū)動的健康監(jiān)控、配置管理監(jiān)督
數(shù)據(jù)中心充滿了需要定期維護的物理設備。人工智能系統(tǒng)可以超越定期維護,幫助收集和分析遙測數(shù)據(jù),從而確定需要立即關(guān)注的特定區(qū)域。”人工智能工具可以嗅出所有這些數(shù)據(jù)和斑點模式,以及異常點,”Schulz說。
Bizo補充說:“健康監(jiān)測從檢查設備配置是否正確以及性能是否符合預期開始。”由于有成百上千個IT機柜和數(shù)萬個組件,這些平凡的任務可能是勞動密集型的,因此并不總是能夠及時徹底地執(zhí)行。”
他指出,基于大量感官數(shù)據(jù)日志的預測性設備故障模型可以“發(fā)現(xiàn)一個即將出現(xiàn)的組件或設備故障,并評估其是否需要立即維護,以避免任何可能導致服務中斷的容量損失。”
JuniperNetworks負責企業(yè)和云營銷的副總裁MichaelBushong認為,企業(yè)數(shù)據(jù)中心運營商應該忽略一些與人工智能相關(guān)的過度宣傳和炒作,而專注于他所說的“無聊的創(chuàng)新”
是的,人工智能系統(tǒng)可能有一天會“告訴我問題出在哪里,并加以解決”,但是到了這一點,許多數(shù)據(jù)中心運營商會接受“如果出了問題,請告訴我要去哪里看”,Bushong說
依賴關(guān)系映射也是AI有用的一個重要但不是特別令人興奮的領(lǐng)域。如果數(shù)據(jù)中心經(jīng)理正在對防火墻或其他設備進行策略更改,可能會產(chǎn)生什么意外后果?”如果我提出一個改變,知道爆炸半徑范圍內(nèi)可能有什么是很有用的。
保持設備平穩(wěn)、安全運行的另一個重要方面是控制所謂的配置漂移(configurationdrift),這是一個數(shù)據(jù)中心術(shù)語,指的是隨著時間的推移,臨時配置的變化會導致問題的產(chǎn)生。Bushong說,人工智能可以作為“額外的安全檢查”來識別即將發(fā)生的基于配置的數(shù)據(jù)中心問題。
人工智能與安全
Bizo認為,人工智能和機器學習“可以通過對事件進行快速分類和聚類來簡化事件處理(事件響應),從而識別出重要事件并將其與噪聲分離開來。更快的根本原因分析有助于操作員做出明智的決定并采取行動。”
人工智能在實時入侵檢測中特別有用,Schulz補充道。基于人工智能的系統(tǒng)可以檢測、阻止和隔離威脅,然后可以回去進行法醫(yī)調(diào)查,以確定到底發(fā)生了什么,黑客能夠利用哪些漏洞。
在安全操作中心(SOC)工作的安全專業(yè)人員經(jīng)常會收到過多的警報,但基于人工智能的系統(tǒng)可以掃描大量的遙測數(shù)據(jù)和日志信息,從而清除日常任務,從而使安全專家能夠騰出時間來處理更深層次的調(diào)查。
基于人工智能的工作負載優(yōu)化
在應用程序?qū)樱珹I有可能自動將工作負載移動到適當?shù)闹扅c,無論是在內(nèi)部部署還是在云端。”AI/ML將來應該根據(jù)性能、成本、治理、安全、風險和可持續(xù)性的眾多規(guī)范,實時決定在哪里放置工作負載。
例如,工作負載可以自動移動到最省電的服務器,同時確保服務器以最高效率運行,即70-80%的利用率。Bizo說,人工智能系統(tǒng)可以將性能數(shù)據(jù)整合到等式中,因此對時間敏感的應用程序在高效服務器上運行,同時確保不需要快速執(zhí)行的應用程序不會消耗過多的能量。
基于人工智能的工作負載優(yōu)化引起了麻省理工學院研究人員的注意,他們?nèi)ツ晷妓麄冮_發(fā)了一個人工智能系統(tǒng),可以自動學習如何在數(shù)千臺服務器上調(diào)度數(shù)據(jù)處理操作。
但是,正如Bushong所指出的,現(xiàn)實情況是,如今的工作負載優(yōu)化是像亞馬遜、谷歌和Azure這樣的超大規(guī)模公司的專利,而不是一般的企業(yè)數(shù)據(jù)中心。原因有很多。
實施人工智能的挑戰(zhàn)
優(yōu)化和自動化數(shù)據(jù)中心是正在進行的數(shù)字化改造計劃的一個組成部分。戴爾的Tabet補充道,“借助COVID-19,許多公司現(xiàn)在都在尋求進一步的自動化,推動人工智能驅(qū)動、能夠自我修復的‘數(shù)字數(shù)據(jù)中心’的理念。”
谷歌在2018年宣布,已將其數(shù)個超規(guī)模數(shù)據(jù)中心的冷卻系統(tǒng)控制權(quán)轉(zhuǎn)為人工智能程序,該公司報告稱,人工智能算法提供的建議使能源使用量減少了40%。
但是,Bizo說,對于那些名字不是谷歌的公司來說,在數(shù)據(jù)中心使用人工智能“在很大程度上是一種理想”。一些AI/ML特性在事件處理、基礎設施運行狀況和冷卻優(yōu)化中可用。但是,AI/ML模型要取得比目前標準數(shù)據(jù)中心基礎設施管理(DCIM)更明顯的突破還需要更多年的時間。與自主汽車開發(fā)非常相似,早期階段可能很有趣,但與它最終承諾的突破性經(jīng)濟/商業(yè)案例相去甚遠。”
Tabet認為,一些障礙是“需要雇傭或培訓合適的人員來管理系統(tǒng)。另一個需要注意的問題是數(shù)據(jù)標準和相關(guān)體系結(jié)構(gòu)的需要。”
Gartner這樣說:“AIOps平臺成熟度、it技能和運營成熟度是主要的阻礙因素。高級部署面臨的其他新挑戰(zhàn)包括數(shù)據(jù)質(zhì)量和“IT基礎設施和運營團隊”缺乏數(shù)據(jù)科學技能。
Bushong補充說,最大的障礙一直是人。他指出,外雇數(shù)據(jù)科學家對許多企業(yè)來說是一個挑戰(zhàn),對現(xiàn)有員工的培訓也是一個障礙。
另外,Bushong說,員工抵制技術(shù)的歷史由來已久。他指出,軟件定義網(wǎng)絡(SDN)已經(jīng)存在了十年,但仍有四分之三以上的IT運營仍由CLI驅(qū)動。
“我們必須相信,各種基礎設施的運營商準備把控制權(quán)讓給人工智能,”Bushong表示。“如果一群人還不相信空管員能做出決定,那么你怎么訓練、教育和安慰一群人,讓他們做出如此重大的轉(zhuǎn)變呢?業(yè)內(nèi)普遍的態(tài)度是,如果我這么做,我就會失業(yè)。”
這就是為什么Bushong建議企業(yè)在人工智能方面采取那些小而乏味的步驟,而不是陷入經(jīng)常圍繞一項新技術(shù)的炒作中。
評論
查看更多