1
概述
全球運(yùn)營商相繼發(fā)布網(wǎng)絡(luò)演進(jìn)和轉(zhuǎn)型戰(zhàn)略,希望能夠通過引入 SDN/NFV、云計(jì)算、區(qū)塊鏈、5G 等新技術(shù),減少對專有硬件的依賴,實(shí)現(xiàn)新業(yè)務(wù)的快速部署,滿足用戶多樣化的需求,提升核心競爭力。但在轉(zhuǎn)型過程中通信運(yùn)營商面臨著多種挑戰(zhàn),一方面是聯(lián)網(wǎng)設(shè)備數(shù)量快速增長以及設(shè)備之間溝通產(chǎn)生的數(shù)據(jù)洪流,另一方面是隨著電信網(wǎng)絡(luò)設(shè)備日趨虛擬化、自動化和智能化,網(wǎng)絡(luò)復(fù)雜度指數(shù)型增長。這些挑戰(zhàn)無疑使網(wǎng)絡(luò)運(yùn)維變得日益繁雜和困難,運(yùn)維人員一方面必須面對各種高度集成設(shè)備產(chǎn)生的大量實(shí)時信息,另一方面需要處理海量的告警數(shù)據(jù),并且為了不降低用戶感知,需要快速解決問題。現(xiàn)有的系統(tǒng)已經(jīng)無法在異常狀況發(fā)生時為運(yùn)維人員提供足夠的支持,導(dǎo)致許多問題不能被及時發(fā)現(xiàn)而不斷傳播升級,直至影響所有業(yè)務(wù)。如果發(fā)生異常告警時需要花費(fèi)大量時間去尋找問題根源及解決辦法,那么即使是細(xì)微的問題也會迅速地升級擴(kuò)大。
人工智能(AI)的發(fā)展可追溯到 1956 年達(dá)特茅斯會議(Dartmouth Conference)[1]。人工智能可以定義為機(jī)器能夠?qū)崿F(xiàn)的智能,是與人類和其他動物表現(xiàn)出的人類智能和自然智能相對的概念。也可引用“人工智能之父”Marvin Minsky對人工智能的理解來定義它—“人工智能就是讓機(jī)器來完成那些如果由人來做則需要智能的事情的科學(xué)”。網(wǎng)絡(luò)人工智能(Network AI)[2]是將人工智能技術(shù)應(yīng)用在網(wǎng)絡(luò)中,使用機(jī)器替代或優(yōu)化目前依靠人工進(jìn)行的工作,使運(yùn)營商能夠更加便捷地提供更加優(yōu)質(zhì)的網(wǎng)絡(luò)服務(wù)。
本文以人工智能技術(shù)為基礎(chǔ),結(jié)合現(xiàn)有網(wǎng)絡(luò)運(yùn)維技術(shù),提出故障溯源整體解決方案。希望通過對告警信息進(jìn)行合適的過濾、篩選、匹配、分類等流程確認(rèn)告警信息,并根據(jù)各個告警之間的關(guān)系來進(jìn)行告警溯源,屏蔽不重要或衍生的告警,實(shí)現(xiàn)對網(wǎng)絡(luò)故障的快速診斷。同時配合相應(yīng)的通信業(yè)務(wù)模型和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)實(shí)現(xiàn)故障的精準(zhǔn)定位。最后通過實(shí)踐中的具體案例分析,給出人工智能應(yīng)用于網(wǎng)絡(luò)故障溯源的結(jié)論和展望。
2
國內(nèi)外研究現(xiàn)狀
著名的 IT研究與顧問咨詢公司 Gartner在 2016年提出 AIOps(Artificial Intelligence for IT Operations)的概念[3],即通過人工智能的方式來支撐現(xiàn)在日益復(fù)雜的運(yùn)維工作。AIOps 可以在深度集成 DevOps 工具鏈的基礎(chǔ)上獲取系統(tǒng)數(shù)據(jù),然后通過機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)分析,更深度地解析數(shù)據(jù)中所蘊(yùn)藏的運(yùn)維信息。Gartner的報(bào)告指出預(yù)計(jì)到2020年,50%的企業(yè)將會在他們的業(yè)務(wù)和 IT 運(yùn)維方面采用 AIOps,遠(yuǎn)超現(xiàn)在的10%。同時,國內(nèi)外各大公司如AT&T、Microsoft、Facebook、百度、阿里巴巴等都在他們的運(yùn)維系統(tǒng)中實(shí)驗(yàn)或部署了機(jī)器學(xué)習(xí)算法,助力某些運(yùn)維任務(wù)智能化。
華為諾亞方舟實(shí)驗(yàn)室開發(fā)了智能故障診斷系統(tǒng),利用網(wǎng)絡(luò)故障的歷史記錄數(shù)據(jù)自動構(gòu)建通信領(lǐng)域知識圖譜[4],并在知識圖譜上進(jìn)行概率推理,以自動問答的形式幫助工程師找出故障的根本原因。微軟分別在會議NSDI’09和SIGCOMM’16發(fā)表了2篇基于機(jī)器學(xué)習(xí)的故障檢測系統(tǒng)的論文[5-6]。其中,2009 年發(fā)表的論文中提到針對家庭網(wǎng)絡(luò)配置問題診斷的NetPrints系統(tǒng)。該系統(tǒng)通過學(xué)習(xí)明確針對應(yīng)用的正確配置,在用戶的某個應(yīng)用發(fā)生錯誤時,可以通過檢測用戶的配置來為用戶選擇一個最小代價的調(diào)整策略恢復(fù)應(yīng)用工作。同時,由于系統(tǒng)的特殊設(shè)計(jì),一些系統(tǒng)原本無法解決的問題可以通過用戶的協(xié)作更新到診斷系統(tǒng)中,實(shí)現(xiàn)了用戶間的知識共享,提高系統(tǒng)的可用性。
2016年微軟發(fā)表的論文中提到針對微軟數(shù)據(jù)中心的錯誤定位問題的 NetPoirot 系統(tǒng)。該系統(tǒng)僅通過觀察主機(jī)側(cè)的 TCP數(shù)據(jù)就可以定位故障的發(fā)生位置,并且對于未訓(xùn)練過的錯誤也具有很高的故障位置識別率。但是,該系統(tǒng)只能診斷發(fā)生在主機(jī)、網(wǎng)絡(luò)或服務(wù)器中的錯誤,無法精確地定位到設(shè)備也很難精確定位具體錯誤。針對移動設(shè)備的視頻傳輸問題,加泰羅尼亞理工大學(xué)的研究者在 2015 年的 CoNEXT 上提出了解決方案[7]。該方案通過收集和處理服務(wù)中部分位置的設(shè)備數(shù)據(jù),可實(shí)現(xiàn)視頻流QoE的預(yù)測和故障定位。
3
故障溯源相關(guān)應(yīng)用場景研究
結(jié)合電信網(wǎng)絡(luò)的實(shí)際業(yè)務(wù)場景,剖析運(yùn)維過程中的實(shí)際問題,更有益于將最新的AI技術(shù)運(yùn)用到電信網(wǎng)絡(luò)的運(yùn)維和故障溯源中去,從而提升運(yùn)維人員的運(yùn)維效率和運(yùn)維體驗(yàn)。目前典型的業(yè)務(wù)場景有以下幾個。
3.1 場景1:瞬斷告警
瞬斷告警定義為告警的發(fā)生時間和清除時間很短,小于一定的閾值。這類告警因?yàn)樯芷诒容^短,對運(yùn)維人員沒有太大的價值,而且會導(dǎo)致告警量激增,從而掩蓋真正需要關(guān)注的告警,增加運(yùn)維人員識別難度。
3.2 場景2:頻發(fā)告警
如果一定時間內(nèi)發(fā)生的相同告警/事件達(dá)到一定的數(shù)目,可以認(rèn)為這些告警/事件之間存在一定的相關(guān)性。通過設(shè)置告警/事件頻次分析規(guī)則,當(dāng)某一段時間內(nèi)發(fā)生的設(shè)定告警/事件的數(shù)目超過了預(yù)先設(shè)置的閾值,則認(rèn)為這些告警/事件之間存在相關(guān)性。如同一網(wǎng)元同一單板的單板溫度過高或過低告警X分鐘出現(xiàn)Y次,合并生成一條新告警,說明單板溫度異常。
3.3 場景3:同網(wǎng)元內(nèi)故障影響分析
指同一網(wǎng)元內(nèi)某物理對象(單板、拓?fù)洌┥袭a(chǎn)生告警會導(dǎo)致該網(wǎng)元上其他物理對象和邏輯對象產(chǎn)生關(guān)聯(lián)告警。
對于LTE設(shè)備,基站內(nèi)單板之間以及單板和小區(qū)(邏輯對象)存在關(guān)聯(lián)特性,因此單板故障往往會導(dǎo)致小區(qū)也存在異常。如圖1所示,4槽BPN出現(xiàn)“光模塊不可用告警”時,會導(dǎo)致51號RRU產(chǎn)生“RRU 斷鏈告警”,而承載在該RRU上的小區(qū)也會上報(bào)“LTE小區(qū)退服告警”,即“光模塊不可用告警”為根告警。
▲圖1 某同網(wǎng)元內(nèi)故障示意圖
3.4 場景4:同專業(yè)網(wǎng)上下層業(yè)務(wù)故障影響分析
該場景體現(xiàn)為因?yàn)槟骋粋€故障導(dǎo)致大面積告警的現(xiàn)象,需要快速地獲取故障原因。如圖2所示,服務(wù)層告警會導(dǎo)致客戶層告警的發(fā)生,如光纖出現(xiàn)斷點(diǎn),光纖所在端口會報(bào)LOS告警,導(dǎo)致上層的 TMS、隧道、偽線、業(yè)務(wù)都上報(bào)告警,此時光纖所在端口的LOS告警就是根告警。
▲圖2 某同專業(yè)網(wǎng)上下層業(yè)務(wù)故障示意圖
3.5 場景5:跨專業(yè)網(wǎng)告警分析
傳輸包括光傳輸和微波傳輸,光傳輸節(jié)點(diǎn)會下掛很多微波節(jié)點(diǎn),當(dāng)一個鏈路中斷會影響這條鏈路上的1個或多個站點(diǎn),光傳輸節(jié)點(diǎn)斷開導(dǎo)致所有下游的微波 BTS站點(diǎn)都會退服,中間微波某一跳斷也會導(dǎo)致下游所有BTS退服(見圖3)。
▲圖3 某跨專業(yè)網(wǎng)故障示意圖
3.6 場景6:綜合故障診斷
故障的表現(xiàn)具有多樣性,可能表現(xiàn)為告警、KPI異常或單純業(yè)務(wù)不通,很多情況下告警并不能反映所有的故障點(diǎn),所以也無法僅通過告警分析來定位故障。
比如網(wǎng)絡(luò)升級后,某LTE業(yè)務(wù)不通,如圖4所示的流程,根據(jù)經(jīng)驗(yàn),查看監(jiān)控?cái)?shù)據(jù),進(jìn)行各種診斷動作和配置檢查,從而定位故障點(diǎn),告警只是分析的一部分。
▲圖4 某綜合故障分析過程流程圖
4
通信網(wǎng)絡(luò)故障溯源整體解決方案研究
第3章所述業(yè)務(wù)場景要解決的問題就是如何智能地識別故障并做有效分析,故障分析模型是基于關(guān)聯(lián)規(guī)則,而關(guān)聯(lián)規(guī)則通常使用關(guān)聯(lián)分析算法得到。
關(guān)聯(lián)規(guī)則算法是從一個數(shù)據(jù)集中發(fā)現(xiàn)項(xiàng)與項(xiàng)之間的隱藏關(guān)系。只有從多個不同的維度分析告警數(shù)據(jù),才能識別出它們之間的關(guān)聯(lián)關(guān)系,如告警發(fā)生的模式或規(guī)律。
基于人工智能的故障診斷和溯源就是在結(jié)合大數(shù)據(jù)關(guān)聯(lián)規(guī)則分析及人工智能技術(shù)的基礎(chǔ)上,根據(jù)系統(tǒng)中的網(wǎng)絡(luò)、業(yè)務(wù)上下游關(guān)系,綜合所有監(jiān)控?cái)?shù)據(jù)(包括告警、性能)、操作日志以及故障解決歷史記錄,輸出故障特征與故障原因之間的一系列規(guī)則。本方案旨在采用人工智能和大數(shù)據(jù)挖掘技術(shù),研究開發(fā)智能故障診斷系統(tǒng)(見圖 5)。在實(shí)際網(wǎng)絡(luò)運(yùn)維中,根據(jù)故障特征自動匹配診斷規(guī)則進(jìn)行診斷,自動得出故障點(diǎn)及相關(guān)處理建議。
▲圖5 智能故障診斷系統(tǒng)示意圖
本文所提出的智能故障診斷系統(tǒng)要先基于AI學(xué)習(xí)生成診斷規(guī)則庫,然后根據(jù)規(guī)則進(jìn)行故障分析。
4.1 基于AI學(xué)習(xí)生成診斷規(guī)則庫
4.1.1 診斷信息獲取
診斷信息越豐富,診斷效果越好,所以系統(tǒng)應(yīng)具有自動獲取整個周期(當(dāng)前、歷史)的網(wǎng)絡(luò)狀態(tài)信息的功能。即在現(xiàn)網(wǎng)運(yùn)行中,除了記錄操作日志、告警、KPI、故障處理建議這種日常監(jiān)控?cái)?shù)據(jù)外,對于網(wǎng)絡(luò)拓?fù)洹I(yè)務(wù)配置、業(yè)務(wù)狀態(tài)這些只記錄當(dāng)前狀態(tài)的數(shù)據(jù),也要定時采樣,作為學(xué)習(xí)的素材。
4.1.2 建立自學(xué)習(xí)能力
提取故障特征,比如PWE3-CES的包丟失表示2G業(yè)務(wù)不通,分析其附近的KPI、操作日志、丟包情況、業(yè)務(wù)配置,業(yè)務(wù)狀態(tài)等信息,獲取故障特征。此處可使用數(shù)據(jù)降維,分類算法。
根據(jù)故障產(chǎn)生與消失這段時間的操作日志、故障文字記錄、其他告警的產(chǎn)生消失情況等相關(guān)數(shù)據(jù),分析原因。此處可使用關(guān)聯(lián)算法、深度學(xué)習(xí)算法。
分析足夠多的案例,得到所有可能的原因,并計(jì)算原因概率。此處可使用概率論的相關(guān)算法。
4.2 診斷規(guī)則的運(yùn)行
現(xiàn)網(wǎng)監(jiān)控:實(shí)時監(jiān)控告警,并且對流量、丟包情況定時采樣,并記錄操作日志。
匹配故障特征,進(jìn)行故障診斷:對現(xiàn)網(wǎng)監(jiān)控?cái)?shù)據(jù)實(shí)時進(jìn)行匹配,一旦匹配成功,立即開始診斷。將故障的原因按概率從大到小排序,逐個診斷,當(dāng)確認(rèn)某個原因存在時,就可以定位故障并給出處理建議。
故障修復(fù)確認(rèn),反向修正診斷規(guī)則庫:故障在自動恢復(fù)或派單修復(fù)后,反饋派單中原因是否有效,修正診斷規(guī)則庫的原因概率。
相比傳統(tǒng)的故障溯源方案,本方案結(jié)合運(yùn)維中的多種數(shù)據(jù)源,包括并不限于告警、性能、拓?fù)滟Y源、日志以及偵測命令,這使本方案溯源結(jié)果更加精確,并且更具有可參考性。
5
中國聯(lián)通IPRAN告警智能化分析識別
5.1 案例背景和目的
IPRAN網(wǎng)絡(luò)主要用于承載3G/4G移動業(yè)務(wù)以及大客戶專線業(yè)務(wù),主要采用IP/MPLS動態(tài)協(xié)議技術(shù)。IP RAN網(wǎng)絡(luò)協(xié)議以及網(wǎng)絡(luò)的邏輯連接的復(fù)雜性,使IPRAN網(wǎng)管系統(tǒng)每天接收到大量的設(shè)備告警消息,其中很多告警信息都是由根源告警信息引起。
目前處理告警數(shù)據(jù)的相關(guān)規(guī)則多依賴于專家經(jīng)驗(yàn),通過規(guī)則過濾掉不關(guān)鍵的告警信息。這種方法的缺點(diǎn)是過濾能力有限且有些規(guī)則無法被發(fā)現(xiàn)。
因此需要將人工智能技術(shù)應(yīng)用于IPRAN網(wǎng)絡(luò)告警根因溯源中,形成更高效的告警處理方法。
5.2 方案和效果分析
故障是產(chǎn)生告警的根本原因,當(dāng)網(wǎng)絡(luò)發(fā)生故障時,將產(chǎn)生大量告警,挖掘告警之間的關(guān)聯(lián)規(guī)則對故障定位有著重要意義。總體方案思路如圖6所示。
▲ 圖6 告警根因溯源技術(shù)方案流程圖
該方案流程總體可分為以下4個步驟。
a)數(shù)據(jù)預(yù)處理階段,包括數(shù)據(jù)導(dǎo)入和清洗、用戶端側(cè)告警匹配、頻發(fā)告警識別。輸入數(shù)據(jù)為現(xiàn)網(wǎng)提取的歷史告警數(shù)據(jù)、網(wǎng)絡(luò)拓?fù)鋽?shù)據(jù)和業(yè)務(wù)數(shù)據(jù)3種,經(jīng)過清洗和整合轉(zhuǎn)變?yōu)榭商幚淼臄?shù)據(jù)格式。用戶端側(cè)告警匹配是根據(jù)以往運(yùn)維經(jīng)驗(yàn)去除不關(guān)心/無價值的告警。頻發(fā)告警的具體描述見第3章中的場景2定義,該類告警的處理方式為對同一端口上連續(xù)10s內(nèi)的相同告警進(jìn)行壓縮,僅留下頻發(fā)告警的第1條告警,其他均標(biāo)識為可過濾告警。
b)關(guān)聯(lián)規(guī)則挖掘階段,該部分核心算法為 Prefix-Span時間序列模式挖掘算法[8]。與Apriori、序列模式、時空模式等挖掘算法相比,該算法更適合本案例。但傳統(tǒng)的 PrefixSpan 算法挖掘出來的規(guī)則不帶有約束條件,導(dǎo)致專家也無法判斷關(guān)聯(lián)規(guī)則的正確性,如規(guī)則A[光模塊不可用告警→ RRU 斷鏈告警]。為解決該問題,改進(jìn)了 PrefixSpan算法,這使其挖掘過程存在約束條件。此時規(guī)則A改進(jìn)為[光模塊不可用告警→ RRU斷鏈告警,同網(wǎng)元],提升了算法規(guī)則挖掘的精確度。
c)關(guān)聯(lián)規(guī)則確認(rèn)與入庫,其中包括已確認(rèn)關(guān)聯(lián)規(guī)則庫和黑名單。通過多位專家確認(rèn)上一步中挖掘出來的告警關(guān)聯(lián)規(guī)則,將正確的規(guī)則存入已確認(rèn)關(guān)聯(lián)規(guī)則庫中,以支撐下一步的告警識別工作。錯誤和不合理的規(guī)則自動導(dǎo)入黑名單,防止下次挖掘出同類規(guī)則。
d)根告警識別階段,即給每個告警分別打上根告警、衍生告警、普通告警3種標(biāo)簽。根據(jù)8類不同約束條件對當(dāng)前告警進(jìn)行識別處理,約束條件分別為同一端口、同一網(wǎng)元、對應(yīng)業(yè)務(wù)網(wǎng)元、同一業(yè)務(wù)ID關(guān)聯(lián)、直連對端網(wǎng)元、直連對端端口、同環(huán)網(wǎng)元、對應(yīng)業(yè)務(wù)ID關(guān)聯(lián)。
由于廠商和地域的差異性,目前還無法建立統(tǒng)一適用的關(guān)聯(lián)規(guī)則數(shù)據(jù)庫。現(xiàn)已建立了A設(shè)備商IPRAN的告警關(guān)聯(lián)規(guī)則知識庫,共計(jì)198條規(guī)則。通過已建立的知識庫,在多個城市進(jìn)行了試點(diǎn),表1為相關(guān)告警分析的結(jié)果。
從表1中可以看到B市和D市處理效果較差,冗余告警(用戶側(cè)、頻發(fā)、衍生)過濾百分比為81%左右,C市和A市結(jié)果較好,最高可達(dá)98%。產(chǎn)生該結(jié)果的原因有2方面:一是由于告警總數(shù)不同,其中無關(guān)聯(lián)的普通告警數(shù)量也不同;二是地域的差異性,B市和D市的傳輸網(wǎng)絡(luò)設(shè)備更多,無法根據(jù)人工規(guī)則去除無關(guān)告警。
表1 多個試點(diǎn)城市的歷史網(wǎng)絡(luò)告警分析處理結(jié)果
為了更直觀查看告警之間存在的拓?fù)浼皹I(yè)務(wù)關(guān)聯(lián)關(guān)系,系統(tǒng)可根據(jù)分析結(jié)果自動呈現(xiàn)告警關(guān)聯(lián)分析拓?fù)鋱D,通過不同顏色標(biāo)記網(wǎng)元以區(qū)分根告警和衍生告警,并可通過查看歷史告警、網(wǎng)元、端口等信息,輔助支撐運(yùn)維人員更準(zhǔn)確地定位故障、精準(zhǔn)派單。
6
總結(jié)和展望
通過案例分析可以看出將人工智能技術(shù)引用到網(wǎng)絡(luò)運(yùn)維的故障溯源場景中是可行且有效的,基于運(yùn)維數(shù)據(jù)智能化地識別告警之間的關(guān)聯(lián)規(guī)則,解決了人工經(jīng)驗(yàn)積累不足的問題,提升了運(yùn)維效率。但現(xiàn)階段仍存在一些問題,由于目前采用的是單一的數(shù)據(jù)挖掘算法,需要人工判斷關(guān)聯(lián)規(guī)則和結(jié)果是否正確,準(zhǔn)確率和實(shí)時性仍無法保障,并未做到真正的智能。
為解決單一人工智能方法的不足,未來可采用多種診斷技術(shù)協(xié)同的新模式,即多智能體技術(shù)。基于多種具備不同功能的軟件系統(tǒng),將復(fù)雜的網(wǎng)絡(luò)告警分解成單一、獨(dú)立的成分和因素,各個系統(tǒng)協(xié)同合作,能整合包括網(wǎng)絡(luò)狀態(tài)信息、硬件信息、工單信息等更多的數(shù)據(jù),實(shí)現(xiàn)自主學(xué)習(xí)、自主訓(xùn)練,不斷提升系統(tǒng)性能,全面關(guān)聯(lián)網(wǎng)絡(luò)告警,準(zhǔn)確定位網(wǎng)絡(luò)故障。
-
人工智能
+關(guān)注
關(guān)注
1793文章
47601瀏覽量
239510 -
通信網(wǎng)絡(luò)
+關(guān)注
關(guān)注
21文章
2046瀏覽量
52143
原文標(biāo)題:人工智能在通信網(wǎng)絡(luò)故障溯源的應(yīng)用研究
文章出處:【微信號:C114-weixin,微信公眾號:C114通信網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論