智能運維在各行各業(yè)的應用情況如何?
時間:2022-12-01
關鍵字:智能運維,運維自動化
智慧運維作為當前備受關注的技術領域,在Gartner的報告中也給出預測:2020年,智慧運維會在一半以上的企業(yè)中落地并形成生產力。
在高利潤、低成本的驅動下,智能運維也成為各行各業(yè)研究的熱點,互聯網公司、金融機構、IT技術公司都紛紛走在了智能運維研究和應用的前列。
(1)科研機構
科研機構一向是新技術革命的領頭羊。在智能運維研究領域,國內外科研機構不僅有先進的科研成果,也與工業(yè)界展開密切合作,從算法層面上支撐了智能運維的落地與發(fā)展。
卡內基梅隆大學與Netflix公司合作,在網絡視頻運維領域提出并應用多種人工智能方法:利用不同數據分析及統(tǒng)計分析方法,靈活使用可視化、相關分析、信息熵增益等工具,將雜亂無章數據轉化為直觀清晰信息,從而分析海量數據背后視頻體驗不佳的規(guī)律和瓶頸。
雙方共同設計了視頻傳輸智能優(yōu)化方案,可根據客戶的網絡狀態(tài),動態(tài)地優(yōu)化視頻傳輸;通過決策樹模型建立用戶參與度的預測模型,指導關鍵性能指標的優(yōu)化策略,改善用戶的體驗質量。
南京大學周志華教授團隊專注于機器學習算法的研究,所提出的isolation forest孤立森林算法可用于挖掘異常數據,檢測和分析異常。
清華大學NetMan智能運維實驗室則專注于異常檢測、分析與預測,提出了多種算法和工具。
(2)互聯網行業(yè)
阿里巴巴研發(fā)了智能故障管理平臺,以業(yè)務為導向,實現了基于機器學習的業(yè)務異常檢測,準確及時發(fā)現故障。通過時間序列分析和機器學習,對未來一段時間的業(yè)務指標趨勢進行預測。
針對業(yè)務異常時間,自動調用各類型AP接口實現一鍵切換,快速恢復業(yè)務異常。并針對業(yè)務異常事件自動拆解相關維度,逐層剝離定位故障原因。
目前該平臺已經在阿里云上成功實踐,故障發(fā)現準確率、故障發(fā)現召回率分別提升到80%和90%,每周節(jié)省因為誤報而花費的操作時間約為29小時。
百度實現了基于智能流量調度的單機房故障自愈能力,將止損過程劃分為統(tǒng)一的感知、決策、執(zhí)行三個階段,通過策略框架支持智能化異常檢測、策略編排、流量調度,實現了單機房故障自愈能力。
京東金融實現了基于網絡拓撲的根源告警分析,結合調用鏈,通過時間相關性、權重、關聯規(guī)則算法、神經網絡算法等,將告警分類篩選,快速找到告警根源,從而縮短故障排查及恢復時間。
京東金融還在其云計算數據中心應用了智能巡檢機器人,提升了機房及數據中心的巡檢效率和智能化管理水平,避免人工的錯檢和漏檢,對巡檢數據進行數據化管理和高效利用。
騰訊在其織云監(jiān)控平臺中建設了基于機器學習的時間序列異常檢測方案,在百萬條基于時間序列的日志信息中,以少量的時間實現了異常檢測。
(3)金融行業(yè)
交通銀行通過數據中心運維大數據平臺的建設,將各類日志、告警等運維數據統(tǒng)一集中存儲。通過關聯分析、建模預測等方式發(fā)現日志、告警信息中潛在聯系,并建設監(jiān)控歷史數據分析、監(jiān)控告警智能分析以及日志智能檢索分析等大數據運維應用場景,實現了事前智能預警、事后快速定位故障。
中國銀行初步形成了“運維大數據倉庫”、“運維數據分析平臺”的計算框架,對系統(tǒng)日志、應用日志、監(jiān)控數據和網絡鏡像包等全量數據進行集中存放和處理,并在異常檢測、故障快速定位、系統(tǒng)容量預估和動態(tài)調配等多個場景中應用。
太平洋保險在智能運維方面實現了告警收斂,將多個告警做匯聚合并和主源分析,還開展了云腦項目以實現業(yè)務趨勢預測和容量管理功能,還開發(fā)點點2.0 APP,實現風險監(jiān)測和智能交互等功能。
陽光保險利用大數據和機器學習,實現了智能巡檢、報警聚合、故障自愈及故障避免、自動發(fā)版與止損等多項功能。招商銀行在性能容量評估、故障定位與診斷方面采用智能運維的方案,以應對業(yè)務高峰的需求。
上海銀行張江數據中心啟用了智能巡檢機器人,對設備運行狀態(tài)、機房環(huán)境、機柜微環(huán)境實時監(jiān)測,保證數據中心狀態(tài)實時可視、可控及數據的準確性。