维大杀器来了,未来云上服务器或将实现无人值守
云原生時(shí)代下,企業(yè)的IT運(yùn)維面臨架構(gòu)復(fù)雜化、業(yè)務(wù)需求多樣化和運(yùn)維數(shù)據(jù)海量化等挑戰(zhàn),如何能夠?qū)崿F(xiàn)精準(zhǔn)告警、異常智能診斷、根因定位、異常預(yù)測(cè)和異常自動(dòng)修復(fù),已成為企業(yè)數(shù)字化轉(zhuǎn)型的急迫需求。
9月26日,阿里巴巴高級(jí)技術(shù)專家滕圣波在《GOPS全球運(yùn)維大會(huì)》上發(fā)表了題為《云上服務(wù)器無(wú)人值守與自助服務(wù)實(shí)戰(zhàn)》的主題演講,分享了阿里云彈性計(jì)算團(tuán)隊(duì)如何利用人工智能技術(shù)賦能運(yùn)維自動(dòng)化,實(shí)現(xiàn)云上服務(wù)器無(wú)人值守,幫助用戶降低云服務(wù)器實(shí)例管理的復(fù)雜性,來(lái)保障實(shí)例服務(wù)的穩(wěn)定和高效運(yùn)行。本文根據(jù)滕圣波的演講整理。
?
?
圖:阿里巴巴高級(jí)技術(shù)專家滕圣波
本文內(nèi)容架構(gòu):
1、云上服務(wù)器為什么需要無(wú)人值守?
2、阿里云無(wú)人值守的自服務(wù)實(shí)戰(zhàn)
3、無(wú)人值守背后的數(shù)據(jù)和AI
1、云上服務(wù)器為什么需要無(wú)人值守?
運(yùn)維是一種服務(wù),既包含基礎(chǔ)設(shè)施軟件服務(wù)、也包含人力服務(wù),服務(wù)的對(duì)象是企業(yè)中使用基礎(chǔ)設(shè)施的業(yè)務(wù)團(tuán)隊(duì),而云計(jì)算IaaS是一種運(yùn)維服務(wù),服務(wù)的對(duì)象已發(fā)展為使用云服務(wù)的開發(fā)人員和運(yùn)維團(tuán)隊(duì)。隨著云計(jì)算的廣泛落地,大部分企業(yè)已經(jīng)上云,當(dāng)前就有100萬(wàn)多家用戶的業(yè)務(wù)運(yùn)行在阿里云平臺(tái)上,阿里云平臺(tái)服務(wù)的用戶也越來(lái)越多。
隨著平臺(tái)用戶規(guī)模的擴(kuò)大,我們發(fā)現(xiàn)平臺(tái)用戶在ECS實(shí)例運(yùn)維時(shí)普遍面臨三個(gè)痛點(diǎn):
(1)背景溝通成本高,為什么我的實(shí)例出問(wèn)題了?
(2)人工處理需要較長(zhǎng)的時(shí)間,為什么這個(gè)問(wèn)題這么久還沒(méi)有解決?
(3)客戶操作不透明,問(wèn)題看起來(lái)修復(fù)了,可是剛剛你做了什么?
為此,我們需要重人力投入在客服人員上讓用戶的問(wèn)題得以高效解決。為了避免用戶規(guī)模擴(kuò)大帶來(lái)的客戶側(cè)運(yùn)維成本的線性上升,我們開始利用人工智能技術(shù)賦能用戶運(yùn)維管理。在無(wú)人零售、無(wú)人駕駛成為趨勢(shì)的時(shí)候,我們認(rèn)為未來(lái)云上服務(wù)器也將實(shí)現(xiàn)無(wú)人值守。
事實(shí)上,阿里云彈性計(jì)算產(chǎn)品推出十年了,沉淀了眾多ECS實(shí)例運(yùn)維管理經(jīng)驗(yàn)和異常“行為”規(guī)律。所以依托機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng),我們通過(guò)異常“行為”數(shù)據(jù)的分析,構(gòu)建了一套云上服務(wù)器的無(wú)人值守架構(gòu),并推出了一系列自助服務(wù),實(shí)現(xiàn)了ECS實(shí)例的自診斷、自修復(fù)、自優(yōu)化、自運(yùn)維,幫助用戶降低ECS實(shí)例管理的復(fù)雜性,從而來(lái)保障實(shí)例服務(wù)的穩(wěn)定和高效運(yùn)行。
2、無(wú)人值守的自服務(wù)實(shí)戰(zhàn)
?
云計(jì)算IaaS的運(yùn)維工作可以拆分為服務(wù)側(cè)運(yùn)維和客戶側(cè)運(yùn)維,服務(wù)側(cè)運(yùn)維是云平臺(tái)的運(yùn)維工作,通常對(duì)用戶不可見的,主要涉及基礎(chǔ)設(shè)施、基礎(chǔ)產(chǎn)品和上層管控三個(gè)層面,包括機(jī)房、物理設(shè)備的運(yùn)維工作、資源虛擬化、資源調(diào)度、熱遷移等工作。隨著用戶規(guī)模的擴(kuò)大,這些運(yùn)維工作會(huì)越來(lái)越復(fù)雜。而用戶側(cè)運(yùn)維工作,是對(duì)用戶自己可見的,主要是用戶對(duì)ECS實(shí)例的修改操作和自動(dòng)化工作,包括擴(kuò)容、重啟、監(jiān)控、客服服務(wù)、工單反應(yīng)、資源編排和運(yùn)維編排等。
我們構(gòu)建的云上服務(wù)器的無(wú)人值守架構(gòu),為阿里云平臺(tái)用戶提供了一系列的自助服務(wù)。廣義上看,阿里云的自助服務(wù)囊括了ECS實(shí)例本身、實(shí)例生命周期管理、系統(tǒng)管理和自動(dòng)化、市場(chǎng)和生態(tài)四個(gè)維度,如下圖。
?
?
圖:廣義上的自助服務(wù)
狹義上來(lái)說(shuō),阿里云自助服務(wù)為用戶實(shí)現(xiàn)了ECS實(shí)例的診斷、修復(fù)和推薦的功能。當(dāng)天,阿里云自助服務(wù)已提供實(shí)例診斷工具、實(shí)例優(yōu)化推薦、自動(dòng)修復(fù)工具、最佳模板推薦和ECS事件自動(dòng)化等一系列自助服務(wù)工具,覆蓋了80% ECS常見問(wèn)題,將問(wèn)題解決的平均周期從幾小時(shí)縮短至分鐘級(jí),整個(gè)過(guò)程無(wú)需客服人工參與,無(wú)隱私泄漏風(fēng)險(xiǎn),做到了云上服務(wù)器的無(wú)人值守。未來(lái)隨著AI+數(shù)據(jù)的不斷驅(qū)動(dòng),ECS實(shí)例的診斷和修復(fù)將會(huì)越來(lái)越精準(zhǔn)。
ECS實(shí)例的智能診斷
根據(jù)平臺(tái)的數(shù)據(jù)統(tǒng)計(jì),用戶在使用ECS實(shí)例時(shí)主要面臨四大類問(wèn)題:
(1)實(shí)例無(wú)法遠(yuǎn)程訪問(wèn)
(2)實(shí)例無(wú)法啟動(dòng)/停止
(3)實(shí)例性能異常
(4)磁盤擴(kuò)容未生效
所以,在智能診斷的能力上,我們覆蓋了ECS系統(tǒng)服務(wù)、磁盤健康服務(wù)、網(wǎng)絡(luò)健康服務(wù)和Guest OS系統(tǒng)配置等維度,用戶一鍵即可完成實(shí)例的智能健康診斷。
ECS實(shí)例的自動(dòng)化修復(fù)
在智能診斷完成后,我們還會(huì)為用戶提供ECS實(shí)例自動(dòng)化修復(fù)方案,在前者定位問(wèn)題所在之后,自動(dòng)化修復(fù)能夠在1-3分鐘內(nèi)解決問(wèn)題,主要完成ECS系統(tǒng)服務(wù)修復(fù)、網(wǎng)絡(luò)問(wèn)題修復(fù)和磁盤修復(fù)。
僅僅實(shí)現(xiàn)自動(dòng)化修復(fù)是不夠的,我們認(rèn)為自動(dòng)化修復(fù)還應(yīng)該是透明合規(guī)的。我們通過(guò)運(yùn)維編排服務(wù)OOS提供自動(dòng)化引擎,通過(guò)云助手命令提供GuestOS內(nèi)的執(zhí)行能力,運(yùn)維編排服務(wù)OOS+云助手命令共同幫助用戶完成自動(dòng)化修復(fù);同時(shí),我們開源了運(yùn)維編排服務(wù)OOS+云助手命令的代碼,做到一切修復(fù)邏輯對(duì)用戶可見;一切修復(fù)操作還可以通過(guò)ECS實(shí)例的鏡像、快照和數(shù)據(jù)備份實(shí)現(xiàn)回滾;通過(guò)阿里云RAM角色控制實(shí)現(xiàn)一切權(quán)限可控,通過(guò)阿里云操作審計(jì)ActionTrail實(shí)現(xiàn)一切記錄可審計(jì),做到了真正的透明合規(guī)。
3、無(wú)人值守背后的AI與數(shù)據(jù)能力
讓我們實(shí)現(xiàn)智能診斷和自動(dòng)化修復(fù)的,是冰山下強(qiáng)大的技術(shù)支撐——AI+數(shù)據(jù)。依托底層的數(shù)據(jù)中臺(tái),我們完成了包括物理機(jī)數(shù)據(jù)、虛擬化數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、控制面數(shù)據(jù)和GuestOS內(nèi)數(shù)據(jù)等數(shù)據(jù)的采集、清洗、分析和模型的構(gòu)建;加上AI算法的不斷調(diào)優(yōu),我們搭建了用戶畫像、決策樹、預(yù)測(cè)和推薦模型等,從而保證異常診斷和自動(dòng)修復(fù)越加的精準(zhǔn)和高效。
?
當(dāng)前,在整體的ECS自助服務(wù)架構(gòu)中,主要依靠管控監(jiān)控中心實(shí)時(shí)監(jiān)測(cè)日志服務(wù)、中間件監(jiān)控、API請(qǐng)求監(jiān)控以及控制臺(tái)監(jiān)控和自助診斷的數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)引擎實(shí)現(xiàn)問(wèn)題預(yù)警和處理,進(jìn)而驅(qū)動(dòng)運(yùn)維編排服務(wù)OOS實(shí)現(xiàn)自動(dòng)化修復(fù)問(wèn)題。
?
通過(guò)這套AI驅(qū)動(dòng)的自服務(wù)架構(gòu),當(dāng)前阿里云ECS實(shí)時(shí)內(nèi)存異常感知準(zhǔn)確率在70%以上,實(shí)施預(yù)測(cè)鏈路延時(shí)則控制在100s以內(nèi);另外融合專家經(jīng)驗(yàn)、案例庫(kù)和知識(shí)庫(kù),我們構(gòu)建了一個(gè)強(qiáng)大的診斷決策樹,為加快問(wèn)題的定位和修復(fù)提供了強(qiáng)有力的依據(jù)。
近兩年,阿里云彈性計(jì)算團(tuán)隊(duì)持續(xù)不斷地投入構(gòu)建異常行為數(shù)據(jù)集,未來(lái)計(jì)劃將其演進(jìn)成為阿里巴巴集團(tuán)在異常預(yù)測(cè)上的“ImageNet 數(shù)據(jù)集”并進(jìn)行開源,希望能為異常預(yù)測(cè)在業(yè)內(nèi)的發(fā)展貢獻(xiàn)更大的價(jià)值。
?
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的维大杀器来了,未来云上服务器或将实现无人值守的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 考拉海购全面云原生迁移之路
- 下一篇: 如何生成 Flink 作业的交互式火焰图