运维大杀器来了,未来云上服务器或将实现无人值守
云原生時代下,企業(yè)的IT運(yùn)維面臨架構(gòu)復(fù)雜化、業(yè)務(wù)需求多樣化和運(yùn)維數(shù)據(jù)海量化等挑戰(zhàn),如何能夠?qū)崿F(xiàn)精準(zhǔn)告警、異常智能診斷、根因定位、異常預(yù)測和異常自動修復(fù),已成為企業(yè)數(shù)字化轉(zhuǎn)型的急迫需求。
9月26日,阿里巴巴高級技術(shù)專家滕圣波在《GOPS全球運(yùn)維大會》上發(fā)表了題為《云上服務(wù)器無人值守與自助服務(wù)實戰(zhàn)》的主題演講,分享了阿里云彈性計算團(tuán)隊如何利用人工智能技術(shù)賦能運(yùn)維自動化,實現(xiàn)云上服務(wù)器無人值守,幫助用戶降低云服務(wù)器實例管理的復(fù)雜性,來保障實例服務(wù)的穩(wěn)定和高效運(yùn)行。本文根據(jù)滕圣波的演講整理。
圖:阿里巴巴高級技術(shù)專家滕圣波
本文內(nèi)容架構(gòu):
1、云上服務(wù)器為什么需要無人值守?
2、阿里云無人值守的自服務(wù)實戰(zhàn)
3、無人值守背后的數(shù)據(jù)和AI
1、云上服務(wù)器為什么需要無人值守?
運(yùn)維是一種服務(wù),既包含基礎(chǔ)設(shè)施軟件服務(wù)、也包含人力服務(wù),服務(wù)的對象是企業(yè)中使用基礎(chǔ)設(shè)施的業(yè)務(wù)團(tuán)隊,而云計算IaaS是一種運(yùn)維服務(wù),服務(wù)的對象已發(fā)展為使用云服務(wù)的開發(fā)人員和運(yùn)維團(tuán)隊。隨著云計算的廣泛落地,大部分企業(yè)已經(jīng)上云,當(dāng)前就有100萬多家用戶的業(yè)務(wù)運(yùn)行在阿里云平臺上,阿里云平臺服務(wù)的用戶也越來越多。
隨著平臺用戶規(guī)模的擴(kuò)大,我們發(fā)現(xiàn)平臺用戶在ECS實例運(yùn)維時普遍面臨三個痛點:
(1)背景溝通成本高,為什么我的實例出問題了?
(2)人工處理需要較長的時間,為什么這個問題這么久還沒有解決?
(3)客戶操作不透明,問題看起來修復(fù)了,可是剛剛你做了什么?
為此,我們需要重人力投入在客服人員上讓用戶的問題得以高效解決。為了避免用戶規(guī)模擴(kuò)大帶來的客戶側(cè)運(yùn)維成本的線性上升,我們開始利用人工智能技術(shù)賦能用戶運(yùn)維管理。在無人零售、無人駕駛成為趨勢的時候,我們認(rèn)為未來云上服務(wù)器也將實現(xiàn)無人值守。
事實上,阿里云彈性計算產(chǎn)品推出十年了,沉淀了眾多ECS實例運(yùn)維管理經(jīng)驗和異常“行為”規(guī)律。所以依托機(jī)器學(xué)習(xí)的數(shù)據(jù)驅(qū)動,我們通過異常“行為”數(shù)據(jù)的分析,構(gòu)建了一套云上服務(wù)器的無人值守架構(gòu),并推出了一系列自助服務(wù),實現(xiàn)了ECS實例的自診斷、自修復(fù)、自優(yōu)化、自運(yùn)維,幫助用戶降低ECS實例管理的復(fù)雜性,從而來保障實例服務(wù)的穩(wěn)定和高效運(yùn)行。
2、無人值守的自服務(wù)實戰(zhàn)
云計算IaaS的運(yùn)維工作可以拆分為服務(wù)側(cè)運(yùn)維和客戶側(cè)運(yùn)維,服務(wù)側(cè)運(yùn)維是云平臺的運(yùn)維工作,通常對用戶不可見的,主要涉及基礎(chǔ)設(shè)施、基礎(chǔ)產(chǎn)品和上層管控三個層面,包括機(jī)房、物理設(shè)備的運(yùn)維工作、資源虛擬化、資源調(diào)度、熱遷移等工作。隨著用戶規(guī)模的擴(kuò)大,這些運(yùn)維工作會越來越復(fù)雜。而用戶側(cè)運(yùn)維工作,是對用戶自己可見的,主要是用戶對ECS實例的修改操作和自動化工作,包括擴(kuò)容、重啟、監(jiān)控、客服服務(wù)、工單反應(yīng)、資源編排和運(yùn)維編排等。
我們構(gòu)建的云上服務(wù)器的無人值守架構(gòu),為阿里云平臺用戶提供了一系列的自助服務(wù)。廣義上看,阿里云的自助服務(wù)囊括了ECS實例本身、實例生命周期管理、系統(tǒng)管理和自動化、市場和生態(tài)四個維度,如下圖。
圖:廣義上的自助服務(wù)
覆蓋了80% ECS常見問題,將問題解決的平均周期從幾小時縮短至分鐘級
ECS實例的智能診斷
根據(jù)平臺的數(shù)據(jù)統(tǒng)計,用戶在使用ECS實例時主要面臨四大類問題:
(1)實例無法遠(yuǎn)程訪問
(2)實例無法啟動/停止
(3)實例性能異常
(4)磁盤擴(kuò)容未生效
所以,在智能診斷的能力上,我們覆蓋了ECS系統(tǒng)服務(wù)、磁盤健康服務(wù)、網(wǎng)絡(luò)健康服務(wù)和Guest OS系統(tǒng)配置等維度,用戶一鍵即可完成實例的智能健康診斷。
ECS實例的自動化修復(fù)
在智能診斷完成后,我們還會為用戶提供ECS實例自動化修復(fù)方案,在前者定位問題所在之后,自動化修復(fù)能夠在1-3分鐘內(nèi)解決問題,主要完成ECS系統(tǒng)服務(wù)修復(fù)、網(wǎng)絡(luò)問題修復(fù)和磁盤修復(fù)。
僅僅實現(xiàn)自動化修復(fù)是不夠的,我們認(rèn)為自動化修復(fù)還應(yīng)該是透明合規(guī)的。我們通過運(yùn)維編排服務(wù)OOS提供自動化引擎,通過云助手命令提供GuestOS內(nèi)的執(zhí)行能力,運(yùn)維編排服務(wù)OOS+云助手命令共同幫助用戶完成自動化修復(fù);同時,我們開源了運(yùn)維編排服務(wù)OOS+云助手命令的代碼,做到一切修復(fù)邏輯對用戶可見;一切修復(fù)操作還可以通過ECS實例的鏡像、快照和數(shù)據(jù)備份實現(xiàn)回滾;通過阿里云RAM角色控制實現(xiàn)一切權(quán)限可控,通過阿里云操作審計ActionTrail實現(xiàn)一切記錄可審計,做到了真正的透明合規(guī)。
3、無人值守背后的AI與數(shù)據(jù)能力
讓我們實現(xiàn)智能診斷和自動化修復(fù)的,是冰山下強(qiáng)大的技術(shù)支撐——AI+數(shù)據(jù)。依托底層的數(shù)據(jù)中臺,我們完成了包括物理機(jī)數(shù)據(jù)、虛擬化數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、控制面數(shù)據(jù)和GuestOS內(nèi)數(shù)據(jù)等數(shù)據(jù)的采集、清洗、分析和模型的構(gòu)建;加上AI算法的不斷調(diào)優(yōu),我們搭建了用戶畫像、決策樹、預(yù)測和推薦模型等,從而保證異常診斷和自動修復(fù)越加的精準(zhǔn)和高效。
當(dāng)前,在整體的ECS自助服務(wù)架構(gòu)中,主要依靠管控監(jiān)控中心實時監(jiān)測日志服務(wù)、中間件監(jiān)控、API請求監(jiān)控以及控制臺監(jiān)控和自助診斷的數(shù)據(jù),通過機(jī)器學(xué)習(xí)引擎實現(xiàn)問題預(yù)警和處理,進(jìn)而驅(qū)動運(yùn)維編排服務(wù)OOS實現(xiàn)自動化修復(fù)問題。
通過這套AI驅(qū)動的自服務(wù)架構(gòu),當(dāng)前阿里云ECS實時內(nèi)存異常感知準(zhǔn)確率在70%以上,實施預(yù)測鏈路延時則控制在100s以內(nèi);另外融合專家經(jīng)驗、案例庫和知識庫,我們構(gòu)建了一個強(qiáng)大的診斷決策樹,為加快問題的定位和修復(fù)提供了強(qiáng)有力的依據(jù)。
近兩年,阿里云彈性計算團(tuán)隊持續(xù)不斷地投入構(gòu)建異常行為數(shù)據(jù)集,未來計劃將其演進(jìn)成為阿里巴巴集團(tuán)在異常預(yù)測上的“ImageNet 數(shù)據(jù)集”并進(jìn)行開源,希望能為異常預(yù)測在業(yè)內(nèi)的發(fā)展貢獻(xiàn)更大的價值。
關(guān)注百曉生,笑談云計算
原文鏈接:https://developer.aliyun.com/article/774294?
版權(quán)聲明:本文內(nèi)容由阿里云實名注冊用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報,一經(jīng)查實,本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。總結(jié)
以上是生活随笔為你收集整理的运维大杀器来了,未来云上服务器或将实现无人值守的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 玹疯:这些年我走过的弯路
- 下一篇: 字节跳动 Flink 单点恢复功能实践