阿里云故障演练平台获得可信云最高等级认证,为企业数字韧性能力保驾护航
7月27日,2021可信云大會(huì)在北京召開(kāi)。會(huì)上,阿里云故障演練平臺(tái)入選可信云最佳技術(shù)實(shí)踐,并首批通過(guò)可信云混沌工程平臺(tái)能力要求最高等級(jí)-先進(jìn)級(jí)認(rèn)證。同時(shí),由信通院牽頭,阿里云計(jì)算有限公司聯(lián)合多家企業(yè)共同發(fā)起的“混沌工程實(shí)驗(yàn)室”宣布成立。
雙項(xiàng)認(rèn)證,阿里云故障演練平臺(tái)獲可信云最高等級(jí)認(rèn)證
?
隨著企業(yè)對(duì)于云計(jì)算的理解和實(shí)踐不斷深入,基于云計(jì)算的分布式架構(gòu)成為越來(lái)越多企業(yè)應(yīng)用構(gòu)建的首選方案,如何通過(guò)混沌工程提升云原生系統(tǒng)穩(wěn)定性和保障業(yè)務(wù)連續(xù)性成為業(yè)內(nèi)普遍關(guān)注的話(huà)題。
?
混沌工程是主要通過(guò)故障注入的方式,提前發(fā)現(xiàn)系統(tǒng)穩(wěn)定性等問(wèn)題,旨在提升系統(tǒng)和組織韌性,打造韌性的架構(gòu),保障業(yè)務(wù)連續(xù)性。在信通院可信云混沌工程平臺(tái)測(cè)評(píng)中,阿里云故障演練平臺(tái)以最高分成績(jī)通過(guò)資源支持、故障場(chǎng)景、場(chǎng)景管理、實(shí)驗(yàn)流程、實(shí)驗(yàn)防護(hù)、實(shí)驗(yàn)度量、權(quán)限管理、安全審計(jì)等8項(xiàng)能力測(cè)評(píng),并入選2021可信云最佳技術(shù)實(shí)踐,雙項(xiàng)認(rèn)證,再一次證明了阿里云在混沌工程領(lǐng)域的技術(shù)和產(chǎn)品實(shí)力。
?
故障演練隨著阿里巴巴系統(tǒng)架構(gòu)從微服務(wù),到容器化,再到云原生一起發(fā)展,內(nèi)部已有近10年的混沌工程落地實(shí)踐經(jīng)驗(yàn)。阿里云故障演練平臺(tái)將阿里巴巴內(nèi)部的實(shí)踐經(jīng)驗(yàn)以產(chǎn)品化的方式對(duì)外輸出,提供豐富的實(shí)驗(yàn)場(chǎng)景和專(zhuān)家經(jīng)驗(yàn)庫(kù)、領(lǐng)域化的解決方案,滿(mǎn)足用戶(hù)的故障場(chǎng)景需求,在靈活的流程編排和開(kāi)放的集成能力下,提供監(jiān)控、報(bào)告等實(shí)現(xiàn)混沌工程實(shí)施閉環(huán),通過(guò)權(quán)限管控和演練防護(hù)來(lái)控制故障演練的風(fēng)險(xiǎn),幫助企業(yè)在云遷移、云就緒、云原生過(guò)程中提升系統(tǒng)穩(wěn)定性和業(yè)務(wù)連續(xù)性。
?
?
自混沌工程理論提出以來(lái),很多企業(yè)在探索和實(shí)踐,但落地形式不同,阿里云故障演練平臺(tái)有何不同?
?
- 靈活的流程編排:制訂了一套標(biāo)準(zhǔn)化的演練流程,在此基礎(chǔ)上可以添加所需的流程節(jié)點(diǎn)。同時(shí)支持多場(chǎng)景的運(yùn)行方式。
- 可視化故障演練:與架構(gòu)感知集成,在架構(gòu)拓?fù)淇梢暬幕A(chǔ)上,實(shí)現(xiàn)故障注入,同時(shí)可以配合架構(gòu)巡檢,發(fā)現(xiàn)系統(tǒng)風(fēng)險(xiǎn)點(diǎn),使用故障演練進(jìn)行驗(yàn)證。
- 多樣的專(zhuān)家經(jīng)驗(yàn)庫(kù):將阿里巴巴內(nèi)部多年的故障演練經(jīng)驗(yàn)沉淀到演練模板中,具備演練場(chǎng)景的真實(shí)性和實(shí)用性,極大的提升演練創(chuàng)建的效率,同時(shí)解決用戶(hù)上手混沌工程難的問(wèn)題。
- 領(lǐng)域化的解決方案:提供對(duì)服務(wù)組件、系統(tǒng)架構(gòu)等穩(wěn)定性驗(yàn)證的產(chǎn)品化解決方案,通過(guò)架構(gòu)感知、依賴(lài)分析等動(dòng)態(tài)識(shí)別組件和架構(gòu),自動(dòng)生成演練方案,達(dá)到快、準(zhǔn)、全的演練目的。
使用故障演練平臺(tái)做混沌工程,可以衡量微服務(wù)的容錯(cuò)能力,估算系統(tǒng)容錯(cuò)紅線(xiàn),衡量系統(tǒng)容錯(cuò)能力。并且,故障演練平臺(tái)可以驗(yàn)證容器編排配置是否合理,測(cè)試PaaS層是否健壯,驗(yàn)證監(jiān)控告警的時(shí)效性,提升監(jiān)控告警的準(zhǔn)確和時(shí)效性。通過(guò)故障突襲,隨機(jī)對(duì)系統(tǒng)注入故障,考察相關(guān)人員對(duì)問(wèn)題的應(yīng)急能力,以及問(wèn)題上報(bào)、處理流程是否合理,達(dá)到以戰(zhàn)養(yǎng)戰(zhàn),鍛煉人定位與解決問(wèn)題的能力。通過(guò)故障注入的方式,提前發(fā)現(xiàn)系統(tǒng)穩(wěn)定性等問(wèn)題,旨在提升系統(tǒng)和組織韌性,打造韌性的架構(gòu),保障業(yè)務(wù)連續(xù)性。
?
阿里云故障演練平臺(tái)自2019年商業(yè)化以來(lái),通過(guò)多樣化的實(shí)驗(yàn)工具,自動(dòng)化的工具部署,多維度的演練方式,靈活的流程編排,豐富的故障場(chǎng)景,實(shí)用的演練模板,專(zhuān)業(yè)的解決方案,安全的演練防護(hù),深度的云產(chǎn)品集成,已經(jīng)擁有近千個(gè)企業(yè)客戶(hù),服務(wù)了包括華泰證券、比心科技、親寶寶等客戶(hù),助力企業(yè)在云原生時(shí)代構(gòu)建數(shù)字韌性能力。
?
推動(dòng)標(biāo)準(zhǔn)統(tǒng)一,打造ChaosBlade 開(kāi)源項(xiàng)目,縮短構(gòu)建混沌工程路徑
?
近幾年,越來(lái)越多的企業(yè)開(kāi)始關(guān)注并探索混沌工程,漸漸成為測(cè)試系統(tǒng)高可用,構(gòu)建對(duì)系統(tǒng)信息不可缺少的工具。但混沌工程領(lǐng)域目前還處于一個(gè)快速演進(jìn)的階段,最佳實(shí)踐和工具框架沒(méi)有統(tǒng)一標(biāo)準(zhǔn)。實(shí)施混沌工程可能會(huì)帶來(lái)一些潛在的業(yè)務(wù)風(fēng)險(xiǎn),經(jīng)驗(yàn)和工具的缺失也將進(jìn)一步阻止 DevOps 人員實(shí)施混沌工程。混沌工程領(lǐng)域目前也有很多優(yōu)秀的開(kāi)源工具,分別覆蓋某個(gè)領(lǐng)域,但這些工具的使用方式千差萬(wàn)別,其中有些工具上手難度大,學(xué)習(xí)成本高,混沌實(shí)驗(yàn)?zāi)芰我?#xff0c;使很多人對(duì)混沌工程領(lǐng)域望而卻步。
?
阿里巴巴集團(tuán)在混沌工程領(lǐng)域已經(jīng)實(shí)踐多年,為了幫助企業(yè)更好地構(gòu)建混沌工程路徑,阿里巴巴在2019年開(kāi)源了混沌工程項(xiàng)目 ChaosBlade,并在今年成為 CNCF Sandbox 項(xiàng)目。將"自研技術(shù)"、“開(kāi)源項(xiàng)目”、"商業(yè)產(chǎn)品"形成統(tǒng)一的技術(shù)體系,阿里云通過(guò)三位一體的正向循環(huán),實(shí)現(xiàn)了技術(shù)價(jià)值的最大化。
?
ChaosBlade 是一款遵循混沌工程原理的開(kāi)源工具,包含混沌工程實(shí)驗(yàn)工具 chaosblade 和混沌工程平臺(tái) chaosblade-box,旨在通過(guò)混沌工程幫助企業(yè)解決云原生過(guò)程中高可用問(wèn)題。實(shí)驗(yàn)工具 chaosblade 支持 3 大系統(tǒng)平臺(tái),4 種編程語(yǔ)言應(yīng)用,共涉及 200 多個(gè)實(shí)驗(yàn)場(chǎng)景,3000 多個(gè)實(shí)驗(yàn)參數(shù),可以精細(xì)化地控制實(shí)驗(yàn)范圍。ChaosBlade 已成為阿里云故障演練平臺(tái)基礎(chǔ)能力底座服務(wù)眾多企業(yè)客戶(hù)。
?
未來(lái),ChaosBlade 將繼續(xù)以云原生為基礎(chǔ),提供面向多集群、多環(huán)境、多語(yǔ)言的混沌工程平臺(tái)和混沌工程實(shí)驗(yàn)工具;后續(xù)會(huì)托管更多的混沌實(shí)驗(yàn)工具和兼容主流的平臺(tái),實(shí)現(xiàn)場(chǎng)景推薦,提供業(yè)務(wù)、系統(tǒng)監(jiān)控集成,輸出實(shí)驗(yàn)報(bào)告,在易用的基礎(chǔ)上完成混沌工程操作閉環(huán)。
?
業(yè)內(nèi)首個(gè)混沌工程實(shí)驗(yàn)室正式成立,推動(dòng)混沌工程實(shí)踐落地
?
在數(shù)字化產(chǎn)業(yè)對(duì)系統(tǒng)穩(wěn)定性和云計(jì)算高可用要求越來(lái)越高的大背景下,由中國(guó)信通院牽頭,阿里云等眾多企業(yè)共同參與的混沌工程實(shí)驗(yàn)室正式成立。混沌工程實(shí)驗(yàn)室將推動(dòng)混沌工程在各領(lǐng)域典型應(yīng)用場(chǎng)景中的實(shí)踐落地,聯(lián)動(dòng)云計(jì)算上下游企業(yè)來(lái)共同推進(jìn)混沌工程快速發(fā)展。
?
阿里云擁有國(guó)內(nèi)最豐富的混沌工程實(shí)踐經(jīng)驗(yàn),并致力于打造云原生時(shí)代的混沌工程標(biāo)準(zhǔn)體系。阿里云在海量互聯(lián)網(wǎng)服務(wù)以及歷年雙11場(chǎng)景的實(shí)踐過(guò)程中,沉淀出了包括全鏈路壓測(cè)、線(xiàn)上流量管控、故障演練等高可用核心技術(shù),并通過(guò)開(kāi)源和云上服務(wù)的形式對(duì)外輸出,以幫助企業(yè)用戶(hù)和開(kāi)發(fā)者享受技術(shù)紅利,提高開(kāi)發(fā)效率,縮短業(yè)務(wù)的構(gòu)建流程。
?
總結(jié)
以上是生活随笔為你收集整理的阿里云故障演练平台获得可信云最高等级认证,为企业数字韧性能力保驾护航的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【GOTC 预告】王思宇:从 OpenK
- 下一篇: 当容器应用越发广泛,我们又该如何监测容器