日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

蚂蚁金服红蓝军技术攻防演练究竟有多“狠”

發(fā)布時間:2023/12/20 编程问答 57 豆豆
生活随笔 收集整理的這篇文章主要介紹了 蚂蚁金服红蓝军技术攻防演练究竟有多“狠” 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

如果一個技術(shù)團隊不干別的,專門“搞破壞”,這是一種怎樣的存在?這真的不是“天方夜譚”,在支付寶確實有這么一支隊伍——技術(shù)藍(lán)軍。藍(lán)軍的任務(wù)就是不斷地攻擊和進攻,而防守方則是技術(shù)紅軍。在支付寶,藍(lán)軍從屬于螞蟻金服技術(shù)風(fēng)險部(SRE),而紅軍則包括SRE及各業(yè)務(wù)部門的技術(shù)團隊。

說到SRE,就需要科普一下了。SRE全拼為Site Reliability Engineer,是軟件工程師和系統(tǒng)管理員的結(jié)合,是一種要求極高的技術(shù)工種。據(jù)說,目前全球只有少數(shù)幾家頂級互聯(lián)網(wǎng)公司擁有真正意義上的SRE團隊,螞蟻金服是其中之一。

由藍(lán)軍主導(dǎo)的技術(shù)攻防演練就是那個傳說中的“瘋起來連自己都打”的項目,今天,就來起底一下這個神秘的項目。

從“青銅”到強者

紅藍(lán)軍技術(shù)攻防演練與螞蟻金服技術(shù)風(fēng)險部的發(fā)展息息相關(guān),而螞蟻技術(shù)風(fēng)險的演進軌跡和游戲中的不斷打怪升級非常相像。

早期是質(zhì)量+運維+架構(gòu)師三角協(xié)同,各司其職并自發(fā)性的開展一些技術(shù)風(fēng)險相關(guān)的工作。2013年,螞蟻金服技術(shù)團隊提出了質(zhì)量2.0戰(zhàn)略,以統(tǒng)一的規(guī)章、統(tǒng)一的流程和統(tǒng)一的陣型,開始體系化地沉淀故障檢測等方面的平臺化能力。

大概一年后,也就是2014年,專門成立了技術(shù)質(zhì)量部,從全域視角解決技術(shù)風(fēng)險的問題。

2015年,技術(shù)質(zhì)量部正式升級成為技術(shù)風(fēng)險部,專注研發(fā)及架構(gòu)的技術(shù)風(fēng)險問題,并完成相應(yīng)解決方案和落地的平臺。

2016年,技術(shù)風(fēng)險部再次升級為SRE團隊。

SRE團隊組建后,就開始全面開展故障自動定位、自適應(yīng)容災(zāi)、防抖、精細(xì)化高可用等工作。其中防抖這塊,要保證任何的網(wǎng)絡(luò)或基礎(chǔ)設(shè)施抖動,用戶都無感知;而精細(xì)化高可用,又叫單筆高可用,其顆粒度可以精準(zhǔn)到用戶的每一筆交易,遠(yuǎn)遠(yuǎn)優(yōu)于行業(yè)內(nèi)的機房級高可用。

同時,那個熱衷“找茬”的組織——技術(shù)藍(lán)軍也正式成立。這個專門的、擁有獨立職能的團隊不干別的,主要職責(zé)是挖掘系統(tǒng)的弱點并發(fā)起“真實”的攻擊,紅藍(lán)軍技術(shù)攻防演練也自此誕生。

牛X的是,技術(shù)藍(lán)軍并不對各業(yè)務(wù)方負(fù)責(zé),只對應(yīng)用架構(gòu)及防御系統(tǒng)的穩(wěn)定性和可靠性負(fù)責(zé)。在藍(lán)軍眼中,故障的發(fā)生是必然的,只是時間早晚而已。藍(lán)軍只有想盡辦法去觸發(fā)這些故障,這樣,在故障真實發(fā)生的時候,才有足夠的應(yīng)付能力。

所以,藍(lán)軍發(fā)掘各類脆弱點,并通過紅藍(lán)軍技術(shù)攻防演練,不斷驗證防御系統(tǒng)的可靠性。而故障防御系統(tǒng)及不斷優(yōu)化的高可用架構(gòu)則是由SRE團隊的紅軍與各業(yè)務(wù)深度合作,沉淀、構(gòu)建出來的。


技術(shù)藍(lán)軍正在進行作戰(zhàn)部署

現(xiàn)在,全棧級別的技術(shù)攻防演練每周都在進行,藍(lán)軍似乎對“瘋起來連自己都打”很上癮。

利矛與堅盾不斷升級

持續(xù)不斷的攻防演練,讓藍(lán)軍和紅軍的技術(shù)能力得到了極大地提升,同時雙方“武器庫”也在不斷升級。

2017年秋天,藍(lán)軍團隊在成立后的兩個月內(nèi),自主研發(fā)了字節(jié)碼級別的故障注入系統(tǒng)Awatch,這個武器的厲害之處在于可以實時地對運行中的業(yè)務(wù)系統(tǒng)進行任意鏈路的編織侵入。這對于對于技術(shù)藍(lán)軍以及整個紅藍(lán)攻防體系,具有里程碑式的意義。

藍(lán)軍研發(fā)出了厲害的武器,紅軍也沒閑著。

與此同時,技術(shù)紅軍的防控體系建設(shè)也在如火如荼地進行著,實時核對平臺橫空而出。該平臺能夠做到穩(wěn)定的分鐘級核對異常發(fā)現(xiàn)能力,在某些場景下可以做到秒級發(fā)現(xiàn),并且平臺提供了業(yè)務(wù)快速接入的能力;紅軍還在實時核對平臺的基礎(chǔ)之上,升級演化出一套智能核對平臺(內(nèi)部代號四道防線),引入AI技術(shù)自動識別業(yè)務(wù)問題,目前這套防線已經(jīng)覆蓋螞蟻80%以上的業(yè)務(wù)。另外,各個業(yè)務(wù)域針對自身業(yè)務(wù)的一些特殊性,也研發(fā)了相應(yīng)的核對系統(tǒng)。

盡管藍(lán)軍制造故障的能力有很大的提高,但大部分的故障場景主要是各個業(yè)務(wù)方提供的,只有極少數(shù)是藍(lán)軍人工梳理業(yè)務(wù)或者分析代碼產(chǎn)出。此時,藍(lán)軍團隊認(rèn)為,日常演練常態(tài)化,在故障場景發(fā)現(xiàn)方面不能再依賴業(yè)務(wù),必須建立自主發(fā)現(xiàn)故障場景的能力。


用“可樂山”明志,是程序員常見的套路

2018年3月,藍(lán)軍推出故障場景挖掘平臺,基于Awatch探針探測應(yīng)用內(nèi)數(shù)據(jù)流,以此進行“弱點挖掘”。這套弱點挖掘體系,能夠自動發(fā)現(xiàn)故障場景,最高能夠在5分鐘內(nèi)產(chǎn)生500+的故障場景,紅藍(lán)攻防的日常演練的最為重要一塊拼圖終于完成!

然而新的問題來了。

藍(lán)軍的故障挖掘平臺能力毋庸置疑,但有攻擊就需要應(yīng)急,高頻攻防實施亦會給紅軍帶來大量的人力消耗。持續(xù)應(yīng)急壓力驅(qū)動,紅軍開展““故障自愈”架構(gòu)體系升級及能力建設(shè),以效能為目標(biāo),結(jié)合仿真,紅藍(lán)軍一起研發(fā)了“無損”攻防體系,并且推出與之匹配的度量平臺,自動度量攻防結(jié)果,數(shù)據(jù)可視化。

目前,常態(tài)紅藍(lán)技術(shù)對抗保持每周200+個故障場景的節(jié)奏在持續(xù)運作。

常態(tài)化的紅藍(lán) “互懟”

在線、實時、隨地、無差別……這是支付寶技術(shù)藍(lán)軍實施攻擊行為的幾大標(biāo)簽。

2017年年底的紅藍(lán)技術(shù)攻防周,技術(shù)藍(lán)軍發(fā)起攻擊,但由于故障組件一處隱藏bug導(dǎo)致故障命中數(shù)量遠(yuǎn)遠(yuǎn)大于預(yù)期,給紅軍增添了不少麻煩,業(yè)務(wù)線的技術(shù)同學(xué)投入大量的人力和資源進行善后。此情此景之下,紅軍方面不僅沒有抱怨,反而給予藍(lán)軍鼓勵,“這次預(yù)期外的故障攻擊是最真實的應(yīng)急鍛煉!”

2018年年中的一次紅藍(lán)技術(shù)攻防中,藍(lán)軍在周末發(fā)起突襲,而剛好紅軍的相關(guān)同學(xué)正在舉辦婚禮。于是,一群程序員趕緊拿出吃飯的家伙,噼里啪啦敲著鍵盤進行應(yīng)急,那畫面簡直不要太美了。

還是在2018年的一次對抗中,紅軍祭出了“尖端武器”——自適應(yīng)防災(zāi)、防抖等,這讓藍(lán)軍吃盡苦頭,幾乎每次攻擊都無功而返。挫敗感飆升的藍(lán)軍最終放出大招,讓紅軍接受了非常猛烈的炮火洗禮。

有意思的是,似乎藍(lán)軍攻擊得越歡,紅軍的同學(xué)越高興……雖然看上去很受虐,但卻沒毛病,因為藍(lán)軍攻擊得越狠越深入,被挖掘和發(fā)現(xiàn)出來的技術(shù)風(fēng)險就會越確定,防御系統(tǒng)的能力也會因此而得到提升。


除了設(shè)計縝密的防御措施防止襲擊,程序員拜關(guān)公求庇佑也是“習(xí)俗”

令人震驚的是,為了防止藍(lán)軍的“襲擊”,紅軍除了在防御系統(tǒng)方面下十足的功夫,每年期中和期末的紅藍(lán)技術(shù)攻防演練,紅軍都要舉辦一個儀式——那就是拜關(guān)公,除了叩拜,還得給驅(qū)邪鎮(zhèn)惡的關(guān)公獻(xiàn)禮,禮品包括旺仔牛奶、格子襯衫、鍵盤、香煙等。

風(fēng)險防控技術(shù)全面開放

螞蟻金服技術(shù)風(fēng)險部門經(jīng)過不斷地升級,并將紅藍(lán)技術(shù)攻防演練形成常態(tài)化。除了每周進行全棧級別的演練,每年還會舉行規(guī)模極大的“期中考試”和“期末考試”。這意味著,支付寶的風(fēng)險防控體系持續(xù)地經(jīng)受打磨與錘煉。

目前,支付寶的“紅藍(lán)對抗”演練已經(jīng)沉淀出一整套成熟的風(fēng)險防控體系,通過仿真環(huán)境模擬天災(zāi)人禍,去考驗技術(shù)架構(gòu)的健壯性及技術(shù)人員的應(yīng)急能力,從而全面地提升系統(tǒng)穩(wěn)定,實現(xiàn)系統(tǒng)的高可靠性和高可用性。

所謂的天災(zāi)和人禍。天災(zāi)指的是,當(dāng)出現(xiàn)臺風(fēng)、斷網(wǎng)、火情等極端異常情況的時候,系統(tǒng)如何快速應(yīng)對。這有點類似于今年杭州云棲ATEC大會上,螞蟻金服副CTO胡喜現(xiàn)場演練的異常斷網(wǎng)情況下,“三地五中心”自動切換,保證支付服務(wù)不中斷。人禍則是指因技術(shù)人員操作失誤引發(fā)故障后,系統(tǒng)如何快速應(yīng)。

在螞蟻金融科技官網(wǎng)上可以看到,這些技術(shù)風(fēng)險相關(guān)的能力已經(jīng)對外開放,目前共有3款產(chǎn)品,包括容災(zāi)應(yīng)急平臺、全鏈路壓測和資金安全監(jiān)控;另外,還有3款產(chǎn)品,變更管控、巡檢平臺和黑屏運維管控即將上線對外開放。

?

原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的蚂蚁金服红蓝军技术攻防演练究竟有多“狠”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。