日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

极致用云,数智护航

發(fā)布時間:2024/8/23 编程问答 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 极致用云,数智护航 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介:我們邀請到了阿里云混合云監(jiān)控平臺(Sunfire)團(tuán)隊(duì)負(fù)責(zé)人王肇剛來給我們分析下阿里背后的數(shù)字化業(yè)務(wù)運(yùn)維安全工程標(biāo)準(zhǔn)及解決方案。 本次分享涵蓋了全新發(fā)布的數(shù)字化業(yè)務(wù)運(yùn)維安全工程標(biāo)準(zhǔn)、安全生產(chǎn)解決方案,以及全新升級的產(chǎn)品能力:包括了全棧統(tǒng)一運(yùn)維、全景監(jiān)控和全周期安全工程相關(guān)產(chǎn)品能力的介紹,也包含了對產(chǎn)品解決方案在客戶側(cè)落地的最佳實(shí)踐分享。

我們邀請到了阿里云混合云監(jiān)控平臺(Sunfire)團(tuán)隊(duì)負(fù)責(zé)人王肇剛來給我們分析下阿里背后的數(shù)字化業(yè)務(wù)運(yùn)維安全工程標(biāo)準(zhǔn)及解決方案。

本次分享涵蓋了全新發(fā)布的數(shù)字化業(yè)務(wù)運(yùn)維安全工程標(biāo)準(zhǔn)、安全生產(chǎn)解決方案,以及全新升級的產(chǎn)品能力:包括了全棧統(tǒng)一運(yùn)維、全景監(jiān)控和全周期安全工程相關(guān)產(chǎn)品能力的介紹,也包含了對產(chǎn)品解決方案在客戶側(cè)落地的最佳實(shí)踐分享。

混合云新一代運(yùn)維

混合云新一代業(yè)務(wù)運(yùn)維:數(shù)字化業(yè)務(wù)運(yùn)維系統(tǒng)工程

在數(shù)字化轉(zhuǎn)型的時代背景下,企業(yè)在未來5年內(nèi)將會發(fā)生3個變化:業(yè)務(wù)規(guī)模變大、技術(shù)變復(fù)雜、組織職能變得更加標(biāo)準(zhǔn)化。

規(guī)模會越來越大,從單個業(yè)務(wù)上云到多個業(yè)務(wù)上云,云上資源從百臺到千臺。這些變化帶來的挑戰(zhàn)是技術(shù)風(fēng)險導(dǎo)致的影響面擴(kuò)大、范圍變廣、修復(fù)成本變高。如果企業(yè)核心業(yè)務(wù)的穩(wěn)定性出現(xiàn)了波動乃至出現(xiàn)故障,輕則影響體驗(yàn)、口碑并帶來客戶投入,重則導(dǎo)致巨大經(jīng)濟(jì)損失,甚至威脅企業(yè)的生存。

企業(yè)的技術(shù)棧越來越復(fù)雜,從單云到多云,從專有云到混合云;從傳統(tǒng)開發(fā)到使用新技術(shù)開;企業(yè)IT系統(tǒng)的基礎(chǔ)架構(gòu)也是多云環(huán)境、多技術(shù)棧并存;不同企業(yè)的數(shù)據(jù)的分析、治理、存儲和展現(xiàn)能力也存在差異。這些復(fù)雜性帶來的挑戰(zhàn)是:故障多、定位難、穩(wěn)定性不可控。已知故障報警量多、未知故障潛伏期長,定界定位慢、響應(yīng)慢、恢復(fù)慢,故障無法根除。而故障的重復(fù)發(fā)生會進(jìn)一步導(dǎo)致影響時間、范圍和發(fā)生頻率不可控。

企業(yè)組織架構(gòu)越來越標(biāo)準(zhǔn)化,組織分工標(biāo)準(zhǔn)化,即職責(zé)權(quán)定義清晰;人員能力標(biāo)準(zhǔn)化,即專業(yè)運(yùn)維知識能力、操作能力、決策能力;協(xié)同標(biāo)準(zhǔn)化,即上下級、同級、內(nèi)外協(xié)作標(biāo)準(zhǔn)化;決策架構(gòu)標(biāo)準(zhǔn)化,即決策架構(gòu)變化不會的導(dǎo)致技術(shù)運(yùn)維能力的變化。對于剛進(jìn)入數(shù)字化企業(yè)來說,組織完全沒有達(dá)到這個標(biāo)準(zhǔn)能力,帶來的挑戰(zhàn)就是:協(xié)同難,扯皮多、定責(zé)難;山頭文化,跨組織跨團(tuán)隊(duì)協(xié)作難;出問題,找不到責(zé)任人;責(zé)任不清,問題無人解決。

面向這些變化與挑戰(zhàn),在未來5年里,企業(yè)云上業(yè)務(wù)的“可靠性”和“連續(xù)性”成為企業(yè)發(fā)展決定性因素。為了助力企業(yè)上云、用云過程中應(yīng)對這些變化和挑戰(zhàn),阿里云混合云平臺推出了混合云新一代運(yùn)維標(biāo)準(zhǔn):數(shù)字化業(yè)務(wù)運(yùn)維系統(tǒng)工程,即“全棧統(tǒng)一運(yùn)維”、“全景可觀測”、“全周期安全工程”?三大能力,系統(tǒng)性保障數(shù)字化業(yè)務(wù)安全可靠。

混合云一體化安全生產(chǎn)(安全工程)解決方案

我們的解決方案涵蓋了從監(jiān)控和預(yù)警,到應(yīng)急處理,到日常持續(xù)改進(jìn)的全過程閉環(huán)。即產(chǎn)品能力和服務(wù)能力從防、監(jiān)、管、控四個方面進(jìn)行構(gòu)建,全方位保障數(shù)字化業(yè)務(wù)的連續(xù)性和可靠性。

  • 防-全周期安全工程, 識別故障風(fēng)險, 構(gòu)建故障主動防御體系;

從代碼源頭開始,嚴(yán)控代碼質(zhì)量和上線標(biāo)準(zhǔn),通過主動防御型策略、專家知識庫、智能風(fēng)險檢測、惡意識別、風(fēng)險審計、高危攔截、集中統(tǒng)一管控、高可用架構(gòu)等構(gòu)建主動且完備的事前防護(hù)體系,將業(yè)務(wù)故障攔于門外。

  • 監(jiān)-全景可觀測能力, 建立從業(yè)務(wù)-應(yīng)用-云資源全鏈路監(jiān)控的能力,發(fā)現(xiàn)并定界異常,秒級預(yù)警;

我們的產(chǎn)品提供全景監(jiān)控(業(yè)務(wù)/應(yīng)用/云平臺)能力。全面支持混合云形態(tài)下的客戶側(cè)監(jiān)控需求;提供智能監(jiān)控(智能基線、黃金指標(biāo)異常檢測等)能力,精準(zhǔn)高效地發(fā)現(xiàn)故障、并迅速判定故障的級別和影響面,并對故障原因作出定界。同時,我們也提供報警處理和監(jiān)控運(yùn)維聯(lián)動能力,智能化地收斂與分級報警,并聯(lián)動運(yùn)維平臺觸發(fā)故障自愈和應(yīng)用彈性擴(kuò)/縮容。

  • 管-全棧統(tǒng)一運(yùn)維, 構(gòu)建數(shù)字化統(tǒng)一業(yè)務(wù)治理能力;

面向雙態(tài)的業(yè)務(wù)應(yīng)用運(yùn)維,提供業(yè)務(wù)中臺運(yùn)維、資源調(diào)度、作業(yè)支撐、集中集成能力,解決企業(yè)運(yùn)維看、管、控的需求,并實(shí)現(xiàn)日常運(yùn)維數(shù)字化、智能化。我們利用應(yīng)用生命周期中產(chǎn)生的海量數(shù)據(jù)(系統(tǒng),監(jiān)控,日志,調(diào)用鏈路等數(shù)據(jù)),通過平臺大數(shù)據(jù)分析以及機(jī)器學(xué)習(xí),主動探測發(fā)現(xiàn)系統(tǒng)存在的風(fēng)險,并且提供自動快速應(yīng)對能力。可以大幅提升企業(yè)整體運(yùn)維效率。

  • 控-全周期安全工程,快速解決問題,及時應(yīng)急恢復(fù)止損。產(chǎn)品化支持故障復(fù)盤與改進(jìn)計劃落地,加固事前主動防御和能力驗(yàn)證;

通過應(yīng)急控制能力,快速解決問題,及時應(yīng)急恢復(fù)止損,控制故障影響面。并對原因復(fù)查改進(jìn),加固事前主動防御,并常態(tài)進(jìn)行常態(tài)化有效性驗(yàn)證(演練、壓力測試),從而形成不斷迭代,持續(xù)提升的安全生產(chǎn)能力。

數(shù)字化智能監(jiān)控運(yùn)維安全產(chǎn)品功能矩陣

如圖所示,安全生產(chǎn)解決方案需要非常多的產(chǎn)品能力支持,圖上顯示了支持解決方案背后的產(chǎn)品能力。這是若干年來支持阿里巴巴雙十一的產(chǎn)品能力,也經(jīng)歷了多年雙十一和日志技術(shù)風(fēng)險戰(zhàn)火的洗禮,目前也從屬于阿里云云效監(jiān)控運(yùn)維領(lǐng)域的產(chǎn)品序列,提供給各位企業(yè)客戶使用。

云效監(jiān)控運(yùn)維域產(chǎn)品能力升級

持續(xù)可觀測系統(tǒng)化:Sunfire2.0智能全景監(jiān)控平臺

監(jiān)控是系統(tǒng)的眼睛,我們通過眼睛看到問題才能做定界和處理。我們監(jiān)控平臺的設(shè)計理念是智能化全景監(jiān)控平臺,是圍繞阿里巴巴平臺技術(shù)風(fēng)險體系中的1-5-10理念來設(shè)計的。我們通過業(yè)務(wù)監(jiān)控發(fā)現(xiàn)問題并觸發(fā)應(yīng)急響應(yīng),這和傳統(tǒng)運(yùn)維理念中對系統(tǒng)資源的監(jiān)控是有差異的。阿里集團(tuán)的應(yīng)急響應(yīng)不會是因?yàn)槟骋粋€CPU溫度過高、某一個磁盤使用率過高或者IO過高導(dǎo)致的系統(tǒng)級指標(biāo)告警引起的。阿里集團(tuán)有千萬級別的線上容器和主機(jī),也有千萬級別的監(jiān)控項(xiàng)和報警。阿里集團(tuán)監(jiān)控是以業(yè)務(wù)監(jiān)控觸發(fā)為核心,即業(yè)務(wù)監(jiān)控觸發(fā)報警以后,需要有高效的事件處理中心產(chǎn)品能力,把系統(tǒng)級指標(biāo)報警、應(yīng)用級報警和業(yè)務(wù)級報警有機(jī)關(guān)聯(lián)歸集起來,把業(yè)務(wù)報警進(jìn)行判定和升級送入我們的故障臺,故障臺向集團(tuán)發(fā)應(yīng)急通告,整個閉環(huán)是從發(fā)現(xiàn)到處理到故障升級。發(fā)生故障之后,我們可以馬上進(jìn)行問題的定界并恢復(fù),全景監(jiān)控可以把問題鎖定到某一個環(huán)節(jié)執(zhí)行預(yù)案,再通過運(yùn)維平臺發(fā)起預(yù)案執(zhí)行讓系統(tǒng)恢復(fù)穩(wěn)定,這個故障就被消滅在萌芽階段了。

業(yè)務(wù)監(jiān)控能力升級

在業(yè)務(wù)指標(biāo)監(jiān)控領(lǐng)域,我們有一個超級武器,秒級監(jiān)控。做過監(jiān)控的同學(xué)都有體感,監(jiān)控系統(tǒng)的數(shù)據(jù)遲延在秒級粒度時,監(jiān)控曲線往往會有很多抖動。因此,秒級監(jiān)控必須有智能化的監(jiān)控策略作為輔助,否則會造成大量誤報。把之前的智能基線能力全新升級為黃金指標(biāo)異常檢測能力后,系統(tǒng)會幫我們簡便的自動化配出黃金指標(biāo),能監(jiān)控業(yè)務(wù)的量、率和耗時以及相應(yīng)的組合策略,不需要配置人工預(yù)制,通過機(jī)器學(xué)習(xí)的算法就能自動化通過監(jiān)控發(fā)現(xiàn)業(yè)務(wù)問題。

今年的阿里巴巴雙十一預(yù)售已經(jīng)開始,消費(fèi)者的熱情高漲,特別是薇婭和李佳琪兩個大V做的直播給我們的系統(tǒng)帶來了很大的流量沖擊,淘寶的核心業(yè)務(wù)指標(biāo)也確實(shí)出現(xiàn)了一個微小的波動。我們的秒級監(jiān)控和智能報警的策略耗時47秒,從事情的發(fā)生到最后全局預(yù)警通告只花了47秒,觸發(fā)了我們系統(tǒng)的快恢,這個故障還沒有到故障級別就被消滅在無形之中,以至于很多消費(fèi)者都來不及感知。

我們的監(jiān)控能力會盡可能先于用戶發(fā)現(xiàn)業(yè)務(wù)的問題。我們在業(yè)務(wù)鏈路的描述上和在大屏的展示上都有全新的能力升級,這背后是自研的大規(guī)模、分布式監(jiān)控實(shí)施的引擎和智能化工程策略框架的支持。

應(yīng)用和云資源監(jiān)控能力升級

業(yè)務(wù)監(jiān)控發(fā)現(xiàn)問題后做定界,這時就要看運(yùn)行業(yè)務(wù)的應(yīng)用和云資源的狀態(tài)。我們?nèi)律墤?yīng)用的發(fā)現(xiàn)能力、應(yīng)用鏈追蹤的能力和云資源監(jiān)控能力后可以監(jiān)控客戶應(yīng)用、從業(yè)務(wù)指標(biāo)到業(yè)務(wù)狀態(tài)、云資源的狀態(tài),應(yīng)用調(diào)用其他應(yīng)用、其他中間件的狀態(tài)、分析鏈路、智能化發(fā)現(xiàn)應(yīng)用、第三方組件云資源的關(guān)聯(lián)。

在云原生的理念下,企業(yè)采用K8S作為自己PAAS層的運(yùn)維方式,能夠被開源的Prometheus監(jiān)控的對象可以直接被Sunfire平臺監(jiān)控并享受到Sunfire智能化的策略和強(qiáng)大的監(jiān)控計算及存儲能力。

報告(事件)和故障管理能力升級

發(fā)現(xiàn)問題后需要高效處理,而高效的應(yīng)急處理需要事件中心和故障臺一起聯(lián)動,讓事件有效被管理降低誤報減少時間損耗,也可以通過故障臺進(jìn)行高效的應(yīng)急和響應(yīng)。經(jīng)過故障臺管理后,很多故障處理過程從開始的零亂不堪到最后整齊高效處理,處理過程由不見變成可觀察可度量。

云效監(jiān)控運(yùn)維域產(chǎn)品能力升級

100%IT運(yùn)維數(shù)字化:Normandy智能運(yùn)維平臺產(chǎn)品架構(gòu)

上圖是Normandy平臺的全新升級,面向混合云客戶做到支持跨云管理的先進(jìn)架構(gòu),自動化運(yùn)維發(fā)布、自動化管理、擴(kuò)縮容能力,也支持了阿里雙十一海量應(yīng)用運(yùn)維的挑戰(zhàn)。

智能化運(yùn)維能力升級

運(yùn)維平臺在智能化層面做了三大升級:一是彈性擴(kuò)縮容能力。應(yīng)用級智能的彈性擴(kuò)縮容,根據(jù)應(yīng)用程序的狀態(tài)指導(dǎo)擴(kuò)縮容是運(yùn)維過程中最優(yōu)的選擇,我們Normandy平臺就能提供這樣的能力。針對發(fā)布過程中的風(fēng)險,我們提出無人值守發(fā)布的理念,在發(fā)布過程中監(jiān)控發(fā)現(xiàn)潛在問題。我們在灰度發(fā)布進(jìn)行到很小范圍的時候就可以發(fā)現(xiàn)問題,進(jìn)行攔截避免問題擴(kuò)大化。真正出現(xiàn)問題的時候平臺可以執(zhí)行原子的自愈能力和開放的能力擴(kuò)展,做到跟客戶的場景相結(jié)合,完成客戶場景下的快恢操作。

運(yùn)營指揮大屏

有時需要對于業(yè)務(wù)和應(yīng)用做全局態(tài)勢的感知,我們有運(yùn)行指揮大屏的能力,對運(yùn)行系統(tǒng)的數(shù)據(jù)、工單數(shù)據(jù)和報警數(shù)據(jù)做展現(xiàn),結(jié)合客戶場梳理到全局態(tài)勢的感知。在大型活動保障時做運(yùn)營指揮參謀,這跟阿里巴巴雙十一指揮大屏的理念是一致的。

數(shù)字化業(yè)務(wù)安全工程平臺—護(hù)城河

大家會在新聞中看到,“刪庫跑路”這類新聞。說明我們的在運(yùn)維安全層面面臨了很大的風(fēng)險,安全工程平臺支持多云平臺下運(yùn)維操作集中管控和安全審計、風(fēng)險的控制。我們稱其為“護(hù)城河”,它是我們的核心能力,可以集中管控運(yùn)維的管理和通路并且符合國家安全等保的標(biāo)準(zhǔn)。

白屏/黑屏化安全防護(hù)能力

  • 我們護(hù)城河體系可以同時支持白屏化和黑屏化場景,進(jìn)行安全防護(hù)。無論是資源管理授權(quán)統(tǒng)一管控、基于多終端運(yùn)維方式,還是對于多協(xié)議運(yùn)維扶持下保證客戶完成安全防護(hù)。我們支持在指定的窗口下進(jìn)行身份認(rèn)證規(guī)避風(fēng)險。
  • 阿里巴巴集團(tuán)有數(shù)萬名技術(shù)員工通過操作我們的線上系統(tǒng),護(hù)城河體系完成了整個的風(fēng)險管控,也為阿里技術(shù)體系解決了運(yùn)維操作的風(fēng)險控制問題。現(xiàn)在,我們也把它放到云效監(jiān)控運(yùn)維的產(chǎn)品體系中提供給企業(yè)客戶使用。
  • 我們安全審計的能是符合國家等保要求的。通過對過程統(tǒng)一管控記錄運(yùn)維操作的情況發(fā)現(xiàn)里面的風(fēng)險隱患。護(hù)城河平臺基于智能化的能力做到了基于動態(tài)智能化發(fā)現(xiàn)潛在風(fēng)險能力。

案例分享

Sunfire在能源行業(yè)的案例

上圖是和我們和國家電網(wǎng)做的戰(zhàn)略合作。國家電網(wǎng)的營銷系統(tǒng)1.0的傳統(tǒng)架構(gòu)遷移到2.0面向混合云的架構(gòu),大家在日常生活中交電費(fèi)、查電費(fèi)、充值電費(fèi)等都可以通過小程序在云端運(yùn)行了。國網(wǎng)營銷2.0系統(tǒng)在云上是由全景監(jiān)控平臺Sunfire對數(shù)百個應(yīng)用、數(shù)千個業(yè)務(wù)指標(biāo)進(jìn)行全面的監(jiān)控。國網(wǎng)營銷2.0系統(tǒng)的報警處理機(jī)制以業(yè)務(wù)監(jiān)控為入口,快速定界和處理的模式。這種模式使日常的報警量變少了,比如幾個月前出現(xiàn)了線上的風(fēng)險,我們高效的發(fā)現(xiàn)觸發(fā)應(yīng)急解決問題,國網(wǎng)領(lǐng)導(dǎo)也給我們平臺發(fā)了感謝信,是對我們很好的肯定和支持。

運(yùn)營指揮中心在證券行業(yè)案例

上圖是我們跟證券的頭部企業(yè)進(jìn)行合作的應(yīng)用指揮的案例。這完成了證券指揮大屏在運(yùn)行企業(yè)的落地。在大屏上有證券企業(yè)的核心業(yè)務(wù)流程,從整體的業(yè)務(wù)看到了應(yīng)用和資源,線上交易出現(xiàn)問題可以通過多維下算的方式找到問題出現(xiàn)的細(xì)分業(yè)務(wù)領(lǐng)域,能看到運(yùn)營的狀態(tài)和云資源利用的狀態(tài)。

我和客戶共建大屏?xí)r,首先對客戶側(cè)所有的場景進(jìn)行梳理抽象出業(yè)務(wù)場景分發(fā)到大屏、中屏上,讓客戶進(jìn)行不同的問題定位,設(shè)計成千上萬的業(yè)務(wù)指標(biāo)匯聚在運(yùn)營大屏上,背后是根據(jù)客戶異構(gòu)的數(shù)據(jù)源,不同實(shí)效性的數(shù)據(jù)做自動歸置和對齊,這種高效實(shí)時的處理機(jī)制是我們在證券行業(yè)非常好的落地。

本次內(nèi)容就到這里,我們也希望在我們的新一代運(yùn)維安全工程標(biāo)準(zhǔn)指引下,我們的安全生產(chǎn)解決方案和產(chǎn)品能力能夠支持和服務(wù)更多的企業(yè)客戶,一起讓企業(yè)的云上業(yè)務(wù)運(yùn)維更加高效、更加可靠、更加穩(wěn)定!

原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。?

總結(jié)

以上是生活随笔為你收集整理的极致用云,数智护航的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。