轻松应对双11,百万级物理和虚拟网络设备的网络智能化实践
摘要: 12月13-14日,由云棲社區(qū)與阿里巴巴技術(shù)協(xié)會(huì)共同主辦的《2017阿里巴巴雙11技術(shù)十二講》順利結(jié)束,集中為大家分享了2017雙11背后的黑科技。本文是《雙11的智能化網(wǎng)絡(luò)實(shí)踐》演講整理,主要講解了阿里巴巴在網(wǎng)絡(luò)智能領(lǐng)域通過數(shù)據(jù)手段極致地優(yōu)化運(yùn)營(yíng)場(chǎng)景,在穩(wěn)定性、成本、效率方面提升網(wǎng)絡(luò)運(yùn)營(yíng)競(jìng)爭(zhēng)力的技術(shù)。
12月13-14日,由云棲社區(qū)與阿里巴巴技術(shù)協(xié)會(huì)共同主辦的《2017阿里巴巴雙11技術(shù)十二講》順利結(jié)束,集中為大家分享了2017雙11背后的黑科技。本文是《雙11的智能化網(wǎng)絡(luò)實(shí)踐》演講整理,主要講解了阿里巴巴在網(wǎng)絡(luò)智能化技術(shù)中,大量級(jí)網(wǎng)絡(luò)下網(wǎng)絡(luò)變更、調(diào)度優(yōu)化技術(shù)的大幅度提升,故障快速發(fā)現(xiàn)、定位、恢復(fù)方面和資源優(yōu)化利用方面的技術(shù)突破,在網(wǎng)絡(luò)智能領(lǐng)域通過數(shù)據(jù)手段極致地優(yōu)化運(yùn)營(yíng)場(chǎng)景,在穩(wěn)定性、成本、效率方面提升網(wǎng)絡(luò)運(yùn)營(yíng)競(jìng)爭(zhēng)力。內(nèi)容如下。
分享嘉賓:
后羿(周寶方),阿里巴巴資深技術(shù)專家,參與8年雙11大戰(zhàn),主導(dǎo)阿里“去IOE”戰(zhàn)略落地,目前在推動(dòng)阿里基礎(chǔ)設(shè)施智能化。
后羿:首先給大家呈現(xiàn)的是阿里巴巴在雙11中主要依賴的網(wǎng)絡(luò)相關(guān)技術(shù)。在今年雙11中我們?cè)诜€(wěn)定性、高性能網(wǎng)關(guān)、去堆疊以及25G、骨干網(wǎng)流量調(diào)度平臺(tái)、流量的精準(zhǔn)評(píng)估、QOS優(yōu)化和成本優(yōu)化方面都取得了突破性的進(jìn)展。
助力雙11的重要網(wǎng)絡(luò)技術(shù)
在穩(wěn)定性的強(qiáng)化方面,在過去一年,阿里巴巴借助智能化手段,在故障的快速發(fā)現(xiàn)、自動(dòng)修復(fù)、自動(dòng)變更、快速診斷的能力上都有很大的強(qiáng)化,使之輕松應(yīng)對(duì)雙11流量高峰時(shí)的突發(fā)穩(wěn)定性問題;在優(yōu)化高性能網(wǎng)關(guān)方面,ANAT吞吐量性能16倍的提升和LVS性能8倍的提升使阿里巴巴輕松應(yīng)對(duì)ANAT轉(zhuǎn)發(fā)網(wǎng)關(guān)的壓力;4.2架構(gòu)支持去堆疊能力,提高了架構(gòu)可靠性;25G技術(shù)在5.0網(wǎng)絡(luò)架構(gòu)開始規(guī)模化使用,在存儲(chǔ)計(jì)算分離和在線混布場(chǎng)景中也開始落地;骨干網(wǎng)流量調(diào)度平臺(tái)做到了保底帶寬、延遲的優(yōu)化等方面都有好的用戶體驗(yàn)。
在過去一段時(shí)間內(nèi),阿里云水立方做到了基于應(yīng)用維度、按時(shí)間維度、任意角度的靈活運(yùn)營(yíng)流量精準(zhǔn)評(píng)估能力。利用水立方預(yù)測(cè)雙11業(yè)務(wù)流量和容量的分配,在端到端QOS優(yōu)化方面,阿里巴巴在存儲(chǔ)計(jì)算分離,在線離線存儲(chǔ)混布場(chǎng)景,及交易、支付等對(duì)用戶體驗(yàn)要求較高場(chǎng)景中獲得了更好的用戶體驗(yàn),保證相關(guān)的請(qǐng)求能得到優(yōu)先的傳輸。在成本優(yōu)化方面,AGN2.0骨干網(wǎng)升級(jí)取得了很大的進(jìn)展,自研光模塊和AOC的全面落地都使得整體成本得到很好的優(yōu)化。
阿里巴巴是一個(gè)擁有百萬級(jí)物理和虛擬網(wǎng)絡(luò)設(shè)備、承載多樣業(yè)務(wù)的遍布全球的統(tǒng)一的物理網(wǎng)絡(luò)。不同的供應(yīng)商在不同時(shí)期、不同版本、不同架構(gòu)的管理都是不同的,我們需要付出更多的精力駕馭一個(gè)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。面對(duì)大量級(jí)的物理和虛擬網(wǎng)絡(luò)設(shè)備時(shí),如何用一套優(yōu)化的工程方法去進(jìn)行分析數(shù)據(jù);如何基于這些數(shù)據(jù)在后期做快速故障發(fā)現(xiàn)和定位;不同形態(tài)的業(yè)務(wù)對(duì)網(wǎng)絡(luò)有不一樣的需求,如何在兼顧資源利用率同時(shí)達(dá)到用戶體驗(yàn)很好的平衡;在面臨業(yè)務(wù)波動(dòng)頻繁的情況下,如何自證清白;在這些過程中如何快速完成綜合處理……這些都是阿里巴巴需要解決的客觀的工程難題。
上圖呈現(xiàn)的是我們?cè)?015年之后在網(wǎng)絡(luò)穩(wěn)定性提升方面的具體數(shù)據(jù)。從這張圖中可以看出,我們?cè)?5年到17年期間,穩(wěn)定性得到了很好的優(yōu)化。2017年P(guān)1 P2故障數(shù)對(duì)比2015年全年收斂了83%;P1 P2的故障數(shù)在十分鐘內(nèi)的恢復(fù)率對(duì)比2016年也得到了很好的改善。2016年在10分鐘內(nèi)的故障恢復(fù)率為38%,而在2017年則達(dá)到了72%。需要強(qiáng)調(diào)的一點(diǎn)是,阿里巴巴網(wǎng)絡(luò)設(shè)備大幅度增長(zhǎng),而網(wǎng)絡(luò)工程師和網(wǎng)絡(luò)運(yùn)維人員并無大幅度增長(zhǎng)。這主要得益于過去兩年我們?cè)谥悄芑系耐度搿?/p>
如何改進(jìn)處理故障過程
我們將網(wǎng)絡(luò)運(yùn)營(yíng)中的故障簡(jiǎn)單的劃分成變更類故障和非變更類故障:
對(duì)于變更類故障,借助自動(dòng)化變更這類自動(dòng)化工具來解決變更帶來的穩(wěn)定性隱患,通過快速迭代、快速優(yōu)化過程讓故障快速收斂。
對(duì)于非變更類故障,在故障發(fā)生前,通過加大巡檢力度,實(shí)時(shí)探測(cè)當(dāng)前線上的配置是否存在漏洞,并將巡檢結(jié)果呈現(xiàn)給運(yùn)營(yíng)工程師,運(yùn)營(yíng)工程師會(huì)系統(tǒng)化的逐步修復(fù)這些漏洞。
我們也在構(gòu)建科學(xué)預(yù)測(cè)方法,用網(wǎng)絡(luò)故障庫的形式逐步構(gòu)建全網(wǎng)網(wǎng)絡(luò)故障特征工程。利用特征庫預(yù)測(cè)故障存在的可能,做到防范于未然。在故障發(fā)生后,做到快速發(fā)現(xiàn)、快速診斷,當(dāng)我們已經(jīng)可以很好的定性一個(gè)特征故障時(shí),快速對(duì)其進(jìn)行修復(fù)。
快速發(fā)現(xiàn)模塊主要是用來提升精準(zhǔn)探測(cè)能力,診斷模塊用于提升端到端故障診斷速度。同時(shí),我們也在積極構(gòu)建整體網(wǎng)絡(luò)故障特征庫。通過分析歷史網(wǎng)絡(luò)故障體現(xiàn)的量化特征,精確描述故障的形態(tài)和量化特點(diǎn),幫助我們預(yù)知未來網(wǎng)絡(luò)的潛在的故障。巡檢系統(tǒng)在過去一年已經(jīng)穩(wěn)定上線,自動(dòng)化變更系統(tǒng)幫助我們很好的駕馭每一天面臨的大量的變更需求。這些就是我們?cè)诮鉀Q網(wǎng)絡(luò)穩(wěn)定性方面的整體思路。
當(dāng)我們已經(jīng)可以發(fā)現(xiàn)故障、定性故障時(shí),通過監(jiān)控系統(tǒng)和修復(fù)系統(tǒng)的快速聯(lián)動(dòng)完成自修復(fù),從而達(dá)成閉環(huán),這就是阿里巴巴網(wǎng)絡(luò)故障的自恢復(fù)。下圖展示了網(wǎng)絡(luò)自恢復(fù)過程及其自動(dòng)完成信息的對(duì)接和中間邏輯的判斷。
網(wǎng)絡(luò)自恢復(fù)相當(dāng)于快速發(fā)現(xiàn)和修復(fù)兩個(gè)模塊的自聯(lián)動(dòng)的過程。當(dāng)故障已經(jīng)發(fā)生時(shí),如何做到“發(fā)現(xiàn)即被修復(fù)”?
網(wǎng)絡(luò)自恢復(fù)主要有以下五部分構(gòu)成:
端口/鏈路類異常自動(dòng)隔離。
板卡類異常自動(dòng)隔離。
運(yùn)營(yíng)商流量智能調(diào)度容災(zāi)切換。
堆疊分裂類異常自動(dòng)恢復(fù)。
防火墻異常的自動(dòng)切換。
后續(xù)會(huì)逐步加入更多的場(chǎng)景。隨著場(chǎng)景的增多,到目前我們已經(jīng)有60%以上的風(fēng)險(xiǎn)隱患實(shí)現(xiàn)了自動(dòng)化的處理,大大降低了故障問題處理的時(shí)長(zhǎng),實(shí)現(xiàn)了真正的故障快速恢復(fù),這也證明我們?nèi)孢M(jìn)入了自動(dòng)化調(diào)度的時(shí)代。網(wǎng)絡(luò)故障處理全面進(jìn)入自動(dòng)化處理和智能化調(diào)度時(shí)代,60%以上的風(fēng)險(xiǎn)隱患已經(jīng)實(shí)現(xiàn)了自動(dòng)化處理,大大降低了問題處理時(shí)長(zhǎng),實(shí)現(xiàn)故障的快速恢復(fù)。
自恢復(fù)是一種怎樣的體驗(yàn)?當(dāng)監(jiān)控系統(tǒng)探知到一個(gè)具體故障正在發(fā)生時(shí),就會(huì)調(diào)用修復(fù)模塊來完成故障修復(fù),并在發(fā)現(xiàn)故障和修復(fù)完成故障后推送一條信息告知用戶情況。這個(gè)過程幾乎不需要人為的干預(yù)。我們希望借助一個(gè)大腦全面評(píng)估當(dāng)下穩(wěn)定性的情況,精準(zhǔn)確認(rèn)問題后通過調(diào)度工具平臺(tái)完成修復(fù)過程。這也是一個(gè)推動(dòng)智能化的過程。
智能調(diào)度與自動(dòng)隔離
如何解決好運(yùn)營(yíng)商的割接以及網(wǎng)絡(luò)的抖動(dòng)的問題避免用戶體驗(yàn)的下降和故障的發(fā)生是我們花很大時(shí)間研究的課題。通過對(duì)網(wǎng)絡(luò)質(zhì)量的全面感知,告訴業(yè)務(wù)系統(tǒng)哪里正在出現(xiàn)網(wǎng)絡(luò)質(zhì)量惡化和變動(dòng),這意味著我們需要做一些工作來改善整體用戶體驗(yàn)。在實(shí)際操作過程中,有很多細(xì)節(jié)需要我們考慮。運(yùn)營(yíng)商自動(dòng)切換的過程基本都能在不需人工干預(yù)的情況下快速完成。
從圖中可以看出,自從上線了自動(dòng)化場(chǎng)景后,BGP出口自動(dòng)化切換的成功率是100%,每自動(dòng)化切換一次都意味著系統(tǒng)幫助我們規(guī)避了一起故障。
在自動(dòng)隔離場(chǎng)景中,由于網(wǎng)絡(luò)設(shè)備在運(yùn)行過程中經(jīng)常會(huì)出現(xiàn)故障,在快速修復(fù)之前前,隔離是在網(wǎng)絡(luò)工程師解決問題的首要工作。從圖中可以看出,自動(dòng)隔離功能上線后,90%以上的隔離操作能自動(dòng)完成,而且成功率高達(dá)95%,這樣不僅省去了很多的人工還規(guī)避了很多潛在故障。
基于北斗系統(tǒng)的“快速發(fā)現(xiàn)”
北斗故障識(shí)別智能引擎有在線日志實(shí)時(shí)分析、異常流量實(shí)時(shí)探測(cè)、告警收斂三大模塊幫助精準(zhǔn)定位和發(fā)現(xiàn)。在線上我們每天要處理萬億級(jí)的數(shù)據(jù)信息,通過算法識(shí)別出大概1億條的基礎(chǔ)事件,進(jìn)一步識(shí)別后我們形成23萬左右的復(fù)雜事件,對(duì)復(fù)雜事件收斂形成300條左右的事件,其中有進(jìn)30條左右被轉(zhuǎn)化為工單。工單一般是通過人工干預(yù)或無人值守自動(dòng)化方式消化工單。
北斗故障識(shí)別智能引擎的工作流程主要分為四步:
利用龐大的數(shù)據(jù)采集系統(tǒng),將N多維度數(shù)據(jù)實(shí)時(shí)從設(shè)備服務(wù)器中采集匯總;
在實(shí)時(shí)計(jì)算平臺(tái)中利用各種機(jī)器學(xué)習(xí)算法和領(lǐng)域規(guī)則來完成基于場(chǎng)景的綜合分析;
通過各種告警規(guī)則生成復(fù)雜事件;
對(duì)復(fù)雜事件進(jìn)一步收斂。
在線日志實(shí)時(shí)分析。我們已經(jīng)對(duì)海量實(shí)時(shí)日志有97%以上的識(shí)別率,每天處理數(shù)億條平面日志,從日志中通過文本分析和積累,加上人工打標(biāo),覆蓋了所有廠商日志型號(hào)。剩余3%也有經(jīng)驗(yàn)豐富的網(wǎng)絡(luò)工程師幫助我們進(jìn)一步打標(biāo),完善知識(shí)庫。這是日志分析的大概運(yùn)作原理。
異常流量實(shí)時(shí)探測(cè)。為什么我們需要專門的模塊來做異常流量的識(shí)別?因?yàn)槟承?shù)據(jù)不能通過傳統(tǒng)方式確認(rèn)其是否異常,如延遲、日志量、網(wǎng)絡(luò)流量,這個(gè)數(shù)據(jù)在某個(gè)時(shí)段是正常的,但在另一個(gè)時(shí)段里是異常的。流量異常識(shí)別模塊解決了如何構(gòu)建一種智能決策算法,根據(jù)時(shí)間點(diǎn)和場(chǎng)景動(dòng)態(tài)調(diào)整對(duì)應(yīng)基線的問題。
告警收斂。當(dāng)收斂出幾十萬條異常事件后,如何進(jìn)一步確定異常的來源?我們將網(wǎng)絡(luò)的拓?fù)浼尤朐趫D計(jì)算引擎中。在對(duì)應(yīng)一個(gè)時(shí)間窗口內(nèi),點(diǎn)亮所有產(chǎn)生告警信息的事件對(duì)應(yīng)的拓?fù)鋱D結(jié)構(gòu)上。當(dāng)連續(xù)一段拓?fù)浔稽c(diǎn)亮后,把它當(dāng)做一個(gè)故障聯(lián)通子圖,利用智能化算法對(duì)對(duì)應(yīng)節(jié)點(diǎn)打分。通過rank值來確定出現(xiàn)故障設(shè)備源頭。
自動(dòng)變更的作用
自動(dòng)化變更已經(jīng)成為一個(gè)非常基礎(chǔ)的能力,它和內(nèi)部很多工具模塊和業(yè)務(wù)平臺(tái)完成對(duì)接,使數(shù)據(jù)得到了打通,降低故障率的同時(shí)提高效率。
為什么要有自動(dòng)變更模塊?
在運(yùn)營(yíng)百萬級(jí)網(wǎng)絡(luò)設(shè)備的情況下,每天會(huì)面臨非常多類似打補(bǔ)、OsS升級(jí)、路由變化、IP擴(kuò)容、回收等的變更需求。
在過去,這些變更操作高達(dá)85%的部分都是由人工來完成的。有些業(yè)務(wù)的操作需要規(guī)避白天時(shí)間,很多工程師由于長(zhǎng)期在晚上進(jìn)行高危變更操作,得不到好的休息,工作容易出錯(cuò)導(dǎo)致性循環(huán),帶來難以控制的風(fēng)險(xiǎn)。
由于變更工作的線下操作,很多可以變成經(jīng)驗(yàn)的東西沒有很好的在線上沉淀,而線下監(jiān)測(cè)環(huán)節(jié)又比較薄弱。
歷史上一邊工程師在操作變更,一邊故障在蔓延的事不僅一次出現(xiàn)。如何做到變更的同時(shí)進(jìn)行監(jiān)測(cè),實(shí)時(shí)感受變更現(xiàn)場(chǎng)網(wǎng)絡(luò)態(tài)勢(shì)感知是非常重要的。
一些高危的變更需要引入審核機(jī)制,這些都是我們之前面臨的現(xiàn)實(shí)問題。
我們是如何解決上述問題的呢?總的來說就是運(yùn)用通用的方法,更多的引用智能的手段,減少人工介入。一塊塊簡(jiǎn)單的樂高積木可以拼湊出如房子、飛機(jī)等非常復(fù)雜的形象。樂高積木的例子啟示我們對(duì)需要展開的變更操作進(jìn)行原子化的抽象,然后運(yùn)用狀態(tài)機(jī)組合成各式復(fù)雜的變更。在變更的同時(shí),實(shí)時(shí)采集對(duì)應(yīng)設(shè)備線上的告警信息,這些信息能告訴我們當(dāng)下的變更是怎樣一種情況。變更進(jìn)行過程中是否有大量告警信息急速蔓延,決定著我們當(dāng)下是否需要回滾,是否需要做現(xiàn)場(chǎng)決策和支持。
從圖中可以看出,在2017年自動(dòng)化變更上線后,變更引起的故障率有很大的降低,50%以上的變更實(shí)現(xiàn)了自動(dòng)化,人員的誤操作概率降為0。可想而知,變更的優(yōu)化效率得到了很大的提升。
網(wǎng)絡(luò)端到端智能快速診斷系統(tǒng)“庖丁”
在實(shí)際中我們經(jīng)常會(huì)面臨這樣一個(gè)問題,某個(gè)地方丟包比較高或者兩個(gè)點(diǎn)之間應(yīng)用出現(xiàn)了嚴(yán)重的超時(shí),究竟是怎么引起的?如果用人工的方式進(jìn)行定位,首先要解決如何了解兩個(gè)點(diǎn)之間端到端網(wǎng)絡(luò)拓?fù)涫窃鯓右环N結(jié)構(gòu)。拓?fù)渖犀F(xiàn)在有故障在發(fā)生嗎?如果有,這些故障設(shè)備究竟產(chǎn)生了哪些日志、過程中是否有變更在進(jìn)行?如果已經(jīng)知道是哪些設(shè)備為可疑對(duì)象,可能接下來對(duì)設(shè)備進(jìn)一步下發(fā)命令、對(duì)數(shù)據(jù)做深入診斷,整個(gè)過程大概需要1-2小時(shí)。
而庖丁可以同時(shí)進(jìn)行網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)、告警信息自動(dòng)聚合分析、日志信息自動(dòng)獲取、命令工具自動(dòng)下發(fā)這四項(xiàng)工作,把整個(gè)復(fù)雜問題的定位時(shí)長(zhǎng)從1-2個(gè)小時(shí)縮減為3分鐘,給各類場(chǎng)景帶來極大的診斷效率提升。針對(duì)已經(jīng)確定的兩個(gè)點(diǎn)的IP,我們自動(dòng)定義出所對(duì)應(yīng)的IP拓?fù)涫窃鯓右环N結(jié)構(gòu);對(duì)相應(yīng)拓?fù)滏溌飞系乃腥罩具M(jìn)行實(shí)時(shí)提取、標(biāo)注關(guān)鍵詞;對(duì)可疑設(shè)備的告警進(jìn)行自動(dòng)化聚合收斂、過濾無效信息;主動(dòng)對(duì)可疑設(shè)備進(jìn)行可疑探測(cè)、做二次分析。這些過程幾乎是一鍵完成。
庖丁運(yùn)作的可視化呈現(xiàn)如圖。對(duì)可疑故障鏈路進(jìn)行標(biāo)紅處理,通過庖丁可視化界面,輕松判斷故障的發(fā)生原因。
在故障發(fā)現(xiàn)、探測(cè)的最終結(jié)果可以對(duì)具體的用戶呈現(xiàn),也可以通過API形式對(duì)業(yè)務(wù)系統(tǒng)進(jìn)行主動(dòng)的信息推送。這意味著上層業(yè)務(wù)網(wǎng)絡(luò)查詢更加開放,通過對(duì)庖丁的一次查詢可以得知某個(gè)業(yè)務(wù)波動(dòng)是否是屬于網(wǎng)絡(luò)帶來的問題。
基于NetO做流量最優(yōu)化的分配
通過最優(yōu)化流量分配來榨干多余帶寬成本,同時(shí)滿足最優(yōu)路徑選擇、帶寬擴(kuò)容、穩(wěn)定性方面的現(xiàn)實(shí)需求。
技術(shù)層面。我們希望每次網(wǎng)絡(luò)路徑都是最優(yōu)的。傳統(tǒng)網(wǎng)絡(luò)基本基于Metric機(jī)制確定最短路徑。對(duì)于阿里這張具有多樣鏈路的網(wǎng)絡(luò),交易鏈路對(duì)網(wǎng)絡(luò)的延遲極其敏感,大數(shù)據(jù)需要很大的帶寬,需要更多可達(dá)路徑幫助快速進(jìn)行數(shù)據(jù)的傳輸。
帶寬擴(kuò)容角度。在面臨非常頻繁的帶寬擴(kuò)容需求情況下,實(shí)際的定時(shí)鏈路存在很多延時(shí)差異,兩個(gè)點(diǎn)之間的路徑帶寬差異也很明顯,我們需要站在運(yùn)營(yíng)的角度構(gòu)建某種方法,既能充分利用閑置的帶寬,又能在調(diào)配流量過程中很好的兼顧時(shí)延和成本。
穩(wěn)定性方面。并行的鏈路在出現(xiàn)單點(diǎn)故障時(shí),需要對(duì)其進(jìn)行隔離,隔離后如何觸發(fā)高可用路由決策。這些都是NetO需要解決的問題。NetO基于SDN采用了SR-TE技術(shù),幫助我們?cè)谌智闆r下拿到全網(wǎng)流量信息、路由狀態(tài)信息,用這些信息幫助我們按場(chǎng)景進(jìn)行路徑轉(zhuǎn)發(fā)。
NetO整體智能決策層模塊——闊海
闊海有兩大核心職能:
最大化業(yè)務(wù)目標(biāo)。不同的場(chǎng)景有不同的需求,我們希望NetO可以根據(jù)各種限制條件對(duì)每個(gè)場(chǎng)景綜合分析,定制最優(yōu)解決方案。
以無擁塞方式達(dá)成最優(yōu)分配方案。這要求我們最少的步驟解決問題,每一步對(duì)應(yīng)的命令需要設(shè)備的支持。闊海幫助我們做到最大化利用鏈路上限,在每次流量調(diào)整中,即不觸及帶寬上限又能完成最優(yōu)化調(diào)整,實(shí)現(xiàn)最小步驟的遷移。
闊海有兩種驅(qū)動(dòng)方式,一是周期性運(yùn)行;二是通過突事件觸發(fā),如拓?fù)浒l(fā)生變化、流量發(fā)生變化等。闊海一個(gè)數(shù)據(jù)平臺(tái),需要用各個(gè)維度的實(shí)時(shí)數(shù)據(jù)來進(jìn)行現(xiàn)狀態(tài)勢(shì)感知,通過數(shù)據(jù)背后業(yè)務(wù)含義幫助我們制定最優(yōu)化分配方案。這些方案完全可以按不同需求對(duì)成本、時(shí)延、帶寬利用率組合定制場(chǎng)景。
闊海有非常好的可靠性來幫助它做負(fù)載均衡。每次計(jì)算出的最優(yōu)化結(jié)果可以通過兩種方式來呈現(xiàn):
通過仿真在web頁面來呈現(xiàn),告訴運(yùn)營(yíng)決策人員最優(yōu)化結(jié)果會(huì)達(dá)成怎樣的效果,讓對(duì)應(yīng)運(yùn)營(yíng)人員做現(xiàn)狀評(píng)估。
直接用最優(yōu)化結(jié)果進(jìn)行設(shè)備命令的下發(fā),完成一次優(yōu)化調(diào)度。
這里給大家舉三種常見的場(chǎng)景,黑色線條代表物理鏈路,其他顏色線條代表邏輯鏈路。
故障狀態(tài)下的負(fù)載均衡。從第一個(gè)場(chǎng)景的圖中可以看到三條鏈路在初始狀態(tài)下進(jìn)行數(shù)據(jù)的通信。通信鏈路出現(xiàn)單點(diǎn)故障時(shí), NetO會(huì)把藍(lán)色鏈路的流量動(dòng)態(tài)的分配到其他兩條鏈路上去。
針對(duì)高費(fèi)用鏈路的解決措施。從實(shí)際角度出發(fā),每條鏈路意味著不同的資費(fèi),為了節(jié)省成本,提高資源利用率,我們完全可以采取靈活的策略來運(yùn)行。如下圖所示,我們?cè)谶\(yùn)行過程中發(fā)現(xiàn)其中一條鏈路的成本偏高,這時(shí)NetO會(huì)自動(dòng)觸發(fā)一次調(diào)用,把流量分配到相對(duì)來說成本較低的鏈路上,這個(gè)過程基本不需要人工的干預(yù)。
大數(shù)據(jù)場(chǎng)景優(yōu)化傳輸時(shí)間。比如我們需要發(fā)送一個(gè)單位的數(shù)據(jù),在初始狀態(tài)下,以圖中紅綠兩條鏈路發(fā)送數(shù)據(jù)時(shí),由于帶寬較小,需要兩個(gè)時(shí)間周期完成數(shù)據(jù)的傳輸。NetO在整體鏈路上找到另外一條冗余帶寬(藍(lán)色鏈路),并提示系統(tǒng)把這個(gè)鏈路利用起來,這個(gè)調(diào)度過程觸發(fā)了流量的再次優(yōu)化分配。原本需要兩個(gè)時(shí)間單位傳輸?shù)臄?shù)據(jù)在這條鏈路上一個(gè)時(shí)間單位就能完成。
以上就是阿里巴巴在雙11中的網(wǎng)絡(luò)智能化技術(shù)及在成本優(yōu)化、流量智能化調(diào)度等方面相關(guān)實(shí)踐的介紹。網(wǎng)絡(luò)智能永遠(yuǎn)是一個(gè)在路上的過程,我們還在不斷努力演進(jìn)它。在未來一段時(shí)間內(nèi),我們會(huì)進(jìn)一步在無人值守、成本優(yōu)化和穩(wěn)定性方面加大投入,給大家呈現(xiàn)更好的東西,帶來更好的用戶體驗(yàn)。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的轻松应对双11,百万级物理和虚拟网络设备的网络智能化实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 做安全操作系统,这位技术老兵是认真的!
- 下一篇: 用aliplayer如何实现视频的连续播