黑科技揭秘:阿里云如何做到从业务宕机到恢复业务运行只用一分半钟时间
2018杭州云棲大會(huì)主論壇上,阿里云打造的混合云容災(zāi)方案驚喜亮相,并直接在現(xiàn)場(chǎng)進(jìn)行了全過(guò)程的演示,凸顯出阿里云技術(shù)的強(qiáng)大心智。
整個(gè)混合云容災(zāi)演示在5分鐘內(nèi)呈現(xiàn)了阿里云秒級(jí)RPO,分鐘級(jí)RTO企業(yè)應(yīng)用容災(zāi)的端到端流程,涵蓋了一個(gè)典型云容災(zāi)場(chǎng)景的核心步驟。
眾所周知,企業(yè)關(guān)鍵業(yè)務(wù)宕機(jī)會(huì)帶來(lái)非常大的損失,而傳統(tǒng)的自建容災(zāi)方案成本高昂運(yùn)維復(fù)雜,因此高性能的云容災(zāi)服務(wù)正在成為企業(yè)業(yè)務(wù)持續(xù)性保障的優(yōu)先選擇。混合云容災(zāi)服務(wù)(HDR)-關(guān)鍵業(yè)務(wù)型的演示完整呈現(xiàn)了將本地服務(wù)器上運(yùn)行的報(bào)賬系統(tǒng)實(shí)時(shí)容災(zāi)復(fù)制到阿里云,并在出現(xiàn)宕機(jī)后在云上快速拉起恢復(fù)業(yè)務(wù)的全過(guò)程。
整個(gè)演示主要分為三個(gè)階段:
1、容災(zāi)復(fù)制階段 報(bào)賬系統(tǒng)在運(yùn)行業(yè)務(wù)的時(shí)候,工程師一鍵啟動(dòng)了容災(zāi)復(fù)制,首先通過(guò)快速全量復(fù)制將磁盤(pán)上的所有數(shù)據(jù),包括操作系統(tǒng),應(yīng)用,文件等都復(fù)制到阿里云的云盤(pán)上,且限速35MBps來(lái)確保不影響業(yè)務(wù)正常運(yùn)行。在全量復(fù)制完成后,就進(jìn)入實(shí)時(shí)復(fù)制狀態(tài),RPO達(dá)到了5秒左右。
2、業(yè)務(wù)宕機(jī)階段,現(xiàn)場(chǎng)工程師將服務(wù)器硬盤(pán)拔出,導(dǎo)致服務(wù)器宕機(jī),業(yè)務(wù)中斷。監(jiān)控系統(tǒng)在幾秒內(nèi)鐘探測(cè)到服務(wù)不可連接,客戶端也無(wú)法再執(zhí)行報(bào)賬任務(wù)。
3、容災(zāi)恢復(fù)階段,工程師啟動(dòng)云上容災(zāi)恢復(fù)。混合云容災(zāi)服務(wù)先在云上創(chuàng)建好與云下服務(wù)器配置一致的ECS,然后將復(fù)制了本地服務(wù)器磁盤(pán)數(shù)據(jù)的云盤(pán)掛載到ECS上并啟動(dòng),當(dāng)探測(cè)到ECS上的服務(wù)已經(jīng)啟動(dòng)后,切換DNS。1分半鐘之內(nèi),業(yè)務(wù)在云上恢復(fù)了運(yùn)行,客戶端的保障任務(wù)繼續(xù),實(shí)際演練中,RTO達(dá)到了90秒左右。
數(shù)據(jù)是數(shù)字化運(yùn)營(yíng)的核心
數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)正以超出想象的速度快速增長(zhǎng)。短短幾年,數(shù)據(jù)量已經(jīng)從TB級(jí)別躍升到PB乃至ZB級(jí)別。
根據(jù)相關(guān)研究機(jī)構(gòu)調(diào)查結(jié)果顯示,2017 年全年數(shù)據(jù)總量將超過(guò)15.2ZB,同比增長(zhǎng)35.7%。到2018 年全球數(shù)據(jù)總量達(dá)19.4ZB。未來(lái)幾年全球數(shù)據(jù)的增長(zhǎng)速度在每年25%以上,預(yù)計(jì)到2020年,全球數(shù)據(jù)總量將接近50ZB。
不可否認(rèn)的是,數(shù)據(jù)是數(shù)字化運(yùn)營(yíng)的核心,數(shù)據(jù)安全決定企業(yè)的生死存亡。
數(shù)據(jù)中心事故面前,企業(yè)面臨災(zāi)難性危機(jī)
2018年8月,某國(guó)際云廠商因銷售人員在一個(gè)存儲(chǔ)桶方面沒(méi)有遵循其規(guī)范,導(dǎo)致數(shù)據(jù)泄露。
2018年7月,某國(guó)內(nèi)云平臺(tái)被曝出發(fā)生過(guò)嚴(yán)重故障,直接導(dǎo)致某創(chuàng)業(yè)公司數(shù)據(jù)全部丟失,使該創(chuàng)業(yè)公司面臨前所未有的業(yè)務(wù)停擺危機(jī)。
2017年5月12日發(fā)生全球性WannaCry蠕蟲(chóng)病毒事件,銀行的ATM提款機(jī)“罷工”,加油站的電腦“停業(yè)”,學(xué)校即將答辯學(xué)生的論文被加密。
2017年1月,某代碼托管平臺(tái)的運(yùn)維人員在多終端操作切換時(shí),誤把生產(chǎn)環(huán)境當(dāng)成測(cè)試環(huán)境,人為失誤的把生產(chǎn)環(huán)境的數(shù)據(jù)庫(kù)刪除。
2014年11月份某金融支付公司出現(xiàn)系統(tǒng)故障,出現(xiàn)了高達(dá)近4億多重復(fù)到賬。
據(jù)IDC統(tǒng)計(jì)數(shù)據(jù)表明,十年間發(fā)生過(guò)災(zāi)難的公司,有55%當(dāng)時(shí)倒閉,剩下的45%中,因?yàn)閿?shù)據(jù)丟失,有29%也在兩年之內(nèi)倒閉,生存下來(lái)的僅占16%。
根據(jù)Gartner報(bào)告顯示,在經(jīng)歷大型災(zāi)難而導(dǎo)致系統(tǒng)停運(yùn)的公司中有2/5再也沒(méi)有恢復(fù)運(yùn)營(yíng),剩下的公司中也有1/3在兩年內(nèi)破產(chǎn)。
在此背景下,企業(yè)數(shù)據(jù)保護(hù)已迫在眉睫。
企業(yè)數(shù)字化轉(zhuǎn)型,混合云架構(gòu)災(zāi)備方案是首選。過(guò)去,傳統(tǒng)災(zāi)備解決方案是基于容災(zāi)中心建設(shè)一套與生產(chǎn)中心類似的架構(gòu)體系,雖然滿足生產(chǎn)中心的數(shù)據(jù)備份和復(fù)制需要,但落地周期長(zhǎng)、實(shí)施不便、設(shè)備昂貴、運(yùn)維復(fù)雜等因素對(duì)企業(yè)造成重重挑戰(zhàn)。
那么,相比于傳統(tǒng)災(zāi)備解決方案,混合云備份容災(zāi)解決方案是高效率、高可用、高性價(jià)比、免運(yùn)維的現(xiàn)代化災(zāi)備方案,可以幫助客戶把文件、數(shù)據(jù)庫(kù)、虛擬機(jī)乃至整機(jī)安全高效地實(shí)現(xiàn)本地備份或備份上云。同時(shí),備份上云的應(yīng)用服務(wù)器整機(jī)可以在云上以服務(wù)器虛機(jī)的形式直接拉起運(yùn)行,滿足所需的RPO和RTO保障業(yè)務(wù)連接性,實(shí)現(xiàn)云上容災(zāi)。
阿里云混合云備份容災(zāi)服務(wù)產(chǎn)品
混合云備份(Hybrid Backup Recovery,HBR)服務(wù)是一種簡(jiǎn)單易用且高性價(jià)比的在線備份服務(wù),可以幫助客戶把桌面機(jī),服務(wù)器或者虛擬機(jī)的數(shù)據(jù)備份到阿里云上的備份存儲(chǔ)庫(kù),為客戶數(shù)據(jù)提供安全、高效的云存儲(chǔ)備份管理服務(wù)。
混合云備份服務(wù)典型的應(yīng)用場(chǎng)景一:針對(duì)不同IT環(huán)境的數(shù)據(jù)保護(hù)
滿足不同IT環(huán)境的數(shù)據(jù)保護(hù),包括本地?cái)?shù)據(jù)中心物理機(jī)、虛擬化平臺(tái),以及阿里云上ECS服務(wù)器和其他公有云平臺(tái)上的服務(wù)器
RPO和RTO要求不高,但能夠保證數(shù)據(jù)安全、可恢復(fù)能力
?
混合云備份服務(wù)在場(chǎng)景一具有以下優(yōu)勢(shì):
簡(jiǎn)單易用,服務(wù)即開(kāi)即用,分鐘級(jí)快速部署,減少學(xué)習(xí)成本;
采用加密、多副本滿足安全可靠的云備份,數(shù)據(jù)可靠性達(dá)到11個(gè)9;
采用去重、壓縮減少帶寬占用和備份成本,同時(shí)可以利用非常有限的帶寬將數(shù)據(jù)備份上云;
彈性擴(kuò)容,存多少算多少,按量付費(fèi),同時(shí)也有多種折扣套餐可以滿足預(yù)付費(fèi)客戶的要求;
混合云備份服務(wù)典型的應(yīng)用場(chǎng)景二:多分支機(jī)構(gòu)集中備份+跨區(qū)域容災(zāi)
不同省市、區(qū)域中有多個(gè)分支機(jī)構(gòu),各分支機(jī)構(gòu)有相應(yīng)的數(shù)據(jù)需要進(jìn)行備份;
各個(gè)物理機(jī)房分別去部署備份設(shè)備,管理分散并且復(fù)雜,難以保證數(shù)據(jù)備份成功完成;
基于多區(qū)域容災(zāi)要求,希望將備份數(shù)據(jù)的副本保留在其他區(qū)域,防止區(qū)域性故障導(dǎo)致的數(shù)據(jù)或服務(wù)無(wú)法使用;
混合云備份服務(wù)在場(chǎng)景二具有以下優(yōu)勢(shì):
各機(jī)房無(wú)需部署和管理備份存儲(chǔ)硬件設(shè)備,降低管理復(fù)雜度和運(yùn)維成本
實(shí)現(xiàn)數(shù)據(jù)備份統(tǒng)一管理;
高效的數(shù)據(jù)源變長(zhǎng)重刪,高達(dá)30:1的重刪率,降低網(wǎng)絡(luò)帶寬和存儲(chǔ)資源消耗,縮短備份窗口;
客戶端數(shù)據(jù)永久增量備份上云,云備份庫(kù)每個(gè)時(shí)間點(diǎn)副本都是全量,提高備份恢復(fù)的效率,實(shí)現(xiàn)快速恢復(fù);
區(qū)別于混合云備份服務(wù),混合云容災(zāi)(Hybrid Disaster Recovery,簡(jiǎn)稱HDR)服務(wù)是一個(gè)為企業(yè)應(yīng)用提供云+本地雙備份與云容災(zāi)的服務(wù)。它可以對(duì)服務(wù)器整機(jī),文件和應(yīng)用進(jìn)行保護(hù),容災(zāi)服務(wù)器部署于本地?cái)?shù)據(jù)中心用于快速恢復(fù)本地?cái)?shù)據(jù),同時(shí)備份數(shù)據(jù)同步上云災(zāi)備庫(kù)用于做云上容災(zāi),可以避免機(jī)房故障的同時(shí)還能夠在云上恢復(fù)出業(yè)務(wù)服務(wù)器,滿足業(yè)務(wù)連續(xù)性,平時(shí)還可以用于災(zāi)備演練或者數(shù)據(jù)分析使用;為了應(yīng)對(duì)大數(shù)據(jù)集群架構(gòu)的數(shù)據(jù)保護(hù),混合云容災(zāi)服務(wù)發(fā)布首個(gè)公有云大數(shù)據(jù)災(zāi)備解決方案。
混合云容災(zāi)服務(wù)典型的應(yīng)用場(chǎng)景一:核心業(yè)務(wù)實(shí)時(shí)復(fù)制上云+云上容災(zāi)接管
生產(chǎn)環(huán)境需要進(jìn)行實(shí)時(shí)復(fù)制,確保本地機(jī)房出現(xiàn)業(yè)務(wù)故障的情況下能夠從云上快速地接管業(yè)務(wù);
業(yè)務(wù)系統(tǒng)由數(shù)據(jù)庫(kù)服務(wù)器、文件服務(wù)器、應(yīng)用服務(wù)器等一整套服務(wù)器搭建而成;
混合云容災(zāi)服務(wù)在場(chǎng)景一具有以下優(yōu)勢(shì):
滿足客戶對(duì)核心業(yè)務(wù)數(shù)據(jù)保護(hù)的同時(shí),可以利用公有云平臺(tái)能力實(shí)現(xiàn)異地容災(zāi) ;
持續(xù)的數(shù)據(jù)保護(hù)和應(yīng)用一致性保證,使RPO可達(dá)秒級(jí)水平;
彈性擴(kuò)展,按需配置,平時(shí)云上無(wú)需創(chuàng)建ECS服務(wù)器,比起基于OS層的傳統(tǒng)實(shí)時(shí)復(fù)制方案減少20%以上的成本;
編排式的一鍵容災(zāi)模式,可以預(yù)先部署好容災(zāi)接管的各個(gè)關(guān)鍵步驟,使整體RTO在分鐘級(jí)完成;
混合云容災(zāi)服務(wù)典型的應(yīng)用場(chǎng)景二:本地備份+按需配置上云容災(zāi)
生產(chǎn)環(huán)境需要進(jìn)行本地備份,確保本地機(jī)房出現(xiàn)數(shù)據(jù)誤刪除、磁盤(pán)故障的情況下能夠從本地快速恢復(fù)數(shù)據(jù);
本地備份數(shù)據(jù)要進(jìn)行異地容災(zāi),確保本地?cái)?shù)據(jù)中心出現(xiàn)災(zāi)難事故時(shí),業(yè)務(wù)能在容災(zāi)中心快速恢復(fù),使業(yè)務(wù)中斷時(shí)間較短;
業(yè)務(wù)系統(tǒng)由數(shù)據(jù)庫(kù)服務(wù)器、文件服務(wù)器、應(yīng)用服務(wù)器等一整套服務(wù)器搭建而成;
混合云容災(zāi)服務(wù)在該場(chǎng)景二具有以下優(yōu)勢(shì):
滿足客戶本地備份要求的同時(shí),可以按需配置異地容災(zāi),利用公有云平臺(tái)能力,使客戶在無(wú)需自建容災(zāi)機(jī)房的情況下,就可以實(shí)現(xiàn)災(zāi)難情況下業(yè)務(wù)快速恢復(fù),節(jié)省70%災(zāi)備成本;
彈性擴(kuò)展,按需配置,平時(shí)云上ECS不用恢復(fù)和啟動(dòng),客戶只需要用到云端的災(zāi)備庫(kù)資源,云災(zāi)備庫(kù)資源支持彈性擴(kuò)容;
云下數(shù)據(jù)中心定時(shí)備份使數(shù)據(jù)備份RPO在小時(shí)級(jí)別,云上或云下整機(jī)容災(zāi)恢復(fù)RTO在小時(shí)級(jí)別;
高可靠,依托于阿里云的基礎(chǔ)架構(gòu),確保在需要容災(zāi)恢復(fù)的時(shí)候,業(yè)務(wù)能安全可靠的數(shù)據(jù)可以進(jìn)行及時(shí)恢復(fù);
混合云容災(zāi)服務(wù)典型的應(yīng)用場(chǎng)景三:本地備份+按需配置上云容災(zāi)
本地?cái)?shù)據(jù)中心Hadoop大數(shù)據(jù)集群,有百TB級(jí)別數(shù)據(jù),自建同等規(guī)模異地容災(zāi)集群會(huì)造成大量閑置資源,成本太高;
要求RPO接近0,傳統(tǒng)distcp方案無(wú)法滿足要求;
混合云容災(zāi)服務(wù)在場(chǎng)景三具有以下優(yōu)勢(shì):
充分利用公有云資源,搭建云上大數(shù)據(jù)集群;
采用異步實(shí)時(shí)復(fù)制技術(shù),RPO接近0,平滑擴(kuò)展上云;
云上云下集群雙活,兩個(gè)集群運(yùn)行不同業(yè)務(wù),無(wú)資源閑置,TCO低
云上節(jié)點(diǎn)彈性擴(kuò)展,快速穩(wěn)定的計(jì)算資源滿足業(yè)務(wù)量波動(dòng)需要;
阿里云混合云備份容災(zāi)解決方案優(yōu)勢(shì)特點(diǎn)
優(yōu)勢(shì)一:分級(jí)RPO和RTO
支持多層次RPO和RTO滿足不同業(yè)務(wù)的災(zāi)備等級(jí)需求;
核心業(yè)務(wù)實(shí)時(shí)復(fù)制,關(guān)鍵業(yè)務(wù)定時(shí)容災(zāi),普通業(yè)務(wù)定時(shí)備份;
優(yōu)勢(shì)二:簡(jiǎn)單易用,5分鐘啟動(dòng)備份服務(wù)
不需要任何硬件或者網(wǎng)關(guān)設(shè)備;
備份空間即買(mǎi)即用,易于擴(kuò)展;
優(yōu)勢(shì)三:高性價(jià)比,按需購(gòu)買(mǎi)
高達(dá)30:1的重刪壓縮比,30個(gè)副本只占用原來(lái)副本的1份空間;
采用永久增量技術(shù),免去冗余不變的數(shù)據(jù)重復(fù)上傳,免專線的情況下體驗(yàn)極速上云;
根據(jù)云端存儲(chǔ)空間計(jì)量計(jì)費(fèi),而非源端備份數(shù)據(jù)量,極大地減少了備份費(fèi)用;
利用公有云平臺(tái)基礎(chǔ)架構(gòu),相比傳統(tǒng)容災(zāi)中心建設(shè)減少70%以上的成本;
優(yōu)勢(shì)四:安全可靠,多區(qū)域容災(zāi)
數(shù)據(jù)多版本備份,每個(gè)時(shí)間點(diǎn)都是完全副本;
高達(dá)12個(gè)9的云存儲(chǔ)可靠性;
多AZ的備份庫(kù)容災(zāi),依賴云平臺(tái)多可用區(qū)的支撐,數(shù)據(jù)多份保障;
可配置的跨區(qū)域異地容災(zāi)模式,可避免重大區(qū)域性故障導(dǎo)致的數(shù)據(jù)丟失;
優(yōu)勢(shì)五:整機(jī)災(zāi)備,無(wú)需業(yè)務(wù)改造
整機(jī)備份,整機(jī)恢復(fù),可以在無(wú)需變更應(yīng)用程序和IP地址的情況下,在云上重新恢復(fù)出與原來(lái)相同的業(yè)務(wù)系統(tǒng)出來(lái);
整機(jī)上云的同時(shí),還支持整機(jī)線下機(jī)房數(shù)據(jù)回流,方便在線下機(jī)房修復(fù)完成后的應(yīng)用回遷;
優(yōu)勢(shì)六:主流平臺(tái)支持,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)保護(hù)
操作系統(tǒng):Windows、Linux;
系統(tǒng)平臺(tái):VMWare、Hyper-v、物理服務(wù)器;
數(shù)據(jù)庫(kù):SQL Server、Oracle等多種數(shù)據(jù)庫(kù);
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的黑科技揭秘:阿里云如何做到从业务宕机到恢复业务运行只用一分半钟时间的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 玩 High API 系列之:智能云相册
- 下一篇: LoRaWAN开放式实验平台