黑科技揭秘:阿里云如何做到从业务宕机到恢复业务运行只用一分半钟时间
2018杭州云棲大會主論壇上,阿里云打造的混合云容災方案驚喜亮相,并直接在現場進行了全過程的演示,凸顯出阿里云技術的強大心智。
整個混合云容災演示在5分鐘內呈現了阿里云秒級RPO,分鐘級RTO企業應用容災的端到端流程,涵蓋了一個典型云容災場景的核心步驟。
眾所周知,企業關鍵業務宕機會帶來非常大的損失,而傳統的自建容災方案成本高昂運維復雜,因此高性能的云容災服務正在成為企業業務持續性保障的優先選擇。混合云容災服務(HDR)-關鍵業務型的演示完整呈現了將本地服務器上運行的報賬系統實時容災復制到阿里云,并在出現宕機后在云上快速拉起恢復業務的全過程。
整個演示主要分為三個階段:
1、容災復制階段 報賬系統在運行業務的時候,工程師一鍵啟動了容災復制,首先通過快速全量復制將磁盤上的所有數據,包括操作系統,應用,文件等都復制到阿里云的云盤上,且限速35MBps來確保不影響業務正常運行。在全量復制完成后,就進入實時復制狀態,RPO達到了5秒左右。
2、業務宕機階段,現場工程師將服務器硬盤拔出,導致服務器宕機,業務中斷。監控系統在幾秒內鐘探測到服務不可連接,客戶端也無法再執行報賬任務。
3、容災恢復階段,工程師啟動云上容災恢復。混合云容災服務先在云上創建好與云下服務器配置一致的ECS,然后將復制了本地服務器磁盤數據的云盤掛載到ECS上并啟動,當探測到ECS上的服務已經啟動后,切換DNS。1分半鐘之內,業務在云上恢復了運行,客戶端的保障任務繼續,實際演練中,RTO達到了90秒左右。
數據是數字化運營的核心
數字經濟時代,數據正以超出想象的速度快速增長。短短幾年,數據量已經從TB級別躍升到PB乃至ZB級別。
根據相關研究機構調查結果顯示,2017 年全年數據總量將超過15.2ZB,同比增長35.7%。到2018 年全球數據總量達19.4ZB。未來幾年全球數據的增長速度在每年25%以上,預計到2020年,全球數據總量將接近50ZB。
不可否認的是,數據是數字化運營的核心,數據安全決定企業的生死存亡。
數據中心事故面前,企業面臨災難性危機
2018年8月,某國際云廠商因銷售人員在一個存儲桶方面沒有遵循其規范,導致數據泄露。
2018年7月,某國內云平臺被曝出發生過嚴重故障,直接導致某創業公司數據全部丟失,使該創業公司面臨前所未有的業務停擺危機。
2017年5月12日發生全球性WannaCry蠕蟲病毒事件,銀行的ATM提款機“罷工”,加油站的電腦“停業”,學校即將答辯學生的論文被加密。
2017年1月,某代碼托管平臺的運維人員在多終端操作切換時,誤把生產環境當成測試環境,人為失誤的把生產環境的數據庫刪除。
2014年11月份某金融支付公司出現系統故障,出現了高達近4億多重復到賬。
據IDC統計數據表明,十年間發生過災難的公司,有55%當時倒閉,剩下的45%中,因為數據丟失,有29%也在兩年之內倒閉,生存下來的僅占16%。
根據Gartner報告顯示,在經歷大型災難而導致系統停運的公司中有2/5再也沒有恢復運營,剩下的公司中也有1/3在兩年內破產。
在此背景下,企業數據保護已迫在眉睫。
企業數字化轉型,混合云架構災備方案是首選。過去,傳統災備解決方案是基于容災中心建設一套與生產中心類似的架構體系,雖然滿足生產中心的數據備份和復制需要,但落地周期長、實施不便、設備昂貴、運維復雜等因素對企業造成重重挑戰。
那么,相比于傳統災備解決方案,混合云備份容災解決方案是高效率、高可用、高性價比、免運維的現代化災備方案,可以幫助客戶把文件、數據庫、虛擬機乃至整機安全高效地實現本地備份或備份上云。同時,備份上云的應用服務器整機可以在云上以服務器虛機的形式直接拉起運行,滿足所需的RPO和RTO保障業務連接性,實現云上容災。
阿里云混合云備份容災服務產品
混合云備份(Hybrid Backup Recovery,HBR)服務是一種簡單易用且高性價比的在線備份服務,可以幫助客戶把桌面機,服務器或者虛擬機的數據備份到阿里云上的備份存儲庫,為客戶數據提供安全、高效的云存儲備份管理服務。
混合云備份服務典型的應用場景一:針對不同IT環境的數據保護
滿足不同IT環境的數據保護,包括本地數據中心物理機、虛擬化平臺,以及阿里云上ECS服務器和其他公有云平臺上的服務器
RPO和RTO要求不高,但能夠保證數據安全、可恢復能力
?
混合云備份服務在場景一具有以下優勢:
簡單易用,服務即開即用,分鐘級快速部署,減少學習成本;
采用加密、多副本滿足安全可靠的云備份,數據可靠性達到11個9;
采用去重、壓縮減少帶寬占用和備份成本,同時可以利用非常有限的帶寬將數據備份上云;
彈性擴容,存多少算多少,按量付費,同時也有多種折扣套餐可以滿足預付費客戶的要求;
混合云備份服務典型的應用場景二:多分支機構集中備份+跨區域容災
不同省市、區域中有多個分支機構,各分支機構有相應的數據需要進行備份;
各個物理機房分別去部署備份設備,管理分散并且復雜,難以保證數據備份成功完成;
基于多區域容災要求,希望將備份數據的副本保留在其他區域,防止區域性故障導致的數據或服務無法使用;
混合云備份服務在場景二具有以下優勢:
各機房無需部署和管理備份存儲硬件設備,降低管理復雜度和運維成本
實現數據備份統一管理;
高效的數據源變長重刪,高達30:1的重刪率,降低網絡帶寬和存儲資源消耗,縮短備份窗口;
客戶端數據永久增量備份上云,云備份庫每個時間點副本都是全量,提高備份恢復的效率,實現快速恢復;
區別于混合云備份服務,混合云容災(Hybrid Disaster Recovery,簡稱HDR)服務是一個為企業應用提供云+本地雙備份與云容災的服務。它可以對服務器整機,文件和應用進行保護,容災服務器部署于本地數據中心用于快速恢復本地數據,同時備份數據同步上云災備庫用于做云上容災,可以避免機房故障的同時還能夠在云上恢復出業務服務器,滿足業務連續性,平時還可以用于災備演練或者數據分析使用;為了應對大數據集群架構的數據保護,混合云容災服務發布首個公有云大數據災備解決方案。
混合云容災服務典型的應用場景一:核心業務實時復制上云+云上容災接管
生產環境需要進行實時復制,確保本地機房出現業務故障的情況下能夠從云上快速地接管業務;
業務系統由數據庫服務器、文件服務器、應用服務器等一整套服務器搭建而成;
混合云容災服務在場景一具有以下優勢:
滿足客戶對核心業務數據保護的同時,可以利用公有云平臺能力實現異地容災 ;
持續的數據保護和應用一致性保證,使RPO可達秒級水平;
彈性擴展,按需配置,平時云上無需創建ECS服務器,比起基于OS層的傳統實時復制方案減少20%以上的成本;
編排式的一鍵容災模式,可以預先部署好容災接管的各個關鍵步驟,使整體RTO在分鐘級完成;
混合云容災服務典型的應用場景二:本地備份+按需配置上云容災
生產環境需要進行本地備份,確保本地機房出現數據誤刪除、磁盤故障的情況下能夠從本地快速恢復數據;
本地備份數據要進行異地容災,確保本地數據中心出現災難事故時,業務能在容災中心快速恢復,使業務中斷時間較短;
業務系統由數據庫服務器、文件服務器、應用服務器等一整套服務器搭建而成;
混合云容災服務在該場景二具有以下優勢:
滿足客戶本地備份要求的同時,可以按需配置異地容災,利用公有云平臺能力,使客戶在無需自建容災機房的情況下,就可以實現災難情況下業務快速恢復,節省70%災備成本;
彈性擴展,按需配置,平時云上ECS不用恢復和啟動,客戶只需要用到云端的災備庫資源,云災備庫資源支持彈性擴容;
云下數據中心定時備份使數據備份RPO在小時級別,云上或云下整機容災恢復RTO在小時級別;
高可靠,依托于阿里云的基礎架構,確保在需要容災恢復的時候,業務能安全可靠的數據可以進行及時恢復;
混合云容災服務典型的應用場景三:本地備份+按需配置上云容災
本地數據中心Hadoop大數據集群,有百TB級別數據,自建同等規模異地容災集群會造成大量閑置資源,成本太高;
要求RPO接近0,傳統distcp方案無法滿足要求;
混合云容災服務在場景三具有以下優勢:
充分利用公有云資源,搭建云上大數據集群;
采用異步實時復制技術,RPO接近0,平滑擴展上云;
云上云下集群雙活,兩個集群運行不同業務,無資源閑置,TCO低
云上節點彈性擴展,快速穩定的計算資源滿足業務量波動需要;
阿里云混合云備份容災解決方案優勢特點
優勢一:分級RPO和RTO
支持多層次RPO和RTO滿足不同業務的災備等級需求;
核心業務實時復制,關鍵業務定時容災,普通業務定時備份;
優勢二:簡單易用,5分鐘啟動備份服務
不需要任何硬件或者網關設備;
備份空間即買即用,易于擴展;
優勢三:高性價比,按需購買
高達30:1的重刪壓縮比,30個副本只占用原來副本的1份空間;
采用永久增量技術,免去冗余不變的數據重復上傳,免專線的情況下體驗極速上云;
根據云端存儲空間計量計費,而非源端備份數據量,極大地減少了備份費用;
利用公有云平臺基礎架構,相比傳統容災中心建設減少70%以上的成本;
優勢四:安全可靠,多區域容災
數據多版本備份,每個時間點都是完全副本;
高達12個9的云存儲可靠性;
多AZ的備份庫容災,依賴云平臺多可用區的支撐,數據多份保障;
可配置的跨區域異地容災模式,可避免重大區域性故障導致的數據丟失;
優勢五:整機災備,無需業務改造
整機備份,整機恢復,可以在無需變更應用程序和IP地址的情況下,在云上重新恢復出與原來相同的業務系統出來;
整機上云的同時,還支持整機線下機房數據回流,方便在線下機房修復完成后的應用回遷;
優勢六:主流平臺支持,結構化和非結構化數據保護
操作系統:Windows、Linux;
系統平臺:VMWare、Hyper-v、物理服務器;
數據庫:SQL Server、Oracle等多種數據庫;
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的黑科技揭秘:阿里云如何做到从业务宕机到恢复业务运行只用一分半钟时间的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 玩 High API 系列之:智能云相册
- 下一篇: LoRaWAN开放式实验平台