【ESSD技术解读】 云原生时代,阿里云块存储 ESSD 快照服务如何被企业级数据保护所集成?
簡介:本文以云原生為時代背景,介紹了阿里云塊存儲快照服務如何基于高性能 ESSD 云盤提升快照服務性能,提供輕量、實時的用戶體驗及揭秘背后的技術原理。依據行業發展及云上數據保護場景,為企業用戶及備份廠商提供基于快照高級特性的數據保護的技術方案,滿足云上用戶數據保護的迫切需求,保障云上企業業務連續性。
2021年7月份,國際知名咨詢公司 Gartner 發布了公有云的 IaaS(基礎設施即服務)和 PaaS(平臺即服務)平臺的“魔力象限(Magic Quadrant)”,阿里云憑借其領先的技術能力首次成為“遠景者”象限的公有云服務提供商,其中阿里云塊存儲獲得單項得分第一的成績,阿里云計算、存儲,網絡及安全得分獲得全球第一。存儲領先業界的背后離不開高性能的 ESSD 云盤產品為用戶提供高可用、高可靠、高性能的塊級隨機訪問服務及原生的快照數據保護能力。
原生業務新需求
隨著云原生技術的發展,越來越多的企業基于云計算的虛擬化、彈性擴展及蓬勃發展的云原生技術的分布式框架,容器技術、編排系統、持續交付及快速迭代,構建起大規模、彈性擴展強、豐富的云上分布式業務場景。企業應用的部署規模,存儲,計算等資源需求隨之成指數增長,導致傳統的數據保護方案無法滿足云端新的技術變化。用戶面臨的市場競爭環境更加激烈,迫切需要適應業務規模及發展的云端數據保護方案來滿足自身競爭力及業務的發展需要。雖然數據保護的業務背景及場景因云計算及云原生而發生變化,但用戶對數據保護的訴求沒有發生變化,衡量的標準依然是恢復時間點目標 RTO 及恢復點目標 RPO。
用戶追求的首要目標依然是業務連續性,即在業務面臨中斷威脅,迅速實現業務恢復;業務面臨增長壓力,迅速實現業務擴展。用戶根據業務場景對云上的數據保護及快照服務提出了如下的迫切需求:
- 創建時間短:快照極速完成,關鍵業務即刻進行數據備份。
- 極速可用:快照極速可用,應對突發事件,完成云盤回滾恢復。
- 業務擴展:業務量突增需要業務擴容。
- 整機保護:單 ECS 實例及多 ECS 實例的關聯多盤的一致性數據保護。
- 測試驗證:生產環境以外即可進行數據測試驗證及恢復。
- 恢復速度快:文件系統及應用數據處于應用一致性的備份狀態,避免應用宕機恢復過程。
- 容器備份:容器業務環境的快速迭代及發布,迫切需要保護元數據及應用業務數據。
根據存儲網絡工業協會 SNIA 對快照的定義:快照是指定數據集合的一個完全可用拷貝,該拷貝包括相應數據在某個時間點(拷貝開始的時間點)的映像。阿里云塊存儲快照就是提供 ESSD 云盤某一時刻的一致性數據鏡像。適應行業的發展趨勢,快照服務不斷發現用戶的新需求及新場景,不懈地進行了新功能開發及迭代演進,極致升級優化 ESSD 云盤快照的高級企業新特性:快照極速可用特性、應用一致性快照及適應分布式應用架構的一致性組快照及快照跨地域復制的異地災備功能。在不斷獨立輸出及被集成的發展過程中,滿足了云上企業用戶的需求,服務大數據、游戲,人工智能、金融行業等領域,也得到了阿里云其他團隊如:云數據庫團隊 RDS、混合云備份團隊、彈性容器實例 ECI、容器服務 ACK 等業務團隊及用戶的反饋:
- 云數據庫團隊 RDS 行業用戶的評價是:RDS 的秒級備份產品對齊業界的數據庫備份產品,降低原有物理文件備份對實例資源占用,有效降低了數據保護風險。
- 彈性容器實例 ECI 容器加速收益客戶圖森的評價是:極速型緩存加速功能加速了容器應用發布,降低了仿真平臺的計算時間,將計算任務降低到平均 5 分鐘以內,產品發布周期極大縮短。
- 按照混合云備份客戶的說法,應用一致性整機備份能力完全對標 VMware 虛擬化平臺的快照功能。
- 快照服務提供的一致性組快照及應用一致性能力,完全滿足 2021 年 Gartner 對阿里云塊存儲服務評測能力。容器業務 ACK 團隊通過 2021 年 Forrestor 容器備份評測能力。
典型場景
輕量、實時的快照極速可用特性,一致性組快照及應用一致性快照的高級特性,為企業用戶及第三方備份廠商快速構建起:極速備份恢復、容災測試、副本利用及容災切換的副本數據管理(Copy Data Management)應用場景。Gartner 于 2021 年 7 月份發布的關于存儲及數據保護的技術趨勢(Hype Cycle)分析中,將容器備份、云數據備份及副本數據管理(CDM)列為未來幾年的數據保護的行業發展趨勢。Gartner 對副本數據的管理的基本定義為:基于應用一致性的主存儲快照在輔助存儲上生成“Golden Image”,并利用其進行備份,容災及測試,而且異構存儲作為能力的基本條件。阿里云的 ESSD 的高級快照服務特性完全滿足構建 CDM 的條件,幫助用戶實現云上副本數據管理的原生數據保護典型場景:
備份恢復:極速型備份及標準型備份相結合,提供近密遠疏的備份可恢復點。基于云上的 ECS 實例的整機保護及 K8S 環境的容器應用,定期創建極速可用快照。在啟用一致性組快照特性及極速可用特性后,本地即時快照的生成間隔可以到秒級。快照即時副本本地保留,成為極速型備份,用于秒級 IO 性能無損恢復。周期性基于上層的企業應用生成整機應用一致性快照。本地快照副本同時通過網絡上傳到對象存儲 OSS 上作為標準型備份。標準型備份在完成備份數據上傳后,本地域全可用區可見,適合保留時間長的歷史數據。
容災測試:基于極速型備份的容災測試。副本數據管理中要求對災備環境定期測試。定期的測試可以提高災備環境的可靠性,避免配置問題和環境變更問題使得真的災難發生時,容災切換無法正確完成,從而導致業務無法快速進行容災系統恢復。基于本地快照副本的極速克隆技術,災備實例及拉起容器應用,周期性進行掛載及備份數據測試驗證。傳統基于復制技術的方案,需要等待快照在災備端復制可用后才能進行測試演練。而采取極速型備份方式后,實現災備端的秒級克隆,秒級掛載及秒級啟動測試。
副本利用:基于極速型備份的數據分析。在不影響生產環境的情況下,災備環境下基于極速克隆技術,進行容器應用的定時拉起,對副本進行大數據計算及分析,挖掘數據價值。副本利用在實踐中也體現在 MySQL 數據庫應用基于極速型備份進行只讀備庫的即時拉起,進行離線數據分析。
容災切換:業務從生產環境切到災備環境。當生產發生較大災難時,短時間無法恢復業務,生產無法繼續,將業務從生成中心切換到災備中心;在生產中心業務恢復后,再將業務進行容災切回。
相比于傳統的副本數據管理 CDM 方案,云計算環境及云原生環境擁有大規模彈性的同構的計算環境,企業用戶不必進行設備資源及軟件投入;極速型備份及極速型克隆技術極大地降低了副本開發、測試及容災切換的恢復時間點目標 RTO;云上快照服務的統一的備份數據格式降低了各種管理流程中所需的副本數量,消除了備份軟件之間數據格式兼容性問題。
技術原理
我們對分布式快照算法和實現進行了大量優化,讓用戶可以拋開影響性能的顧慮,隨時進行輕量、實時的數據保護。“輕”: 在快照創建期間不影響 IO 讀寫性能。“快”:ESSD 云盤快照可以在秒級創建、秒級回滾和秒級克隆-極速可用特性,滿足用戶實時數據保護和 DevOps 快速編排上的需要。
極速可用特性
具有極速可用特性的快照服務,不僅能夠進行數據備份、合規場景及長期歸檔業務,而且云盤數據可以一鍵備份到阿里云的對象存儲服務(Object Storage Service)上,與秒級間隔的本地快照副本保留形成近密遠疏的快照保護策略,實現快照輕量創建,實時可用的極速克隆,秒級無損回滾的高級特性。
極速克隆:在隔離于生產的跨可用區的容災環境,快照克隆新盤實現可寫快照,應用測試驗證及業務恢復準備;消除云上業務壓力,實現業務橫向擴容。比如 MySQL 數據庫應用的橫向擴容、備庫搭建,實例創建及讀寫分離的都需要秒級拉起,極速克隆通過延遲加載技術實現本地快照副本的本地域內及跨集群的秒級數據可用,迅速克隆新盤,實現實例秒級拉起。
秒級回滾:本地快照副本數據與云盤本地存儲,實現秒級 IO 無損回滾恢復。快照生成過程基于改進型的 ROW 技術及全息索引技術,隨著寫入 ESSD 的云盤數據塊變化,依據 ESSD 云盤 IO 性能讀取的最佳模式進行云盤讀取性能的優化。無需從遠端對象存儲上拉取數據,達到秒級回滾 IO 性能無損。
在云盤創建多個極速可用快照后及發起回滾后的測試條件下,云盤性能讀取性能基本無變化。某友商的云盤在保留多個本地快照后,IO 讀取性能出現不同程度的延遲抖動。
一致性組快照
容器環境及 ECS 實例需要保護關聯多盤的有狀態應用。單盤快照的最大問題是:有狀態應用基于跨多云盤LVM、Windows 動態盤及文件系統作為持久化存儲,單云盤快照數據備份錯誤;數據庫應用既兼顧性能又兼顧數據安全性,將日志文件 WAL 與數據文件分別位于不用的存儲設備,無法定期進行系統整機備份及容災。
除了 K8S下的 POD 內有狀態應用的部署及單 ECS 實例部署方式外,云環境下還存在著分布式應用的部署架構、應用高可用集群如:Windows Failover Cluster、主備應用服務器高可用架構、Oracle RAC 基于共享存儲的應用架構,而這些分布式架構同樣需要跨云盤及跨節點的數據一致性保護要求。
云計算存儲后端往往采用分布式存儲架構。在分布式環境下缺少全局邏輯時鐘,這就使得實現單 ECS 實例及跨 ECS 實例,K8S 環境下的單 POD 及跨節點的多云盤的一致性組快照不是件容易的事情。要實現快照對 IO 性能影響最低更是富有技術挑戰性的。業界針對多盤崩潰一致性快照的實現技術主要分為兩大類:
- 采取快照期間阻塞寫 IO 的方式,實現基于時間點的跨多盤數據崩潰一致性
- 采取邏輯時鐘的定序算法,但依賴于分布式存儲實現,實現難度較高。
一致性組快照采取第二種方式,追求快照對 IO 性能無損,實現快照對應用性能影響到最小
實現原理:采取基于 IO 定序算法,快照創建無需寫 IO 阻塞。很多用戶擔心創建快照影響 IO 性能,只在業務低谷期才進行快照數據保護。我們優化提升的多盤一致性組快照算法打破了人們對快照 IO 影響印象,基于寫順序保序機制,主動按照寫 IO 到達底層存儲的順序,采取 IO 打標及定序過程。基于快照完成時刻點及 IO 定序來確定快照中應該包含的 IO 數據集合。由于快照定序過程相對于傳統的方式,不會阻止 IO 寫入過程;相比于傳統的寫時拷貝 COW 方式,快照生成過程采取寫時重定向 ROW 的寫入方式,后臺數據集合引用生成過程對 IO 鏈路無影響,降低快照對 IO 性能的影響最小,對數據庫業務的讀寫場景實現了 IO 性能無損。
對數據庫應用使用 2 塊盤, 2 個客戶端,容量為 4TB,隨機寫,iodepth=16,jobs=1, 寫入塊大小 16KB 的測試數據庫高 IOPS 場景中,快照創建過程中對 IO 影響測試,友商1及友商2的快照創建過程中對 IO 的性能影響幾乎增加了 1 到 3 倍。
應用一致性快照
ESSD 云盤快照數據的一致性類型主要分為崩潰一致性和應用一致性。崩潰一致性要求文件系統及應用程序具有宕機恢復能力,其特點是恢復點目標 RPO 低,業務影響小。但在以下場景無法滿足數據備份可靠性高及秒級恢復時間點目標 RTO:
- 原子性缺陷風險:文件系統及數據庫應用實現事務原子性的實現具有一定的難度,可能存在缺陷。系統頂級會議 USENIX 上發表的《All File Systems Are Not Created Equal》一文闡釋了應用程序及內核保證原子性可能存在實現缺陷。
- 數據丟失風險:主流文件系統默認以性能優先方式工作,崩潰一致性備份存在數據丟失風險。 Linux 上 ext4 文件系統默認數據寫入模式為 ordered 模式,文件系統校驗修復過程存在數據丟失風險;數據庫應用配置為性能優先,業務數據有丟失風險。
- 生成時間長及影響大:傳統文件級物理備份方式及備份代理方式依賴于邏輯卷快照的生成,耗時長及系統影響大。備份代理需要安裝內核驅動,兼容性差及維護成本高;文件備份過程需要讀取數據,耗費系統 CPU 及 IO 資源。應用一致性快照僅在生成一致性時間點與應用互通,無增量數據生成及備份讀寫操作。
實現原理:與傳統備份方式相比,應用一致性快照對用戶的價值在于提供云原生的無代理應用一致性快照,簡化了客戶使用傳統備份方式所產生的:資源消耗,發布復雜性、軟件兼容性,內核開發,軟件維護的成本。采取跨平臺插件與專有一致性組件相結合的方式,基于文件系統內核及 Windows 上的 VSS 機制實現快照期間 IO 及應用事務的數據靜默,達到企業應用程序在存儲快照中的數據一致性要求。所采取的生成協議基于影響時長自動恢復 IO 影響,快照一致性類型取決于創建協議提交結果及應用狀態,優化從上層應用到底層存儲的鏈路長度及一致性組件性能,將 IO 影響時長降低到秒級。創建頻率間隔可根據業務要求做到文件系統一致性秒級完成創建及分鐘級應用一致性快照間隔。
從崩潰一致性到應用一致性,從單盤一致性快照到多云盤組快照的一致性,ESSD 快照的一致性分類實現完全對標業界塊存儲公有云全類型的快照一致性分類。從安全風險及應用支持可擴展性上與友商實現對比,實現的原生無代理快照的優勢:無常駐服務,無公網 IP 地址及端口開放風險,角色安全授權,無額外內核驅動參與;支持動態發現邏輯卷及企業應用。基于 ESSD 云盤存儲快照,無代理備份,無需維護內核驅動,虛擬機內部無數據讀取搬運。
通過實際對國內外主要云廠商的快照創建時長及 IO 影響時長測試,基于 ESSD 系統盤及數據盤的 SQL Server 數據庫應用能夠實現秒級寫 IO 阻塞及分鐘級快照間隔,應用一致性快照的創建時長比友商降低了 2 到 3 倍。應用一致性的整機恢復,避免崩潰一致性快照恢復時日志重放過程,從而提高了數據庫應用的啟動速度。
業界功能對比
與業界公有云其它友商的快照特性橫向對比,ESSD 云盤是目前唯一個全面支持快照極速可用特性及一致性組快照的云廠商,滿足企業核心應用上云的數據保護場景對快照 RTO 及 RPO 的要求。
未來展望
數據保護不是亡羊補牢而應未雨綢繆。隨著云原生技術的蓬勃發展,特別是容器技術的演進,企業用戶對云上保護的恢復點目標 RPO 及恢復時間點目標 RTO 的要求越來越高。后續,我們也將基于 ESSD 云盤推出更多新功能,比如:高密快照、連續數據保護,基于多 ECS 實例的應用一致性保護能力,繼續為用戶提供快照特性的“輕”、“快”及“彈”的特性品質,降低企業數據保護的 RTO 及 RPO,提供更多原生快照服務高級特性,助力企業數據保護。
原創作品:阿里云存儲 凡鈞
系列文章傳遞門:
【ESSD技術解讀-總篇】 云上企業級存儲——打開存儲新維度,促進用戶核心業務創新https://developer.aliyun.com/article/793534?spm=a2c6h.13148508.0.0.73b34f0eS1PElF
原文鏈接:https://developer.aliyun.com/article/796059?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的【ESSD技术解读】 云原生时代,阿里云块存储 ESSD 快照服务如何被企业级数据保护所集成?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术解读|云上企业级存储——打开存储新维
- 下一篇: ODPS主备集群双向数据复制导致主备中心