云湖共生-释放企业数据价值
摘要:2021云棲大會云原生企業級數據湖專場,阿里云智能資深技術專家、對象存儲 OSS 負責人羅慶超為我們帶來《云湖共生-釋放企業數據價值》的分享。本文主要從數據湖存儲演進之路、數據湖存儲3.0 進化亮點等方面分享了云湖共生帶來的企業價值。
摘要:2021云棲大會云原生企業級數據湖專場,阿里云智能資深技術專家、對象存儲 OSS 負責人羅慶超為我們帶來《云湖共生-釋放企業數據價值》的分享。
本文主要從數據湖存儲演進之路、數據湖存儲3.0 進化亮點等方面分享了云湖共生帶來的企業價值。
以下是精彩視頻內容整理:
數據湖存儲演進之路
眾所周知,數據湖是一個存算分離的架構。這個架構帶來的好處是存儲和計算是解耦地部署及擴展的,從而實現整體系統的彈性能力。我回憶了一下數據湖存儲1.0時一個客戶的情況。他有一個很大的 HDFS 集群,里面存了大量的歷史數據,這時候想擴計算了,但是發現計算不能直接 run 在上面,因為會影響到現有集群的穩定性。就要單獨擴額外的機器來做計算的集群,擴的時候集群又變龐大了,對運維的穩定性又帶來了挑戰。所以當時客戶就選擇了存算分離的數據湖技術。好處就是把所有的數據都放到分離的對象存儲上面,就可以繼續跑計算集群,run Hadoop 的計算生態。為了兼容對象存儲的接口和傳統 Hadoop 應用的 HDFS 接口的要求,他還會部署一個 HDFS 的集群,來支撐這樣的一個應用。那這個集群,就可以把傳統的應用很好的 run 起來,而且他還可以提供性能優化的能力,這是數據湖1.0解決的一個問題。
隨著數據湖1.0大量客戶的使用,可以看到上面的應用越來越多。從 Hadoop 的應用到計算引擎,不同的計算引擎再到 AI,上面的計算生態越來越多,對存儲容量的擴展性就有了更高的要求?;谶@個要求,我們要解決數據的管理能力。就需要把數據全部存到對象存儲上,跟1.0相比可以看到,所有的冷熱數據,都會存到對象存儲里,對象存儲就要支持大規模高性能的能力,同樣也有一個老的問題要解決。 HDFS 一些專有的接口支撐能力,還需要外部的元數據服務,run 一個元數據服務比如 JindoFS,來把傳統應用支撐起來,這樣就解決1.0里面的一些問題。
基于2.0我們深入的使用,也發現了一些痛點,比如要運維一個外部的元數據集群,同時對于一些存量的數據,你還要做數據導入導出的工作,為此我們提出了數據湖3.0。這里面存儲架構就發生了一個質的變化。把外置的一個元數據集群,內置到對象存儲里,把它做成一個服務化,無需占用客戶的資源,通過 SDK 就能夠訪問,這樣可以減少運維的難題。而且我們整個元數據統一之后,可以將歷史上就已存到對象存儲上面的數據快速遷移過來,不需要做數據的拷貝。因此數據湖3.0,我們實現了以對象存儲為中心,全兼容、多協議、統一元數據的服務。
數據湖存儲3.0 進化亮點
基于數據湖3.0,我們可以看到他有如下一些亮點:
- 多協議接口,訪問相同存儲空間
如圖所示,它是一個多協議接口訪問的池子。這個協議可以訪問相同的數據,這樣就能降低應用的門檻,直接對接接口就好,對運維是一個好處
- 性能加速器,服務端、客戶端靈活選擇使用
可以在客戶端,服務端選擇不同的加速器來提高性能
- 全服務化形態,降低客戶運維難度
通過服務化的形態部署,降低了計算機器上面部署更多軟件的開銷,降低了運維的代價,可以讓客戶更好的使用
- 元數據互通,存量數據無縫遷移
底層讓對象存儲這種平坦的元數據,和基于 HDFS 目錄的元數據,相互之間可以互相理解,從而在做存量數據移動的時候,只做元數據的映射修改,而數據是不用移動的,這樣就可以平滑應用。
- 冷熱分層,極致性價比優化
數據湖1.0里面有熱數據在 HDFS 里面,冷數據在對象存儲里面,現在我們完全可以利用對象存儲自身提供的,不同規格的存儲類型,來實現應用的冷熱分層,從而提供極致的性價比
- 一份數據,多維的元數據描述,零數據拷貝
接口全兼容,快速完成自建HDFS遷移OSS數據湖存儲
- 100%兼容 HDFS語義計算引擎無感
- HDFS/對象 一份數據 多協議訪問,元數據互通
- 對象接口支持 毫秒級原子10億級目錄重命名
- 全服務化 降低運維難度,簡單易用
我們實現了基于 OSS 構建的數據湖存儲3.0.既然提供了百分之百兼容 HDFS 語義的能力,就可以很容易且快速完成自建HDFS遷移OSS數據湖存儲。因為接口兼容了,我們可以通過一些工具、軟件快速的把數據從自建的 HDFS 拷貝或者遷移到數據湖存儲里面來,而且未來我們還會做,對于開源 HDFS NameNode 的一種格式解析方式。做了這個格式之后,我們可以在后臺自動的做遷移,降低整個遷移的難度。那同時數據遷移到 OSS 之后,我們基于一些驗證過的場景,比如一個目錄下存放10億的文件,我們也能提供對象存儲級的目錄操作的原子接口,可以實現秒級把這個目錄完成重命名,大大的提高計算的效率,這個也是經過場景驗證的。
OSS數據湖存儲與CPFS數據流動,加速AI 業務創新
- 降低95%計算等待時間,大幅提升訓練效率
- POSIX 語義兼容,業務應用天然適配
- CPFS 提供百GB吞吐,高性能共享訪問
- 數據按需流動,多種更新模式,高效管理
建完湖之后就要修湖,修湖之后還要拉通、疏浚河道,這樣才能夠讓水流到湖里面來?;?OSS 構建的數據湖,也是同樣的道理。我們完善了這個湖之外還打通了跟外部的存儲之間的數據流動的通道。
這是典型的跟 CPFS 的一個通道,通過離線遷移的閃電立方數據遷移技術,把數據從線下,特別是在 AI 這樣的場景下,把他的數據搬到云上,利用云上的技術把數據存起來。然后 CPFS 拉取需要的熱數據跟 CPU 結合起來進行訓練來滿足高要求。比如 CPFS 可以提供百 GB 帶寬的能力,快速的計算,可以降低95%的計算時間,充分發揮 CPFS 的能力。同時計算的結果又能回流歸檔回到 OSS 這個數據湖里面,在這個湖里面大量的數據,又會跟 EMR、MaxCompute 配合起來進行一些離線的訓練,挖取更多的數據價值。所以我們會不斷的去跟外部的存儲系統,形成數據的流動,讓湖跟外面的河連接起來,形成數據的水網。
基于 OSS 構建的數據湖存儲3.0的特點
- 穩定
- 99.995%可用性SLA
- 12個9數據可靠性
- 數據不丟不錯
- 安全
- 全鏈路數據加密
- 多種加密算法
- 一鍵開啟Tb 級防攻擊
- 敏感數據保護
- 彈性
- 數十 EB 級數據存儲實戰
- 單桶萬億級對象
- 目錄原子操作接口
- 性價比高
- 久經驗證Tbps 級帶寬
- 穩定的讀寫時延
- 領先的冷歸檔成本降 90%
基于 OSS 構建的數據湖的穩定性是非常好的,99.995%的這個可用性 SLA , 這是非常高的。12個9的數據可靠性,數據基本上不會丟不會錯,只有在極限的情況下,比如數據中心因為自然災害等故障之后才可能引起異常,但我們通過3A 這樣的技術可以進一步的緩解。我經常跟別人講一個故事,阿里常說我們要活102年,我們希望在這一百年之期,你存進去的數據, 100多年以后去訪問它還是一模一樣的。不管后端的數據中心、硬盤、服務器發生任何代次的更換,數據始終在那。第二個就是我們的安全能力,基于對象存儲 OSS 構建的數據湖,完整的繼承了對象存儲上面構建的安全能力,全鏈路的數據加密,豐富的加密算法,特別是一鍵開啟 TB級的防攻擊能力。昨天有一個客戶還在跟我交流,他說他上云最擔心的就是被攻擊,那我們這一套防攻擊體系是和阿里整個集團的防攻擊體系一脈相承,一起共建出來,經受過雙十一打磨的。所以安全這塊在我們構建數據湖的時候,是可以放心的。至于彈性方面,我們提供了數十 EB 級的數據存儲實戰。而且對象存儲里面的單桶,支持萬億級的存儲能力,這個數據量是非常的龐大的。而且我們完善了對象存儲上面的目錄原子操作接口,通過這個目錄原子操作可以讓重命名變得更加的高效。我們跟 EMR 團隊一起配合在一些場景下面,通過這個接口可以提升,整個計算30%的性能。然后性價比方面,久經驗證的 Tbps 級帶寬,做雙十一大促也好,紅包活動也好,都是支持的。大家如果用 OSS 就可以知道,我們寫入的實驗和讀取的實驗,抖動的曲線基本上沒有波動,都是比較平穩的一條線,有了這個實驗,大家做程序設計的時候,各種預期就比較好計算。今年我們還發布了領先的冷歸檔技術。通過冷規檔技術,我們可以把成本降低90%。也就是說在數據湖里面,不用的數據可以沉淀下來,需要的時候再把它找回來,那成本是非常低廉的。就可以做好數據生命周期管理,支持你做好數據治理。
通過上面的這個技術介紹,我們相信基于 OSS 的數據湖存儲3.0,就像哆啦A夢的百寶袋,你可以把各種數據都放進去,也許你放進去的是垃圾數據,但是你通過數據湖上面的分析,取出來的卻是各種寶貝。
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。?
總結
以上是生活随笔為你收集整理的云湖共生-释放企业数据价值的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flink 1.14 新特性预览
- 下一篇: EventBridge 事件总线及 ED