日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基于JindoFS+OSS构建高效数据湖

發布時間:2024/8/23 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于JindoFS+OSS构建高效数据湖 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

為什么要構建數據湖

大數據時代早期,Apache HDFS 是構建具有海量存儲能力數據倉庫的首選方案。隨著云計算、大數據、AI 等技術的發展,所有云廠商都在不斷完善自家的對象存儲,來更好地適配 Apache Hadoop/Spark 大數據以及各種 AI 生態。由于對象存儲有海量、安全、低成本、高可靠、易集成等優勢,各種 IoT 設備、網站數據都把各種形式的原始文件存儲在對象存儲上,利用對象存儲增強和拓展大數據 AI 也成為了業界共識,Apache Hadoop 社區也推出了原生的對象存儲“Ozone”。從 HDFS 到對象存儲,從數據倉庫到數據湖,把所有的數據都放在一個統一的存儲中,也可以更加高效地進行分析和處理。

對于云上的客戶來說,如何構建自己的數據湖,早期的技術選型非常重要,隨著數據量的不斷增加,后續進行架構升級和數據遷移的成本也會增加。在云上使用 HDFS 構建大規模存儲系統,已經暴露出來不少問題。HDFS 是 Hadoop 原生的存儲系統,經過 10 年來的發展,HDFS 已經成為大數據生態的存儲標準,但我們也看到 HDFS 雖然不斷優化,但是 NameNode 單點瓶頸,JVM 瓶頸仍然影響著集群的擴展,從 1 PB到 100+ PB,需要不斷的進行調優、集群拆分來,HDFS 可以支持到 EB 級別,但是投入很高的運維成本,來解決慢啟動,心跳風暴,節點擴容、節點遷移,數據平衡等問題。

云原生的大數據存儲方案,基于阿里云 OSS 構建數據湖是最合適的選擇。OSS 是阿里云上的對象存儲服務,有著高性能、無限容量、高安全、高可用、低成本等優勢,JindoFS 針對大數據生態對 OSS 進行了適配,緩存加速,甚至提供專門的文件元數據服務,滿足上云客戶的各種分析計算需求。因此在阿里云上,JindoFS + OSS 成為客戶采取數據湖架構遷移上云的最佳實踐。

JindoFS 介紹

Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式計算和存儲引擎。Jindo 原是阿里云 開源大數據團隊的內部研發代號,取自筋斗(云)的諧音,Jindo 在開源基礎上做了大量優化和擴展,深度集成和連接了眾多阿里云基礎服務。

JindoFS 是阿里云針對云上存儲自研的大數據緩存加速服務,JindoFS 的設計理念是云原生:彈性、高效、穩定和低成本。JindoFS 完全兼容 Hadoop 文件系統接口,給客戶帶來更加靈活、高效的數據湖加速方案,完全兼容阿里云 EMR 中所有的計算服務和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。JindoFS 有兩種使用模式,塊存儲模式(BLOCK)和緩存模式(CACHE)。下面我們介紹下如何在 EMR 中配置和使用 JindoFS 以及不同模式對應的場景。

JindoFS 架構

JindoFS 主要包含兩個服務組件:元數據服務(NamespaceService) 和存儲服務 (StorageService):

  • NamespaceService 主要負責元數據管理以及管理 StorageService。
  • StorageService 主要負責管理節點的本地數據和 OSS 上的緩存數據。

下圖是 JindoFS 架構圖:元數據服務 NamespaceService 部署在獨立的節點,對于生產環境推薦部署三臺(Raft)來實現服務高可用;存儲服務 StorageService 部署在集群的計算節點,管理節點上的閑置存儲資源(本地盤/SSD/內存等),為JindoFS 提供分布式緩存能力。

JindoFS 元數據服務

JindoFS 的元數據服務叫 JindoNamespaceService,內部基于 K-V 結構存儲元數據,相對于傳統的內存結構有著操作高效,易管理,易恢復等優勢。

  • 高效元數據操作。JindoFS NamespaceService 基于內存 + 磁盤管理和存儲元數據,但是性能上比使用內存的 HDFS NameNode 還要好,一方面是 JindoFS 使用 C++ 開發,沒有 GC 等問題,響應更快;另一方面是由于 Namespace Service 內部有更好的設計,比如文件元數據上更細粒度的鎖,更高效的數據塊副本管理機制。
  • 秒級啟動。有大規模 HDFS 集群維護經驗的同學比較清楚,當 HDFS 元數據存儲量過億以后,NameNode 啟動初始化要先加載 Fsimage ,再合并 edit log,然后等待全部 DataNode 上報 Block,這一系列流程完成要花費一個小時甚至更長的時間, 由于 NameNode 是雙機高可用(Active/Standby),如果 standby 節點重啟時 active 節點出現異常 ,或兩臺 NameNode 節點同時出現故障,HDFS 將出現停服一小時以上的損失。JindoFS 的元數據服務基于 Raft 實現高可用,支持 2N+1 的部署方式,允許同時掛掉 N 臺;元數據服務 (NamespaceService) 在元數據內部存儲上進行了設計和優化,進程啟動后即可提供服務,可以做到了快速響應。由于 NamespaceService 近實時寫入 OTS 的特點,元數據節點更換,甚至集群整體遷移也非常容易。
  • 低資源消耗。HDFS NameNode 采用內存形式來存儲文件元數據。在一定規模下,這種做法性能上是比較不錯的,但是這樣的做法也使 HDFS 元數據的規模受限于節點的內存,經過推算,1億文件 HDFS 文件大約需要分配 60 GB Java Heap 給 NameNode,所以一臺 256 GB的機器最多可以管理 4 億左右的元數據,同時還需要不斷調優 JVM GC。JindoFS 的元數據采用 Rocksdb 存儲元數據,可以輕松支持到 10 億規模,對于節點的內存需求也非常小,資源開銷不到 NameNode 的十分之一。

JindoFS 緩存服務

JindoFS 的數據緩存服務叫 JindoStorageService,本地 StorageService 主要提供高性能緩存加速,所以運維上可以基于這樣的設定大大簡化。

  • 彈性運維。HDFS 使用 DataNode 在存儲節點上來管理節點存儲,全部數據塊都存儲在節點的磁盤上,依靠 DataNode 定期檢查和心跳把存儲狀態上報給 NameNode,NameNode 通過匯總和計算,動態地保證文件的數據塊達到設定的副本數(一般 3 副本)。對于大規模集群(節點 1000+),經常需要進行集群節點擴容,節點遷移,節點下線,節點數據平衡這樣的操作,大量的數據塊的副本計算增加了 NameNode 負載,同時,節點相關操作要等待 NameNode 內部的副本調度完成才能進行,通常一個存儲節點的下線需要小時級別的等待才能完成。JindoFS 使用 StorageService 來管理節點上的存儲,由于 JindoFS 保證了數據在 OSS 上有一副本,所以本地的副本主要用來進行緩存加速。對于節點遷移、節點下線等場景,JindoFS 無需復雜副本計算,通過快速的“標記”即可完成下線。
  • 高性能存儲。StorageService 采用 C++ 語言開發,在對接最新高性能存儲硬件上也有著天然優勢。StorageService 的存儲后端不僅可以同時對接SSD、本磁盤、OSS 滿足 Hadoop/Spark 大數據框架各種海量、高性能的存儲訪問需求,可以對接內存、AEP 這樣的高性能設備滿足 AI/機器學習的低延時、高吞吐的存儲使用需求。

JindoFS 適用場景

JindoFS 的元數據存儲在 Master 節點的 NamespaceService (高可用部署)上,性能和體驗上對標 HDFS;Core節點的 StorageService 將一份數據塊存儲在 OSS 上,本地數據塊可以隨著節點資源進行快速的彈性伸縮。多集群之間也可以相互打通。

為了支持數據湖多種使用場景,一套 JindoFS 部署同時提供兩種 OSS 使用方式,存儲模式(Block)和緩存模式(Cache)。

  • 緩存模式。對于已經存在于 OSS 上的數據,可以使用緩存模式訪問,正如“緩存”本身的含義,通過緩存的方式,在本地集群基于 JindoFS 的存儲能力構建了一個分布式緩存服務,把遠端數據緩存在本地集群,使遠端數據“本地化”。使用上也沿用原來的路徑訪問,如 oss://bucket1/file1 ,這種模式全量的文件都在 OSS 上面,可以做到集群級別的彈性使用。
  • 存儲模式。存儲模式(Block)適用于高性能數據處理場景,元數據存儲在 NamespaceService (支持高可用部署)上,性能和體驗上對標 HDFS;StorageService 將一份數據塊存儲在 OSS 上,本地數據塊可以隨著節點資源可以進行快速的彈性伸縮。基于 JindoFS Block 模式這樣的特性,可以用作構建高性能數倉的核心存儲,多個計算集群可以訪問 JindoFS 主集群的數據。

JindoFS 方案優勢

基于JindoFS + OSS 來構建數據湖相比于其他數據湖方案同時具有性能和成本優勢。

  • 性能上,JindoFS 針對一些常用的場景和 Benchmark 進行了對比測試,如 DFSIO、NNbench、TPCDS、Spark、Presto 等,通過測試我們可以看到性能上,Block模式完全領先于 HDFS,Cache模式完全領先于 Hadoop 社區的 OSS SDK 實現,由于篇幅的原因,后續我們會發布詳細的測試報告。
  • 成本上。成本是也是用戶上云的重要考量,JindoFS 的成本優勢主要體現在運維成本和存儲成本兩方面。運維成本指的是集群日常維護,節點上下線、遷移等。如前面分析,當 HDFS 集群增長到一定規模時,比如 10PB+,除了對 HDFS 進行專家級別調優外,還需要業務上的拆分規劃,避免達到 HDFS 元數據上的瓶頸。同時,隨著集群數據不斷增長,一些節點和磁盤也會出現故障,需要進行節點下線和數據平衡,也給大集群的運維帶來一定的復雜度。JindoFS 可以使用 OSS + OTS 的存儲模式,OSS 上保留原始文件和數據塊備份,對節點和磁盤出現的問題可以更好兼容;元數據(NamespaceService)采用 C++ 開發加上工程打磨,相比 NameNode + JVM 在容量上和性能上也更有優勢。

下面我們重點來看存儲成本。存儲成本指的是存放數據后產生的存儲費用,使用 OSS 是按量付費的,相比基于本地盤創建的 HDFS 集群有更好的成本優勢,下面來計算和對比一下二者成本:

基于 HDFS + 本地盤方案構建大數據存儲:

由于本地盤機型為整體價格,需要如下進行換算,預估存儲成本如下:

(參考鏈接:https://www.aliyun.com/price/product#/ecs/detail?)

考慮到實際使用 HDFS 會有3副本以及一定的預留空間,我們以 HDFS 3 副本、 80% 使用率進行成本計算:

基于 JindoFS 加速方案構建數據湖:

OSS 數據存儲(標準型單價)= 0.12元/GB/每月

(參考鏈接:https://www.aliyun.com/price/product#/oss/detail?)

我們可以看到使用 JindoFS 加速方案構建數據湖,要節省 25% 的存儲成本。同時 OSS 是按量計費,即計算存儲分離,當計算和存儲比例存在差異時,比如存儲資源高速增長,計算資源增加較小時,成本優勢會更加明顯。

對 OSS 數據進行緩存加速,需要額外使用計算節點上部分磁盤空間,帶來一定成本。這部分成本,一般取決于熱數據或者要緩存數據的大小,跟要存儲的數據總量關系不大。增加這部分成本,可以換取計算效率的提升和計算資源的節省,整體效果可以根據實際場景進行評估。

JindoFS 生態

數據湖是開放的,需要對接各種計算引擎。目前 JindoFS 已經明確支持 Spark、Flink、Hive、MapReduce、Presto 和 Impala 組件。同時,JindoFS 為了支持更好地使用數據湖,還提供 JindoTable 對結構化數據進行優化和查詢加速;提供 JindoDistCp 來支持 HDFS 離線數據往 OSS 遷移;支持 JindoFuse 方便數據湖上加速機器學習訓練。

?

原文鏈接
本文為阿里云原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的基于JindoFS+OSS构建高效数据湖的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美精品在线观看一区二区 | 国产r级在线观看 | 欧美日韩a√ | 成人午夜在线视频 | 青青艹av| 亚洲高清视频在线 | 成人乱人乱一区二区三区 | 天堂网www. | 日本黄色的视频 | 亚洲精品推荐 | 色七七桃花综合影院 | 久久精品综合网 | 色网综合| 九色婷婷 | 亚洲国产精品成人va在线观看 | www.黄色免费 | 日韩精品无码一本二本三本色 | 97av超碰| 日韩新片王网 | 亚洲字幕在线观看 | 国产av电影一区二区 | 亚洲欧美成人一区二区三区 | 91超碰人人 | 午夜老司机福利 | 国产毛片一区二区三区va在线 | 午夜精品久久久久久久96蜜桃 | 3344成人| 色视频在线免费观看 | 欧美色视频在线 | 国产视频久久久久久久 | 96av视频| 91欧美一区二区 | 日韩欧美在线一区二区 | 国产影音先锋 | 狂野少女电影在线观看国语版免费 | 亚洲天堂网站 | 天天干夜夜操 | 在线色网址 | 欧美成年人在线观看 | 国产视频aaa | 羞羞色院91蜜桃 | 国产中文自拍 | 丰满少妇被猛烈进入 | 天天草视频 | 一级片免费看视频 | k8经典成人理伦片 | 久久性 | 麻豆视频在线免费看 | 亚洲AV无码片久久精品 | 三级网站国产 | 91视频插插插 | 国产福利免费视频 | 国内少妇毛片视频 | 美女在线观看视频 | 男人的天堂在线观看av | 99久久免费精品 | 在线中文字幕日韩 | 懂色av一区二区在线播放 | 山村淫强伦寡妇 | 日韩欧美国产一区二区 | 国产精品一品二区三区的使用体验 | 亚洲视频a | 91丝袜一区二区三区 | av日日夜夜| 阿v免费在线观看 | 中文字幕人妻互换av久久 | 最近2018年手机中文字幕版 | 天天夜夜操| 欧美成人一区二免费视频软件 | 国产95在线| 内射后入在线观看一区 | 国产人妻精品一区二区三区 | 天堂av网站 | av爱爱网站 | 国产人妖网站 | 欧美日韩中出 | 97在线观视频免费观看 | 欧美色图一区二区三区 | 桃色综合网 | 中出在线播放 | 日韩欧美三级在线 | 国产美女91 | 18禁超污无遮挡无码免费游戏 | 亚洲精品久 | 午夜免费福利网站 | 视频在线日韩 | 永久免费av | 91另类| 福利视频一二区 | 黄色国产一级 | 足疗店女技师按摩毛片 | www.黄色网 | 高潮无码精品色欲av午夜福利 | 激情五月综合色婷婷一区二区 | 国产一区二区三区亚洲 | 天天综合影院 | 日本免费三片在线播放 | 激情导航 | 国产精品高潮呻吟视频 |