日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据湖之iceberg系列(一)iceberg能做什么

發布時間:2024/1/23 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据湖之iceberg系列(一)iceberg能做什么 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 前言 HIVE的缺陷
Hive的元數據依賴一個外部的MySQL和HDFS文件系統,通過MySQL找到相關的parition之后,需要為每個partition去HDFS文件系統上按照分區做目錄的list操作。在文件量大的情況下,這是一個非常耗時的操作。

同時,由于元數據分屬MySQL和HDFS管理,寫入操作本身的原子性難以保證。即使在開啟Hive ACID情況下,仍有很多細小場景無法保證原子性。另外,Hive Metastore沒有文件級別的統計信息,這使得filter只能下推到partition級別,而無法下推到文件級別,對上層分析性能損耗無可避免。

在處理數據的時候 hive對數據的變化沒有相應的管理, 數據的合并的抽取需要使用拉鏈表操作,操作相對比較復雜 !

雖然目前從功能上看不如前面兩者豐富,但由于它牢固堅實的底層設計,一旦功能補齊,將成為一個非常有潛力的開源數據湖方案。

當前大數據發展的三大趨勢:

數據倉庫往數據湖方向發展

批處理往流式處理發展

本地部署往云模式發展

數據湖簡介
數據湖應該具備以下功能

同時支持流批處理

支持數據更新

支持事務(ACID)

可擴展的元數據

數據質量保障

支持多種存儲引擎

支持多種計算引擎

Apache Iceberg 原理介紹


?

Apache Iceberg 是一種用于跟蹤超大規模表的新格式,是專門為對象存儲(如S3)而設計的。其核心思想:在時間軸上跟蹤表的所有變化。

快照(snapshot)表示表數據文件的一個完整集合

每次更新操作會生成一個新的快照。

Iceberg的優點

優化數據入庫流程:Iceberg 提供 ACID 事務能力,上游數據寫入即可見,不影響當前數據處理任務,這大大簡化了 ETL;Iceberg 提供了 upsert、merge into 能力,可以極大地縮小數據入庫延遲;

支持更多的分析引擎:優秀的內核抽象使之不綁定特定的計算引擎,目前 Iceberg 支持的計算引擎有 Spark、Flink、Presto 以及 Hive。

統一數據存儲和靈活的文件組織:提供了基于流式的增量計算模型和基于批處理的全量表計算模型。批處理和流任務可以使用相同的存儲模型,數據不再孤立;Iceberg 支持隱藏分區和分區進化,方便業務進行數據分區策略更新。支持 Parquet、Avro 以及 ORC 等存儲格式。

增量讀取處理能力:Iceberg 支持通過流式方式讀取增量數據,支持 Structed Streaming 以及 Flink table Source

Iceberg 的快照設計方式,主要包括快照隔離以及對于文件列表的所有修改都是原子操作。

元數據組織包括:

實現基于快照的跟蹤方式;

表的元數據是不可修改的,并且始終向前迭代;

當前的快照可以回退。

沒有使用數據湖技術,我們需要很多組件來保證 exactly-once 語義。并且利用 HDFS 的 rename 操作的原子性和復雜的命名規則來保證一致性、可見性。利用調度引擎來構建依賴關系,從而避免讀寫沖突。

上面架構存在的問題:架構比較復雜,需要不同組件之間的協調;架構的復雜會進一步導致數據的延遲。exactly-once 語義保證比較復雜,增加了運維的難度。

有了 Iceberg 之后,整體架構簡單了,而且通過簡單的架構即可實現原子語義。Iceberg 格式的數據直接可以使用 Hive、Spark 來讀取;同時,Iceberg 支持讀寫分區,寫入并且 commit 的數據下游系統立即可以使用,降低系統的整體延遲。

同時,Iceberg 技術還催生了新的架構,也就是 CDC 架構。其相比傳統的架構而言整體系統架構更加簡潔,端到端的延遲大大降低,而且支持 ACID 事務能力。


————————————————
版權聲明:本文為CSDN博主「白眼黑刺猬」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/qq_37933018/article/details/110230440

總結

以上是生活随笔為你收集整理的数据湖之iceberg系列(一)iceberg能做什么的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。