日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

apache 版本_Apache Hudi 0.5.1版本重磅发布

發(fā)布時間:2025/3/20 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 apache 版本_Apache Hudi 0.5.1版本重磅发布 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

歷經(jīng)大約3個月時間,Apache Hudi 社區(qū)終于發(fā)布了0.5.1版本,這是Apache Hudi發(fā)布的第二個Apache版本,該版本中一些關鍵點如下

  • 版本升級

    • 將Spark版本從2.1.0升級到2.4.4

    • 將Avro版本從1.7.7升級到1.8.2

    • 將Parquet版本從1.8.1升級到1.10.1

    • 將Kafka版本從0.8.2.1升級到2.0.0,這是由于將spark-streaming-kafka artifact從0.8_2.11升級到0.10_2.11/2.12間接升級

重要:Hudi 0.5.1版本需要將spark的版本升級到2.4+

  • Hudi現(xiàn)在支持Scala 2.11和2.12,可以參考Scala 2.12構建來使用Scala 2.12來構建Hudi,另外, hudi-spark, hudi-utilities, hudi-spark-bundle and hudi-utilities-bundle包名現(xiàn)已經(jīng)對應變更為 hudi-spark_{scala_version}, hudi-spark_{scala_version}, hudi-utilities_{scala_version}, hudi-spark-bundle_{scala_version}和 hudi-utilities-bundle_{scala_version}. 注意這里的scala_version為2.11或2.12。

  • 在0.5.1版本中,對于timeline元數(shù)據(jù)的操作不再使用重命名方式,這個特性在創(chuàng)建Hudi表時默認是打開的。對于已存在的表,這個特性默認是關閉的,在已存在表開啟這個特性之前,請參考這部分(https://hudi.apache.org/docs/deployment.html#upgrading)。若開啟新的Hudi timeline布局方式(layout),即避免重命名,可設置寫配置項hoodie.timeline.layout.version=1。當然,你也可以在CLI中使用repair overwrite-hoodie-props命令來添加hoodie.timeline.layout.version=1至hoodie.properties文件。注意,無論使用哪種方式,在升級Writer之前請先升級Hudi Reader(查詢引擎)版本至0.5.1版本。

  • CLI支持repair overwrite-hoodie-props來指定文件來重寫表的hoodie.properties文件,可以使用此命令來的更新表名或者使用新的timeline布局方式。注意當寫hoodie.properties文件時(毫秒),一些查詢將會暫時失敗,失敗后重新運行即可。

  • DeltaStreamer用來指定表類型的參數(shù)從--storage-type變更為了--table-type,可以參考wiki來了解更多的最新變化的術語。

  • 配置Kafka Reset Offset策略的值變化了。枚舉值從LARGEST變更為LATEST,SMALLEST變更為EARLIEST,對應DeltaStreamer中的配置項為auto.offset.reset。

  • 當使用spark-shell來了解Hudi時,需要提供額外的--packages org.apache.spark:spark-avro_2.11:2.4.4,可以參考quickstart了解更多細節(jié)。

  • Key generator(鍵生成器)移動到了單獨的包下org.apache.hudi.keygen,如果你使用重載鍵生成器類(對應配置項:hoodie.datasource.write.keygenerator.class),請確保類的全路徑名也對應進行變更。

  • Hive同步工具將會為MOR注冊帶有_ro后綴的RO表,所以查詢也請帶_ro后綴,你可以使用--skip-ro-suffix配置項來保持舊的表名,即同步時不添加_ro后綴。

  • 0.5.1版本中,供presto/hive查詢引擎使用的hudi-hadoop-mr-bundle包shaded了avro包,以便支持real time queries(實時查詢)。Hudi支持可插拔的記錄合并邏輯,用戶只需自定義實現(xiàn)HoodieRecordPayload。如果你使用這個特性,你需要在你的代碼中relocate avro依賴,這樣可以確保你代碼的行為和Hudi保持一致,你可以使用如下方式來relocation。

    <relocation>
    <pattern>org.apache.avro.pattern>
    <shadedPattern>org.apache.hudi.org.apache.avro.shadedPattern>
    relocation>
  • DeltaStreamer更好的支持Delete,可參考blog了解更多細節(jié)。

  • DeltaStreamer支持AWS Database Migration Service(DMS) ,可參考blog了解更多細節(jié)。

  • 支持DynamicBloomFilter(動態(tài)布隆過濾器),默認是關閉的,可以使用索引配置項hoodie.bloom.index.filter.type=DYNAMIC_V0來開啟。

  • HDFSParquetImporter支持bulkinsert,可配置--command為bulkinsert。

  • 支持AWS WASB和 WASBS云存儲。

更多細節(jié)請參考:https://hudi.apache.org/releases.html#release-051-incubating

總結

以上是生活随笔為你收集整理的apache 版本_Apache Hudi 0.5.1版本重磅发布的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。