Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
生活随笔
收集整理的這篇文章主要介紹了
Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
前言
本文先通過源碼簡單過一下分區提交機制的兩個要素——即觸發(trigger)和策略(policy)的實現,然后用合并小文件的實例說一下自定義分區提交策略的方法。
PartitionCommitTrigger
在最新的 Flink SQL 中,FileSystem Connector 原生支持數據分區,并且寫入時采用標準 Hive 分區格式,如下所示。
path└── datetime=2019-08-25 └── hour=11 ├── part-0.parquet ├── part-1.parquet └── hour=12 ├── part-0.parquet└── datetime=2019-08-26 └── hour=6 ├── part-0.parquet
那么,已經寫入的分區數據何時才能對下游可見呢?這就涉及到如何觸發分區提交的問題。根據官方文檔,觸發參數有以下兩個:
-
sink.partition-commit.trigger:可選 process-time(根據處理時間觸發)和 partition-time(根據從事件時間中提取的分區時間觸發)。
-
sink.partition-commit.delay:分區提交的時延。如果 trigger 是 p
總結
以上是生活随笔為你收集整理的Flink从入门到精通100篇(十五)-Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略 的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 说了这么久中台,那你知道中台是什么?在治
- 下一篇: MySQL从入门到精通50讲(一)-My