Flink 广播变量
生活随笔
收集整理的這篇文章主要介紹了
Flink 广播变量
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
廣播變量簡介
在Flink中,同一個算子可能存在若干個不同的并行實例,計算過程可能不在同一個Slot中進行,不同算子之間更是如此,因此不同算子的計算數據之間不能像Java數組之間一樣互相訪問,而廣播變量Broadcast便是解決這種情況的。
我們可以把廣播變量理解為是一個公共的共享變量,我們可以把一個dataset 數據集廣播出去,然后不同的task在節點上都能夠獲取到,這個數據在每個節點上只會存在一份。
如果不使用broadcast,則在每個節點中的每個task中都需要拷貝一份dataset數據集,比較浪費內存(也就是一個節點中可能會存在多份dataset數據)。
用法
1:初始化數據DataSet<Integer> num = env.fromElements(1, 2, 3)2:廣播數據.withBroadcastSet(toBroadcast, "num");3:獲取數據Collection<Integer> broadcastSet = getRuntimeContext().getBroadcastVariable("num");注意事項
使用廣播狀態,task 之間不會相互通信
只有廣播的一邊可以修改廣播狀態的內容。用戶必須保證所有 operator 并發實例上對廣播狀態的 修改行為都是一致的。或者說,如果不同的并發實例擁有不同的廣播狀態內容,將導致不一致的結果。
廣播狀態中事件的順序在各個并發實例中可能不盡相同
廣播流的元素保證了將所有元素(最終)都發給下游所有的并發實例,但是元素的到達的順序可能在并發實例之間并不相同。因此,對廣播狀態的修改不能依賴于輸入數據的順序。
所有operator task都會快照下他們的廣播狀態
在checkpoint時,所有的 task 都會 checkpoint 下他們的廣播狀態,隨著并發度的增加,checkpoint 的大小也會隨之增加
廣播變量存在內存中
廣播出去的變量存在于每個節點的內存中,所以這個數據集不能太大,百兆左右可以接受,Gb不能接受
案例
public class BroadCastTest {public static void main(String[] args) throws Exception{ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();//1.封裝一個DataSetDataSet<Integer> broadcast = env.fromElements(1, 2, 3);DataSet<String> data = env.fromElements("a", "b");data.map(new RichMapFunction<String, String>() {private List list = new ArrayList();@Overridepublic void open(Configuration parameters) throws Exception {// 3. 獲取廣播的DataSet數據 作為一個CollectionCollection<Integer> broadcastSet = getRuntimeContext().getBroadcastVariable("number");list.addAll(broadcastSet);}@Overridepublic String map(String value) throws Exception {return value + ": "+ list;}}).withBroadcastSet(broadcast, "number") // 2. 廣播的broadcast.printToErr();//打印到err方便查看} }輸出結果
a: [1, 2, 3] b: [1, 2, 3]總結
以上是生活随笔為你收集整理的Flink 广播变量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flink 读取文本文件,聚合每一行的u
- 下一篇: Flink的重启策略