當前位置：首頁 >

spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理)

發布時間：2023/12/31 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[1]寬依賴和窄依賴，這是Spark計算引擎劃分Stage的根源所在，遇到寬依賴，則劃分為多個stage，針對每個Stage，提交一個TaskSet：

上圖：一張網上的圖：

（個人筆記，rdd中有多個partition,著這里的藍色小塊是partition,? 藍色方框是rdd）

基于此圖，分析下這里為什么前面的流程都是窄依賴，而后面的卻是寬依賴：

我們仔細看看，map和filter算子中，對于父RDD來說，一個分區內的數據，有且僅有一個子RDD的分區來消費該數據。

同樣，UNION算子也是同樣的：

所以，我們判斷窄依賴的依據就是：父類分區內的數據，會被子類RDD中的指定的唯一一個分區所消費：

這是很重要的：

面試的時候，面試官問到了一個問題，如果父類RDD有很多的分區，而子類RDD只有一個分區，我們可以使用repartition或者coalesce算子來實現該效果，請問，這種實現是寬依賴？還是窄依賴？

如果從網上流傳的一種觀點：子RDD一個partition內的數據依賴于父類RDD的所有分區，則為寬依賴，這種判斷明顯是錯誤的：

別笑，網上的確有這種說法，我差點栽了跟頭，這種解釋實質上是錯誤的，因為如果我們的reduceTask只有一個的時候，只有一個分區，這個分區內的數據，肯定依賴于所有的父類RDD：

毫無疑問，這是個窄依賴：

相對之下，什么是寬依賴呢？

寬依賴，指的是父類一個分區內的數據，會被子RDD內的多個分區消費，需要自行判斷分區，來實現數據發送的效果：

總結一下：

窄依賴：父RDD中，每個分區內的數據，都只會被子RDD中特定的分區所消費，為窄依賴：

寬依賴：父RDD中，分區內的數據，會被子RDD內多個分區消費，則為寬依賴：

這里，還存在一個可能被挑刺的地方，比如說父類每個分區內都只有一個數據，毫無疑問，這些數據都會被唯一地指定到子類的某個分區內，這是窄依賴？還是寬依賴？

這時候，可以從另外一個角度來看問題：

每個分區內的數據，是否能夠指定自己在子類RDD中的分區？

如果不能，那就是寬依賴：如果父RDD和子RDD分區數目一致，那基本就是窄依賴了：

總之，還是要把握住根本之處，就是父RDD中分區內的數據，是否在子類RDD中也完全處于一個分區，如果是，窄依賴，如果不是，寬依賴。

自己注釋：

其實所謂的窄依賴的意思是，父RDD中的數據只被使用一次

#######################################################################################

上面提到的這張圖，對應的具體代碼到底是什么？

這里的藍色實心矩形是Partition，藍色方框代表的是下方代碼中的rdd1和rdd2

與上圖對應的代碼如下:

scala> val rdd1=sc.parallelize(Array(1,5,4,6,8,6)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at <console>:24scala> val rdd2=sc.parallelize(Array(1,5,2,3,6,8)) rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[66] at parallelize at <console>:24scala> val result=rdd1.intersection(rdd2) result: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[72] at intersection at <console>:27scala> result.collect() res54: Array[Int] = Array(6, 8, 1, 5)scala> val result=rdd1.union(rdd2) result: org.apache.spark.rdd.RDD[Int] = UnionRDD[73] at union at <console>:27scala> val result=rdd1.union(rdd2) result: org.apache.spark.rdd.RDD[Int] = UnionRDD[74] at union at <console>:27scala> result.collect() res55: Array[Int] = Array(1, 5, 4, 6, 8, 6, 1, 5, 2, 3, 6, 8)scala> rdd1.getNumPartitions res56: Int = 2scala> rdd2.getNumPartitions res57: Int = 2scala> result.getNumPartitions res58: Int = 4

執行上述代碼的時候，會發現，最終結果中， rdd1中和rdd2中的元素都沒有修改原來的順序。

[2]

窄依賴：filter map flatmap mapPartitions

寬依賴：reduceByKey grupByKey combineByKey，sortByKey, join(no copartition)

依賴類型	效果
窄依賴	沒有發生shuffle
寬依賴	存在shuffle

Reference:

[1]聊聊Spark中的寬依賴和窄依賴

[2]spark 中寬依賴和窄依賴的區別及優缺點

[3](16條消息) 論寬依賴、窄依賴與shuffle_zh_wang的博客-CSDN博客_shuffle依賴

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理)的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

Spark
Stage

上一篇：计算质数通过分区(Partition)提
下一篇： TPC-H生成Spark测试用的伪数据集

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理)

總結