日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理)

發布時間:2023/12/31 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[1]寬依賴和窄依賴,這是Spark計算引擎劃分Stage的根源所在,遇到寬依賴,則劃分為多個stage,針對每個Stage,提交一個TaskSet:

上圖:一張網上的圖:

(個人筆記,rdd中有多個partition,著這里的藍色小塊是partition,? 藍色方框是rdd)

基于此圖,分析下這里為什么前面的流程都是窄依賴,而后面的卻是寬依賴:

我們仔細看看,map和filter算子中,對于父RDD來說,一個分區內的數據,有且僅有一個子RDD的分區來消費該數據。

同樣,UNION算子也是同樣的:

所以,我們判斷窄依賴的依據就是:父類分區內的數據,會被子類RDD中的指定的唯一一個分區所消費:

這是很重要的:

面試的時候,面試官問到了一個問題,如果父類RDD有很多的分區,而子類RDD只有一個分區,我們可以使用repartition或者coalesce算子來實現該效果,請問,這種實現是寬依賴?還是窄依賴?

如果從網上流傳的一種觀點:子RDD一個partition內的數據依賴于父類RDD的所有分區,則為寬依賴,這種判斷明顯是錯誤的:

別笑,網上的確有這種說法,我差點栽了跟頭,這種解釋實質上是錯誤的,因為如果我們的reduceTask只有一個的時候,只有一個分區,這個分區內的數據,肯定依賴于所有的父類RDD:

毫無疑問,這是個窄依賴:

相對之下,什么是寬依賴呢?

寬依賴,指的是父類一個分區內的數據,會被子RDD內的多個分區消費,需要自行判斷分區,來實現數據發送的效果:

總結一下:

窄依賴:父RDD中,每個分區內的數據,都只會被子RDD中特定的分區所消費,為窄依賴:

寬依賴:父RDD中,分區內的數據,會被子RDD內多個分區消費,則為寬依賴:

這里,還存在一個可能被挑刺的地方,比如說父類每個分區內都只有一個數據,毫無疑問,這些數據都會被唯一地指定到子類的某個分區內,這是窄依賴?還是寬依賴?

這時候,可以從另外一個角度來看問題:

每個分區內的數據,是否能夠指定自己在子類RDD中的分區?

如果不能,那就是寬依賴:如果父RDD和子RDD分區數目一致,那基本就是窄依賴了:

總之,還是要把握住根本之處,就是父RDD中分區內的數據,是否在子類RDD中也完全處于一個分區,如果是,窄依賴,如果不是,寬依賴。

自己注釋:

其實所謂的窄依賴的意思是,父RDD中的數據只被使用一次

#######################################################################################

上面提到的這張圖,對應的具體代碼到底是什么?

這里的藍色實心矩形是Partition,藍色方框代表的是下方代碼中的rdd1和rdd2

與上圖對應的代碼如下:

scala> val rdd1=sc.parallelize(Array(1,5,4,6,8,6)) rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[65] at parallelize at <console>:24scala> val rdd2=sc.parallelize(Array(1,5,2,3,6,8)) rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[66] at parallelize at <console>:24scala> val result=rdd1.intersection(rdd2) result: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[72] at intersection at <console>:27scala> result.collect() res54: Array[Int] = Array(6, 8, 1, 5)scala> val result=rdd1.union(rdd2) result: org.apache.spark.rdd.RDD[Int] = UnionRDD[73] at union at <console>:27scala> val result=rdd1.union(rdd2) result: org.apache.spark.rdd.RDD[Int] = UnionRDD[74] at union at <console>:27scala> result.collect() res55: Array[Int] = Array(1, 5, 4, 6, 8, 6, 1, 5, 2, 3, 6, 8)scala> rdd1.getNumPartitions res56: Int = 2scala> rdd2.getNumPartitions res57: Int = 2scala> result.getNumPartitions res58: Int = 4

執行上述代碼的時候,會發現,最終結果中, rdd1中和rdd2中的元素都沒有修改原來的順序。

[2]

窄依賴:filter map flatmap mapPartitions

寬依賴:reduceByKey grupByKey combineByKey,sortByKey, join(no copartition)

依賴類型效果
窄依賴沒有發生shuffle
寬依賴存在shuffle

Reference:

[1]聊聊Spark中的寬依賴和窄依賴

[2]spark 中 寬依賴 和 窄依賴的 區別及優缺點

[3](16條消息) 論寬依賴、窄依賴與shuffle_zh_wang的博客-CSDN博客_shuffle依賴

創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的spark中stage的划分与宽依赖/窄依赖(转载+自己理解/整理)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。