當(dāng)前位置：首頁 >

Spark _20 _Spark_Shuffle调优

發(fā)布時間：2024/2/28 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark _20 _Spark_Shuffle调优小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

SparkShuffle調(diào)優(yōu)配置項如何使用？

在代碼中,不推薦使用，硬編碼。

new SparkConf().set(“spark.shuffle.file.buffer”,”64”)

在提交spark任務(wù)的時候，推薦使用。

spark-submit --conf spark.shuffle.file.buffer=64 –conf ….

在conf下的spark-default.conf配置文件中,不推薦，因為是寫死后所有應(yīng)用程序都要用。

Shuffle各項調(diào)優(yōu)參數(shù)

spark.shuffle.file.buffer
默認值：32k
參數(shù)說明：該參數(shù)用于設(shè)置shuffle write task的BufferedOutputStream的buffer緩沖大小。將數(shù)據(jù)寫到磁盤文件之前，會先寫入buffer緩沖中，待緩沖寫滿之后，才會溢寫到磁盤。
調(diào)優(yōu)建議：如果作業(yè)可用的內(nèi)存資源較為充足的話，可以適當(dāng)增加這個參數(shù)的大小（比如64k），從而減少shuffle write過程中溢寫磁盤文件的次數(shù)，也就可以減少磁盤IO次數(shù)，進而提升性能。在實踐中發(fā)現(xiàn)，合理調(diào)節(jié)該參數(shù)，性能會有1%~5%的提升。

spark.reducer.maxSizeInFlight
默認值：48m
參數(shù)說明：該參數(shù)用于設(shè)置shuffle read task的buffer緩沖大小，而這個buffer緩沖決定了每次能夠拉取多少數(shù)據(jù)。
調(diào)優(yōu)建議：如果作業(yè)可用的內(nèi)存資源較為充足的話，可以適當(dāng)增加這個參數(shù)的大小（比如96m），從而減少拉取數(shù)據(jù)的次數(shù)，也就可以減少網(wǎng)絡(luò)傳輸?shù)拇螖?shù)，進而提升性能。在實踐中發(fā)現(xiàn)，合理調(diào)節(jié)該參數(shù)，性能會有1%~5%的提升。

spark.shuffle.io.maxRetries
默認值：3
參數(shù)說明：shuffle read task從shuffle write task所在節(jié)點拉取屬于自己的數(shù)據(jù)時，如果因為網(wǎng)絡(luò)異常導(dǎo)致拉取失敗，是會自動進行重試的。該參數(shù)就代表了可以重試的最大次數(shù)。如果在指定次數(shù)之內(nèi)拉取還是沒有成功，就可能會導(dǎo)致作業(yè)執(zhí)行失敗。
調(diào)優(yōu)建議：對于那些包含了特別耗時的shuffle操作的作業(yè)，建議增加重試最大次數(shù)（比如60次），以避免由于JVM的full gc或者網(wǎng)絡(luò)不穩(wěn)定等因素導(dǎo)致的數(shù)據(jù)拉取失敗。在實踐中發(fā)現(xiàn)，對于針對超大數(shù)據(jù)量（數(shù)十億~上百億）的shuffle過程，調(diào)節(jié)該參數(shù)可以大幅度提升穩(wěn)定性。
shuffle file not find ? ?taskScheduler不負責(zé)重試task，由DAGScheduler負責(zé)重試stage

spark.shuffle.io.retryWait
默認值：5s
參數(shù)說明：具體解釋同上，該參數(shù)代表了每次重試拉取數(shù)據(jù)的等待間隔，默認是5s。
調(diào)優(yōu)建議：建議加大間隔時長（比如60s），以增加shuffle操作的穩(wěn)定性。

spark.shuffle.memoryFraction
默認值：0.2
參數(shù)說明：該參數(shù)代表了Executor內(nèi)存中，分配給shuffle read task進行聚合操作的內(nèi)存比例，默認是20%。
調(diào)優(yōu)建議：在資源參數(shù)調(diào)優(yōu)中講解過這個參數(shù)。如果內(nèi)存充足，而且很少使用持久化操作，建議調(diào)高這個比例，給shuffle read的聚合操作更多內(nèi)存，以避免由于內(nèi)存不足導(dǎo)致聚合過程中頻繁讀寫磁盤。在實踐中發(fā)現(xiàn)，合理調(diào)節(jié)該參數(shù)可以將性能提升10%左右。

spark.shuffle.manager
默認值：sort|hash
參數(shù)說明：該參數(shù)用于設(shè)置ShuffleManager的類型。Spark 1.5以后，有三個可選項：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的默認選項，但是Spark 1.2以及之后的版本默認都是SortShuffleManager了。tungsten-sort與sort類似，但是使用了tungsten計劃中的堆外內(nèi)存管理機制，內(nèi)存使用效率更高。
調(diào)優(yōu)建議：由于SortShuffleManager默認會對數(shù)據(jù)進行排序，因此如果你的業(yè)務(wù)邏輯中需要該排序機制的話，則使用默認的SortShuffleManager就可以；而如果你的業(yè)務(wù)邏輯不需要對數(shù)據(jù)進行排序，那么建議參考后面的幾個參數(shù)調(diào)優(yōu)，通過bypass機制或優(yōu)化的HashShuffleManager來避免排序操作，同時提供較好的磁盤讀寫性能。這里要注意的是，tungsten-sort要慎用，因為之前發(fā)現(xiàn)了一些相應(yīng)的bug。

spark.shuffle.sort.bypassMergeThreshold
默認值：200
參數(shù)說明：當(dāng)ShuffleManager為SortShuffleManager時，如果shuffle read task的數(shù)量小于這個閾值（默認是200），則shuffle write過程中不會進行排序操作，而是直接按照未經(jīng)優(yōu)化的HashShuffleManager的方式去寫數(shù)據(jù)，但是最后會將每個task產(chǎn)生的所有臨時磁盤文件都合并成一個文件，并會創(chuàng)建單獨的索引文件。
調(diào)優(yōu)建議：當(dāng)你使用SortShuffleManager時，如果的確不需要排序操作，那么建議將這個參數(shù)調(diào)大一些，大于shuffle read task的數(shù)量。那么此時就會自動啟用bypass機制，map-side就不會進行排序了，減少了排序的性能開銷。但是這種方式下，依然會產(chǎn)生大量的磁盤文件，因此shuffle write性能有待提高。

spark.shuffle.consolidateFiles
默認值：false
參數(shù)說明：如果使用HashShuffleManager，該參數(shù)有效。如果設(shè)置為true，那么就會開啟consolidate機制，會大幅度合并shuffle write的輸出文件，對于shuffle read task數(shù)量特別多的情況下，這種方法可以極大地減少磁盤IO開銷，提升性能。
調(diào)優(yōu)建議：如果的確不需要SortShuffleManager的排序機制，那么除了使用bypass機制，還可以嘗試將spark.shffle.manager參數(shù)手動指定為hash，使用HashShuffleManager，同時開啟consolidate機制。在實踐中嘗試過，發(fā)現(xiàn)其性能比開啟了bypass機制的SortShuffleManager要高出10%~30%。

總結(jié)

以上是生活随笔為你收集整理的Spark _20 _Spark_Shuffle调优的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Spark _19 _Spark内存管理
下一篇： Spark2.3.0的DataFrame

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Spark _20 _Spark_Shuffle调优

SparkShuffle調(diào)優(yōu)配置項如何使用？

Shuffle各項調(diào)優(yōu)參數(shù)

總結(jié)