當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

pyspark性能调优参数

發(fā)布時間：2023/11/28 生活经验 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 pyspark性能调优参数小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

20220311

參數(shù)調(diào)節(jié)
把executor數(shù)量調(diào)小,其他參數(shù)值調(diào)大，不容易報錯

一.指定spark executor 數(shù)量的公式
executor 數(shù)量 = spark.cores.max/spark.executor.cores
spark.cores.max 是指你的spark程序需要的總核數(shù)
spark.executor.cores 是指每個executor需要的核數(shù)
二.指定并行的task數(shù)量
spark.default.parallelism
參數(shù)說明：該參數(shù)用于設(shè)置每個stage的默認(rèn)task數(shù)量。這個參數(shù)極為重要，如果不設(shè)置可能會直接影響你的Spark作業(yè)性能。
參數(shù)調(diào)優(yōu)建議：Spark作業(yè)的默認(rèn)task數(shù)量為500~1000個較為合適。很多同學(xué)常犯的一個錯誤就是不去設(shè)置這個參數(shù)，那么此時就會導(dǎo)致Spark自己根據(jù)底層HDFS的block數(shù)量來設(shè)置task的數(shù)量，默認(rèn)是一個HDFS block對應(yīng)一個task。通常來說，Spark默認(rèn)設(shè)置的數(shù)量是偏少的（比如就幾十個task），如果task數(shù)量偏少的話，就會導(dǎo)致你前面設(shè)置好的Executor的參數(shù)都前功盡棄。試想一下，無論你的Executor進(jìn)程有多少個，內(nèi)存和CPU有多大，但是task只有1個或者10個，那么90%的Executor進(jìn)程可能根本就沒有task執(zhí)行，也就是白白浪費了資源！因此Spark官網(wǎng)建議的設(shè)置原則是，設(shè)置該參數(shù)為num-executors * executor-cores的2~3倍較為合適，比如Executor的總CPU core數(shù)量為300個，那么設(shè)置1000個task是可以的，此時可以充分地利用Spark集群的資源。
三. 命令示例
1
spark-submit --class com.cjh.test.WordCount --conf spark.default.parallelism=12 --conf spark.executor.memory=800m --conf spark.executor.cores=2 --conf spark.cores.max=6 my.jar
四.其他調(diào)優(yōu)參數(shù)
spark.storage.memoryFraction
參數(shù)說明：該參數(shù)用于設(shè)置RDD持久化數(shù)據(jù)在Executor內(nèi)存中能占的比例，默認(rèn)是0.6。也就是說，默認(rèn)Executor 60%的內(nèi)存，可以用來保存持久化的RDD數(shù)據(jù)。根據(jù)你選擇的不同的持久化策略，如果內(nèi)存不夠時，可能數(shù)據(jù)就不會持久化，或者數(shù)據(jù)會寫入磁盤。
參數(shù)調(diào)優(yōu)建議：如果Spark作業(yè)中，有較多的RDD持久化操作，該參數(shù)的值可以適當(dāng)提高一些，保證持久化的數(shù)據(jù)能夠容納在內(nèi)存中。避免內(nèi)存不夠緩存所有的數(shù)據(jù)，導(dǎo)致數(shù)據(jù)只能寫入磁盤中，降低了性能。但是如果Spark作業(yè)中的shuffle類操作比較多，而持久化操作比較少，那么這個參數(shù)的值適當(dāng)降低一些比較合適。此外，如果發(fā)現(xiàn)作業(yè)由于頻繁的gc導(dǎo)致運行緩慢（通過spark web ui可以觀察到作業(yè)的gc耗時），意味著task執(zhí)行用戶代碼的內(nèi)存不夠用，那么同樣建議調(diào)低這個參數(shù)的值。
spark.shuffle.memoryFraction
參數(shù)說明：該參數(shù)用于設(shè)置shuffle過程中一個task拉取到上個stage的task的輸出后，進(jìn)行聚合操作時能夠使用的Executor內(nèi)存的比例，默認(rèn)是0.2。也就是說，Executor默認(rèn)只有20%的內(nèi)存用來進(jìn)行該操作。shuffle操作在進(jìn)行聚合時，如果發(fā)現(xiàn)使用的內(nèi)存超出了這個20%的限制，那么多余的數(shù)據(jù)就會溢寫到磁盤文件中去，此時就會極大地降低性能。
參數(shù)調(diào)優(yōu)建議：如果Spark作業(yè)中的RDD持久化操作較少，shuffle操作較多時，建議降低持久化操作的內(nèi)存占比，提高shuffle操作的內(nèi)存占比比例，避免shuffle過程中數(shù)據(jù)過多時內(nèi)存不夠用，必須溢寫到磁盤上，降低了性能。此外，如果發(fā)現(xiàn)作業(yè)由于頻繁的gc導(dǎo)致運行緩慢，意味著task執(zhí)行用戶代碼的內(nèi)存不夠用，那么同樣建議調(diào)低這個參數(shù)的值。

spark.spark.default.parallelism與sql.shuffle.partitions的設(shè)置:

Spark中RDD對應(yīng)有partition的概念，每個partition都會對應(yīng)一個task，task越多，在處理大規(guī)模數(shù)據(jù)的時候，就會越有效率。但是并不是task越多越好，如果平時測試，或者數(shù)據(jù)量沒有那么大，則沒有必要task數(shù)量太多。

我的第一個query程序，有200個task，我改成了50個，節(jié)約了1s左右。
參數(shù)可以通過spark_home/conf/spark-default.conf配置文件設(shè)置:
spark.sql.shuffle.partitions 50
spark.default.parallelism 10
上邊兩個參數(shù)，第一個是針對spark sql的task數(shù)量，我的程序邏輯是將rdd首先轉(zhuǎn)換成dataframe，然后進(jìn)行query，所以對應(yīng)第一個參數(shù)。
而如果程序是非sql則第二個參數(shù)生效。

SparkContext中默認(rèn)有defaultMinPartitions指定最小的分區(qū)數(shù)；
def defaultMinPartitions: Int = math.min(defaultParallelism, 2)
SparkContext中生成RDD的接口中往往指定的是minPartitions最小分區(qū)數(shù)目。

https://www.cnblogs.com/hadoop-dev/p/6669232.html
spark分區(qū)數(shù),task數(shù)目,core數(shù),worker節(jié)點個數(shù),excutor數(shù)量梳理

作者：王燚光
https://www.zhihu.com/question/33270495/answer/934

輸入可能以多個文件的形式存儲在HDFS上，每個File都包含了很多塊，稱為Block。
當(dāng)Spark讀取這些文件作為輸入時，會根據(jù)具體數(shù)據(jù)格式對應(yīng)的InputFormat進(jìn)行解析，一般是將若干個Block合并成一個輸入分片，稱為InputSplit，注意InputSplit不能跨越文件。
隨后將為這些輸入分片生成具體的Task。InputSplit與Task是一一對應(yīng)的關(guān)系。
隨后這些具體的Task每個都會被分配到集群上的某個節(jié)點的某個Executor去執(zhí)行。

每個節(jié)點可以起一個或多個Executor。
每個Executor由若干core組成，每個Executor的每個core一次只能執(zhí)行一個Task。
每個Task執(zhí)行的結(jié)果就是生成了目標(biāo)RDD的一個partiton。

注意: 這里的core是虛擬的core而不是機(jī)器的物理CPU核，可以理解為就是Executor的一個工作線程。

而 Task被執(zhí)行的并發(fā)度 = Executor數(shù)目 * 每個Executor核數(shù)。

至于partition的數(shù)目：

對于數(shù)據(jù)讀入階段，例如sc.textFile，輸入文件被劃分為多少InputSplit就會需要多少初始Task。
在Map階段partition數(shù)目保持不變。
在Reduce階段，RDD的聚合會觸發(fā)shuffle操作，聚合后的RDD的partition數(shù)目跟具體操作有關(guān)，例如repartition操作會聚合成指定分區(qū)數(shù)，還有一些算子是可配置的。
RDD在計算的時候，每個分區(qū)都會起一個task，所以rdd的分區(qū)數(shù)目決定了總的的task數(shù)目。
申請的計算節(jié)點（Executor）數(shù)目和每個計算節(jié)點核數(shù)，決定了你同一時刻可以并行執(zhí)行的task。
比如的RDD有100個分區(qū)，那么計算的時候就會生成100個task，你的資源配置為10個計算節(jié)點，每個兩2個核，同一時刻可以并行的task數(shù)目為20，計算這個RDD就需要5個輪次。
如果計算資源不變，你有101個task的話，就需要6個輪次，在最后一輪中，只有一個task在執(zhí)行，其余核都在空轉(zhuǎn)。
如果資源不變，你的RDD只有2個分區(qū)，那么同一時刻只有2個task運行，其余18個核空轉(zhuǎn)，造成資源浪費。這就是在spark調(diào)優(yōu)中，增大RDD分區(qū)數(shù)目，增大任務(wù)并行度的做法。

引用https://www.cnblogs.com/hadoop-dev/p/6669232.html

引用https://blog.csdn.net/wangguohe/article/details/80645978

總結(jié)

以上是生活随笔為你收集整理的pyspark性能调优参数的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

pyspark性能调优参数

總結(jié)