當前位置：首頁 > 编程语言 > python >内容正文

python

spark调用python_在MRS集群中使用Python3.7运行PySpark程序，调用RDD的take函数报错处理...

發布時間：2024/7/5 python 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark调用python_在MRS集群中使用Python3.7运行PySpark程序，调用RDD的take函数报错处理... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

現象

如果我們安裝了python3.7版本來運行spark，并且用到了RDD的take函數，就會報錯：RuntimeError:?generator?raised?StopIteration

我們可以編寫一個python腳本test.py來進行測試，用spark-submit命令提交： spark-submit test.pyfrom?pyspark.sql?import?SparkSession

spark?=?SparkSession\

.builder\

.appName("PythonWordCount")\

.getOrCreate()

sc?=?spark.sparkContext

print(sc.parallelize([1,?2]).take(1))

當然也可以直接在pyspark的交互式shell中執行sc.parallelize([1,?2]).take(1)

執行就會碰到上面說的錯誤。

原因分析

這個錯誤是由于Python3.7合入了一個不兼容性修改PEP-0479引起的。

Spark社區已經修復并合入了Spark的2.3.2和2.4版本，具體參考Spark對應的JIRA?SPARK-24739。

解決方法

MRS目前使用的版本為Spark 2.2.1，尚未修復。目前可以通過兩種方法規避：（推薦）使用Python 3.6，3.5；

參考開源合入，修改提交任務節點的對應python腳本，并打包。具體見下一節。

參考開源合入，修改不兼容的python代碼

打開客戶端節點，修改/opt/client/Spark/spark/python/pyspark/rdd.py中的takeUpToNumLeft方法。def?takeUpToNumLeft(iterator):

iterator?=?iter(iterator)

taken?=?0

while?taken?<?left:

try:

yield?next(iterator)

except?StopIteration:

return

taken?+=?1

重新打包pyspark.zip#?備份pyspark.zip

cd?/opt/client/Spark/spark/python/lib?&&?mv?pyspark.zip?pyspark.zip.bak

#?打包新的pyspark.zip

cd?/opt/client/Spark/spark/python;?zip?-r?pyspark.zip?pyspark

#?移動至lib目錄

mv?pyspark.zip?/opt/client/Spark/spark/python/lib/

#?修改權限

chmod?777?/opt/client/Spark/spark/python/lib/pyspark.zip

這時再來試一下。spark-submit?test.py

或者

spark-submit?--master?yarn?test.py

額外說一點，使用pyspark

shell，使用的是未打包的python，就是/opt/client/Spark/spark/python/pyspark/xxx.py；使用spark-submit命令提交，用的就是lib目錄下的pyspark.zip了，具體可以看下面這一行上傳的日志。2018-12-18?16:24:05,888?|?INFO??|?Thread-3?|?Uploading?resource?file:/opt/client/Spark/spark/python/li

b/pyspark.zip?->?hdfs://hacluster/user/hdfs/.sparkStaging/application_1545119010002_0007/pyspark.zip?|

org.apache.spark.internal.Logging$class.logInfo(Logging.scala:54)

總結

以上是生活随笔為你收集整理的spark调用python_在MRS集群中使用Python3.7运行PySpark程序，调用RDD的take函数报错处理...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： linux 串口工具_会C++就能开发L
下一篇： python3.6是用来干嘛的_学 Py

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

spark调用python_在MRS集群中使用Python3.7运行PySpark程序，调用RDD的take函数报错处理...

總結