日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

spark的python开发安装方式_python 安装spark_Spark环境搭建 (Python)

發(fā)布時(shí)間:2024/9/30 python 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 spark的python开发安装方式_python 安装spark_Spark环境搭建 (Python) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

安裝lib

材料:spark?:?http://spark.apache.org/downloads.htmlhadoop?:?http://hadoop.apache.org/releases.htmljdk:?http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html

hadoop-commin?:?https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip?(for?windows7)

需要下載對(duì)應(yīng)的版本

步驟:a.?安裝jdk,默認(rèn)步驟即可

b.?解壓spark??(D:\spark-2.0.0-bin-hadoop2.7)

c.?解壓hadoop??(D:\hadoop2.7)

d.?解壓hadoop-commin?(for?w7)

e.?copy?hadoop-commin/bin?to?hadoop/bin?(for?w7)環(huán)境變量設(shè)置SPARK_HOME?=?D:\spark-2.0.0-bin-hadoop2.7

HADOOP_HOME?=?D:\hadoop2.7

PATH?append?=?D:\spark-2.0.0-bin-hadoop2.7\bin;D:\hadoop2.7\binPython lib設(shè)置a.?copy?D:\spark-2.0.0-bin-hadoop2.7\python\pyspark?to?[Your-Python-Home]\Lib\site-packages

b.?pip?install?py4j

c.?pip?install?psutil

(for?windows:?http://www.lfd.uci.edu/~gohlke/pythonlibs/#psutil)Testing

cmd -> pyspark 不報(bào)錯(cuò)并且有相應(yīng)的cmd

——————————————————————————————————

2018-5-11更新

目前spark 不兼容 Python3.6 ,因此通過anaconda創(chuàng)建虛擬環(huán)境變量python3.5

之后開啟安裝之路:

1.查看操作系統(tǒng):

2.下載以下兩個(gè)文件的壓縮文件zip.之后解壓如下,并分別配置環(huán)境變量

3.配置環(huán)境變量:

同時(shí)在path中添加如下:

%SPARK_HOME%\bin

%SPARK_HOME%\sbin

%HADOOP_HOME%\bin

4 配置日志顯示級(jí)別(可省略)

選擇…\spark\conf\目錄下log4j.properties.template,復(fù)制為log4j.properties

將log4j.properties中,”INFO, console”改為”WARN, console”

5【將pyspark文件放到python文件夾下、使用winutils.exe修改權(quán)限】

1,將spark所在目錄下(比如我的是D:\Software\spark-2.2.0-bin-hadoop2.7\python)的pyspark文件夾拷貝到python文件夾下(我的是D:\Program Files\python3.5.3\Lib\site-packages)

具體目錄要看大家自己安裝的時(shí)候是放在哪的!

2,安裝py4j庫

一般的在cmd命令行下 pip install py4j 就可以。若是沒有將pip路徑添加到path中,就將路徑切換到python的Scripts中,然后再 pip install py4j 來安裝庫。

3,修改權(quán)限

將winutils.exe文件放到Hadoop的bin目錄下(我的是D:\Software\hadoop-2.7.3\bin),然后以管理員的身份打開cmd,然后通過cd命令進(jìn)入到Hadoop的bin目錄下,然后執(zhí)行以下命令:

winutils.exe chmod 777 c:\tmp\Hive

注意:1,cmd一定要在管理員模式下!cmd一定要在管理員模式下!cmd一定要在管理員模式下!

2,‘C:\tmp\hive’,一般按照上面步驟進(jìn)行了之后會(huì)自動(dòng)創(chuàng)建的,一般是在Hadoop的安裝目錄下出現(xiàn)。但是若沒有也不用擔(dān)心,自己在c盤下創(chuàng)建一個(gè)也行。

關(guān)閉命令行窗口,重新打開命令行窗口,輸入命令:pyspark

配置python 3

在D:\spark\spark-2.2.0-bin-hadoop2.7\bin中找到pyspark文件,采用notepad打開,并在其中增加

export PYSPARK_PYTHON

改為

export PYSPARK_PYTHON3

再次打開bin/pyspark即配置完成pyspark采用python3

通過以上操作完成.

下面來測(cè)試from?pyspark?import?SparkContextfrom?pyspark?import?SparkContext?as?scfrom?pyspark?import?SparkConf

conf=SparkConf().setAppName("miniProject").setMaster("local[*]")

sc=SparkContext.getOrCreate(conf)

rdd?=?sc.parallelize([1,2,3,4,5])

rdd

print(rdd)

print(rdd.getNumPartitions()?)

輸出結(jié)果:ParallelCollectionRDD[0]?at?parallelize?at?PythonRDD.scala:4808

總結(jié)

以上是生活随笔為你收集整理的spark的python开发安装方式_python 安装spark_Spark环境搭建 (Python)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。