日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

window安装python3后怎么用pyspark_window10搭建pyspark(超级详细)

發(fā)布時間:2023/12/20 python 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 window安装python3后怎么用pyspark_window10搭建pyspark(超级详细) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、組件版本說明

Java JDK:1.8.0_144

spark-2.4.3-bin-hadoop2.7

hadoop-2.7.7

scala-2.12.8

hadooponwindows-master

Python3.7

注意事項:

Spark運行在Java 8 +,Python 2.7 + / 3.4 +和R 3.1+上。對于Scala API,Spark 2.4.3使用Scala 2.12。您需要使用兼容的Scala版本(2.12.x)

1、JDK安裝

下載安裝后配置環(huán)境變量:

配置環(huán)境變量的方法為電腦[右鍵]——>屬性——>環(huán)境變量,編輯環(huán)境變量方法見下圖

配置完成后:開啟cmd窗口

2、配置Scala

下載地址:

https://www.scala-lang.org/download/2.12.8.html

安裝完成后,配置環(huán)境變量

3、安裝Spark

下載地址:

http://spark.apache.org/downloads.html

解壓后配置環(huán)境變量:

4、安裝hadoop

下載地址:

http://hadoop.apache.org/releases.html

解壓后配置環(huán)境變量:

5、安裝Python3.7

6、把hadooponwindows-master的bin覆蓋hadoop-2.7.7的bin

7、處理Python相關(guān)

1,將spark所在目錄下(比如我的D:\IT\bigdata\soft\spark-2.4.3-bin-hadoop2.7\python)的pyspark文件夾拷貝到python文件夾下(我的是D:\IT\python\Python\Lib\site-packages)

2,安裝py4j庫

一般的在cmd命令行下 pip install py4j 就可以。若是沒有將pip路徑添加到path中,就將路徑切換到python的Scripts中,然后再 pip install py4j 來安裝庫。

3 修改權(quán)限

將winutils.exe文件放到Hadoop的bin目錄下(我的是E:\spark\spark-2.1.0-bin-hadoop2.7\bin),然后以管理員的身份打開cmd,然后通過cd命令進入到Hadoop的bin目錄下,然后執(zhí)行以下命令:

winutils.exe chmod 777 c:\tmp\Hive

8、啟動

9、使用Pycharm新建一個wordcount例程

frompyspark import SparkConf, SparkContext

# 創(chuàng)建SparkConf和SparkContext

conf= SparkConf().setMaster("local").setAppName("lichao-wordcount")

sc= SparkContext(conf=conf)

# 輸入的數(shù)據(jù)

data= ["hello", "world", "hello", "word", "count", "count", "hello"]

# 將Collection的data轉(zhuǎn)化為spark中的rdd并進行操作

rdd=sc.parallelize(data)

resultRdd= rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a +b)

# rdd轉(zhuǎn)為collecton并打印

resultColl=resultRdd.collect()for line inresultColl:

print(line)

搭建完成啦!

總結(jié)

以上是生活随笔為你收集整理的window安装python3后怎么用pyspark_window10搭建pyspark(超级详细)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。