Windows下搭建PySpark环境
Windows下搭建PySpark環境
文章目錄
- Windows下搭建PySpark環境
- 前言
- 方法一
- 安裝單機版Hadoop
- 安裝單機版Spark
- PySpark環境整合
- 方法二
- 測試PySpark
- PySpark運行簡單實例
- 參考文章
前言
現階段的實驗需要用到 PySpark 來搭建機器學習模型,正常情況下應該是在 Linux 系統上是進行搭建。然而在虛擬機的 Linux 上運行起來又實在是太慢,所以只能將就著在 Windows 系統上搭建 PySpark 的環境先使用著。
這里介紹兩種搭建 PySpark 環境的方法:
在以下的操作中用到命令行的時候,按 Win+R 鍵,輸入 cmd 然后回車,就可以進入命令行了。每個階段的命令行每次使用完畢之后,正常關閉命令行窗口即可。
方法一
常規安裝 Pyspark 的方法是先安裝 JDK,接著是 Hadoop,然后安裝 Spark,最后配置一下 PySpark 的環境就可以了。
和方法二相比,方法一的整個過程顯得漫長且比較繁瑣,請一定要保持耐心,不要輸錯任何一行命令。
安裝單機版Hadoop
Hadoop的底層語言是 Java,在使用 Hadoop 之前,得先把 JDK 配置一下,可以參考這篇博客的第一部分,把 JDK 配置好。 Windows下配置IDEA開發環境
配置完 JDK 之后,就可以開始配置 Hadoop 了。Windows 安裝 Hadoop 的流程可以參考我的另一篇博客 Windows下配置單機Hadoop環境
去年寫博客的時候對 Hadoop 還不太熟悉,博客名字是單機環境,實際上配置的是偽分布式環境。
這里我們只需要配置單機版 Hadoop 就可以了,我們只需要完成前三步,下載 Hadoop,下載配置文件,配置環境變量。
前三步完成后,單機版 Hadoop 就配置完成了。我們在命令行界面輸入“hadoop version”,能正常提示出 Hadoop 的版本信息,這一步就確認完成了。
安裝單機版Spark
Spark的安裝大致上和 Hadoop 差不多,不過我們最后只需要用到 Spark 的 PySpark 包,所以我們不需要去配置 Scala 這些東西,嚴格意義上說我們只需要單機版 Spark,配置個環境變量就可以了。
同樣地,我們去北理工的鏡像站下載 Spark Spark北理工鏡像
鏡像站提供了幾個穩定版本,這里我們選擇的是 spark-2.3.4,點擊進入目錄
因為我們上一步安裝的 Hadoop 版本是 2.7.7,所以這里我們選擇和 Hadoop-2.7.7 兼容的 版本。
鏡像站的下載一般都很快,下載完成后,把 Spark 的壓縮包解壓到自己想要的安裝位置,比如我的安裝位置是“D:\Dpan\spark”,解壓完成的界面如下。
解壓完成后,直接去配置 spark 的環境變量,和 Hadoop 配置環境變量的方式是一樣的。
- 新建 SPARK_HOME 環境變量,變量的值就是 spark 包解壓的地址。比如我的是“D:\Dpan\spark\spark-2.3.4-bin-hadoop2.7”
- 向 path 變量中加入“%SPARK_HOME%\bin”。注意,這里的 %SPARK_HOME%\bin,是固定的短語,不要亂寫。
配置完成之后,在命令行界面輸入“spark-shell”,耐心等待兩分鐘。如果命令行正常出現了 spark 的 shell 信息,單機版 spark 環境就配置成功了。
如果出現類似缺少 winutil 或者 hivesession 等錯誤,請檢查hadoop/bin文件夾是否替換成功。如果確實替換了 hadoop/bin,還出現錯誤,自行百度安裝 cygwin,安裝完 cygwin 就應該沒有問題了。
PySpark環境整合
整個 PySpark 的環境整合是比較簡單的,不需要再去安裝別的新東西了。
我們通過文件資源管理,進入之前 spark 的安裝目錄。將安裝目錄下的 python/lib 目錄下的兩個壓縮包進行復制,pyspark.zip、py4j-0.10.7-src.zip。
然后進入 自己的 Python 安裝目錄/Lib/site-packages 目錄下,粘貼,然后解壓。解壓完成后可以順便把這兩個壓縮包刪除了。
到這里,PySpark的環境就配置完成了。
方法二
pip 是一個 Python 包安裝與管理工具,該工具提供了對Python 包的查找、下載、安裝、卸載的功能。我們通過 pip 來進行 Python 包的安裝絕對是十分便捷的。
pip的安裝這里我們不做介紹,沒有安裝 pip 的請自行百度安裝即可。
打開命令行窗口,在窗口內輸入“pip --verison”,如果出現了 pip 的版本提示信息,那么你電腦上的 pip 就是成功安裝了。
通過 pip 安裝 PySpark 就像安裝其他 Python 包一樣簡單。在命令行窗口內輸入一下代碼,回車即可安裝。
pip install pyspark當然,為了提高安裝速度,我們可以使用清華源來進行安裝
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple耐心等待安裝完成,在最后出現‘Success’的字樣,就表示安裝成功了。
測試PySpark
前面介紹了兩種方法配置 PySpark 的環境,配置完成后我們來進行檢驗。
在命令行輸入“python”,進入 python 命令行。輸入“import pyspark as py”,回車。沒有報錯,就證明 pyspark 的環境配置成功了,可以正常使用了。
PySpark運行簡單實例
打開自己平時用來寫 Python 代碼的 IDE。比如我用的是 PyCharm2019。
在里面新建一個 Python 文件,輸入以下代碼。這段代碼就是經典的 WordCount ,用 PySpark 來運行。
from pyspark import SparkConf, SparkContext# 創建 SparkConf 和 SparkContext conf = SparkConf().setMaster("local").setAppName("lichao-wordcount") sc = SparkContext(conf=conf).getOrCreate()# 輸入的數據 data = ["hello", "world", "hello", "word", "count", "count", "hello"]# 將 Collection 的 data 轉化為 spark 中的 rdd 并進行操作 rdd = sc.parallelize(data) resultRdd = rdd.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)# rdd 轉為 collecton 并打印 resultColl = resultRdd.collect() for line in resultColl:print(line)# 結束 sc.stop()運行代碼,耐心等待,查看結果。
至此,Windows 下 PySpark的環境已經配置完畢了,我們還運行了一個實例。環境配置完畢,快快去學習 PySpark 的使用方法,把這個工具用起來把。
參考文章
Python學習—PySpark環境搭建
Windows下配置單機Hadoop環境
pycharm修改pip源為清華源-提高下載速度
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的Windows下搭建PySpark环境的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用SVR模型完成对Boston房价的回归
- 下一篇: 操作系统习题2—进程调度