Windows下安装spark+Hadoop
一、安裝Scala?
下載地址:http://www.scala-lang.org/download/all.html
進入頁面后選擇一個Scala版本進行下載,我選擇的是Scala2.12.0版本。特別注意的是看帖子又的說Scala版本與Spark版本之間是有一定關聯的,比如說你的Scala版本是2.12.0,那么就應該下載Spark版本為從1.3.0到Spark 1.6.2之間的各個版本。這種說法不知道準不準確,但是還是注意一下比較好。?
Scala安裝好之后呢,
在環境變量PATH里面配置scala安裝路徑。下面就打開cmd輸入Scala看下安裝后控制臺的輸出效果。
?
如果出現一下信息,那么就證明Scala已經安裝成功了。?
需要注意的是:如果在控制臺輸入scala之后輸出沒有出現版本信息,那么就需要你手動替換掉安裝Scala時自動配置的變量。
既然Scala已經安裝成功了, 那么我們就可以繼續安裝我們的主角Spark了?
安裝完成之后可能會出現錯誤:
Exception in thread "main" java.lang.UnsupportedClassVersionError: scala/tools/n sc/MainGenericRunne,
這個是由于jdk版本過低導致的,需要將jdk版本升至1.8以上。
二、安裝Spark?
同樣的我會附上Spark下載地址:http://spark.apache.org/downloads.html?
這里引用了別人的一張圖片,因為公司網絡有限制,導致訪問頁面布局錯誤,所以網上找了一張圖片來給大家展示一下。
那么,當我們下載好之后,Spark是不需要進行安裝的,直接解壓到Spark目錄,然后配置一下Path環境變量就可以了?
?
我的Spark目錄為E:\spark\bin?
下面我們來驗證一下看spark是否能正常啟動。?
在控制臺輸入一下命令:spark-shell?
注意spark-shell之間是沒有空格的,千萬不要輸錯了。?
情況看圖片?
?
到這里就說明我們的準備工作已經做完了嗎?顯然不是,雖然控制臺已經輸出了Spark信息,但是并不是已經完全ok的,等待10秒鐘左右控制臺會繼續輸出信息。如下?
?
看到圖中報錯信息是不是快要崩潰了?別著急,聽我慢慢道來?
這里主要是因為Spark是基于Hadoop的,所以這里也有必要配置一個Hadoop的運行環境。?
三、Hadoop下載?
地址:https://archive.apache.org/dist/hadoop/common/?
進去之后盡量往下翻,越是下面的版本越新。?
?
由于我們之前選擇下載spark的時候是基于Hadoop2.6版本的,所以我這里選擇的是hadoop2.6.4版本?
下載完畢后我們直接解壓,解壓完畢后開始設置我們的環境變量?
需要設置的變量有?
HADOOP_HOME:E:\hadoop-2.6.4 (解壓目錄)?
PATH:E:\hadoop-2.6.4\bin?
上訴內容都準備好之后再次重新打開控制臺輸入spark-shell如果還有以上錯誤日志,那么請找到你的hadoop\bin目錄找下里面有沒有winutils.exe文件,如果沒有的話,我們需要去下載。?
winutils.exe下載地址https://github.com/steveloughran/winutils?
進入目錄后找到你相應的hadoop目錄–進入bin—找到winutils.exe文件下載。下載好之后我們把它放到E:\hadoop-2.6.4\bin 里面,確保該目錄中有winutils.exe文件。
那么下面就需要在控制臺輸入一下命令來修改權限
E:\hadoop-2.6.4\bin\winutils.exe chmod 777 /tmp/hive- 1
注意該命令需要根據你實際的hadoop所在目錄。?
好了,經過這么多的準備工作,我想我們的spark到此已經安裝完畢了。下面我們重新打開一個控制臺窗口輸入spark-shell看下結果吧。?
?
?
如果你看到上訴兩圖所圈住的日志信息,那么,恭喜您,spark已經安裝成功了!
配置spark和Hadoop環境
打開pycharm,導入已有的或者新建工程。
2.創建新的run configurition。
如右上角所示,選擇edit configurition。
設置環境,創建PYTHONPATH和SPARK_HOME
配置路徑如圖所示,都可以在Spark安裝路徑下找到:
?
選擇 File->setting->你的project->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路徑(這兩個文件都在Spark中的python文件夾下,自己找一下)
5.保存,ok
?
?
?
總結
以上是生活随笔為你收集整理的Windows下安装spark+Hadoop的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 非常值得收藏的 IBM SPSS Mod
- 下一篇: TensorFlow在windows 下