Windows下安装spark+Hadoop
一、安裝Scala?
下載地址:http://www.scala-lang.org/download/all.html
進(jìn)入頁面后選擇一個(gè)Scala版本進(jìn)行下載,我選擇的是Scala2.12.0版本。特別注意的是看帖子又的說Scala版本與Spark版本之間是有一定關(guān)聯(lián)的,比如說你的Scala版本是2.12.0,那么就應(yīng)該下載Spark版本為從1.3.0到Spark 1.6.2之間的各個(gè)版本。這種說法不知道準(zhǔn)不準(zhǔn)確,但是還是注意一下比較好。?
Scala安裝好之后呢,
在環(huán)境變量PATH里面配置scala安裝路徑。下面就打開cmd輸入Scala看下安裝后控制臺(tái)的輸出效果。
?
如果出現(xiàn)一下信息,那么就證明Scala已經(jīng)安裝成功了。?
需要注意的是:如果在控制臺(tái)輸入scala之后輸出沒有出現(xiàn)版本信息,那么就需要你手動(dòng)替換掉安裝Scala時(shí)自動(dòng)配置的變量。
既然Scala已經(jīng)安裝成功了, 那么我們就可以繼續(xù)安裝我們的主角Spark了?
安裝完成之后可能會(huì)出現(xiàn)錯(cuò)誤:
Exception in thread "main" java.lang.UnsupportedClassVersionError: scala/tools/n sc/MainGenericRunne,
這個(gè)是由于jdk版本過低導(dǎo)致的,需要將jdk版本升至1.8以上。
二、安裝Spark?
同樣的我會(huì)附上Spark下載地址:http://spark.apache.org/downloads.html?
這里引用了別人的一張圖片,因?yàn)楣揪W(wǎng)絡(luò)有限制,導(dǎo)致訪問頁面布局錯(cuò)誤,所以網(wǎng)上找了一張圖片來給大家展示一下。
那么,當(dāng)我們下載好之后,Spark是不需要進(jìn)行安裝的,直接解壓到Spark目錄,然后配置一下Path環(huán)境變量就可以了?
?
我的Spark目錄為E:\spark\bin?
下面我們來驗(yàn)證一下看spark是否能正常啟動(dòng)。?
在控制臺(tái)輸入一下命令:spark-shell?
注意spark-shell之間是沒有空格的,千萬不要輸錯(cuò)了。?
情況看圖片?
?
到這里就說明我們的準(zhǔn)備工作已經(jīng)做完了嗎?顯然不是,雖然控制臺(tái)已經(jīng)輸出了Spark信息,但是并不是已經(jīng)完全ok的,等待10秒鐘左右控制臺(tái)會(huì)繼續(xù)輸出信息。如下?
?
看到圖中報(bào)錯(cuò)信息是不是快要崩潰了?別著急,聽我慢慢道來?
這里主要是因?yàn)镾park是基于Hadoop的,所以這里也有必要配置一個(gè)Hadoop的運(yùn)行環(huán)境。?
三、Hadoop下載?
地址:https://archive.apache.org/dist/hadoop/common/?
進(jìn)去之后盡量往下翻,越是下面的版本越新。?
?
由于我們之前選擇下載spark的時(shí)候是基于Hadoop2.6版本的,所以我這里選擇的是hadoop2.6.4版本?
下載完畢后我們直接解壓,解壓完畢后開始設(shè)置我們的環(huán)境變量?
需要設(shè)置的變量有?
HADOOP_HOME:E:\hadoop-2.6.4 (解壓目錄)?
PATH:E:\hadoop-2.6.4\bin?
上訴內(nèi)容都準(zhǔn)備好之后再次重新打開控制臺(tái)輸入spark-shell如果還有以上錯(cuò)誤日志,那么請(qǐng)找到你的hadoop\bin目錄找下里面有沒有winutils.exe文件,如果沒有的話,我們需要去下載。?
winutils.exe下載地址https://github.com/steveloughran/winutils?
進(jìn)入目錄后找到你相應(yīng)的hadoop目錄–進(jìn)入bin—找到winutils.exe文件下載。下載好之后我們把它放到E:\hadoop-2.6.4\bin 里面,確保該目錄中有winutils.exe文件。
那么下面就需要在控制臺(tái)輸入一下命令來修改權(quán)限
E:\hadoop-2.6.4\bin\winutils.exe chmod 777 /tmp/hive- 1
注意該命令需要根據(jù)你實(shí)際的hadoop所在目錄。?
好了,經(jīng)過這么多的準(zhǔn)備工作,我想我們的spark到此已經(jīng)安裝完畢了。下面我們重新打開一個(gè)控制臺(tái)窗口輸入spark-shell看下結(jié)果吧。?
?
?
如果你看到上訴兩圖所圈住的日志信息,那么,恭喜您,spark已經(jīng)安裝成功了!
配置spark和Hadoop環(huán)境
打開pycharm,導(dǎo)入已有的或者新建工程。
2.創(chuàng)建新的run configurition。
如右上角所示,選擇edit configurition。
設(shè)置環(huán)境,創(chuàng)建PYTHONPATH和SPARK_HOME
配置路徑如圖所示,都可以在Spark安裝路徑下找到:
?
選擇 File->setting->你的project->project structure
右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路徑(這兩個(gè)文件都在Spark中的python文件夾下,自己找一下)
5.保存,ok
?
?
?
總結(jié)
以上是生活随笔為你收集整理的Windows下安装spark+Hadoop的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 非常值得收藏的 IBM SPSS Mod
- 下一篇: TensorFlow在windows 下