當(dāng)前位置：首頁 >

Windows下安装spark+Hadoop

發(fā)布時(shí)間：2025/4/5 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 Windows下安装spark+Hadoop 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Spark作為一個(gè)基于內(nèi)存的開源計(jì)算框架，在這個(gè)大數(shù)據(jù)時(shí)代背景下，受到越來越多的開發(fā)者的喜愛，相對(duì)于Hadoop,Spark擁有對(duì)大量數(shù)據(jù)更快的處理速度，并且易于使用（支持多種開發(fā)語言）。比Hadoop具有更多的優(yōu)點(diǎn)，怎能不讓人想去嘗試一下Spark的魅力呢？了解Spark的都知道Spark是用Scala寫的，那么要想在windows下來運(yùn)行Spark少不了的就要先安裝Scala。首先的在一個(gè)大前提下就是我們本機(jī)已經(jīng)安裝并配置好JDk環(huán)境變量了。那么，我們就可以安裝Scala了

一、安裝Scala?
下載地址：http://www.scala-lang.org/download/all.html

進(jìn)入頁面后選擇一個(gè)Scala版本進(jìn)行下載，我選擇的是Scala2.12.0版本。特別注意的是看帖子又的說Scala版本與Spark版本之間是有一定關(guān)聯(lián)的，比如說你的Scala版本是2.12.0，那么就應(yīng)該下載Spark版本為從1.3.0到Spark 1.6.2之間的各個(gè)版本。這種說法不知道準(zhǔn)不準(zhǔn)確，但是還是注意一下比較好。?

Scala安裝好之后呢，

在環(huán)境變量PATH里面配置scala安裝路徑。下面就打開cmd輸入Scala看下安裝后控制臺(tái)的輸出效果。

?
如果出現(xiàn)一下信息，那么就證明Scala已經(jīng)安裝成功了。?
需要注意的是：如果在控制臺(tái)輸入scala之后輸出沒有出現(xiàn)版本信息，那么就需要你手動(dòng)替換掉安裝Scala時(shí)自動(dòng)配置的變量。

既然Scala已經(jīng)安裝成功了，那么我們就可以繼續(xù)安裝我們的主角Spark了?

安裝完成之后可能會(huì)出現(xiàn)錯(cuò)誤：

Exception in thread "main" java.lang.UnsupportedClassVersionError: scala/tools/n sc/MainGenericRunne，

這個(gè)是由于jdk版本過低導(dǎo)致的，需要將jdk版本升至1.8以上。
二、安裝Spark?
同樣的我會(huì)附上Spark下載地址：http://spark.apache.org/downloads.html?

這里引用了別人的一張圖片，因?yàn)楣揪W(wǎng)絡(luò)有限制，導(dǎo)致訪問頁面布局錯(cuò)誤，所以網(wǎng)上找了一張圖片來給大家展示一下。

那么，當(dāng)我們下載好之后，Spark是不需要進(jìn)行安裝的，直接解壓到Spark目錄，然后配置一下Path環(huán)境變量就可以了?
?
我的Spark目錄為E:\spark\bin?
下面我們來驗(yàn)證一下看spark是否能正常啟動(dòng)。?
在控制臺(tái)輸入一下命令：spark-shell?
注意spark-shell之間是沒有空格的，千萬不要輸錯(cuò)了。?
情況看圖片?
?
到這里就說明我們的準(zhǔn)備工作已經(jīng)做完了嗎？顯然不是，雖然控制臺(tái)已經(jīng)輸出了Spark信息，但是并不是已經(jīng)完全ok的，等待10秒鐘左右控制臺(tái)會(huì)繼續(xù)輸出信息。如下?
?
看到圖中報(bào)錯(cuò)信息是不是快要崩潰了？別著急，聽我慢慢道來?
這里主要是因?yàn)镾park是基于Hadoop的，所以這里也有必要配置一個(gè)Hadoop的運(yùn)行環(huán)境。?
三、Hadoop下載?
地址：https://archive.apache.org/dist/hadoop/common/?
進(jìn)去之后盡量往下翻，越是下面的版本越新。?
?
由于我們之前選擇下載spark的時(shí)候是基于Hadoop2.6版本的，所以我這里選擇的是hadoop2.6.4版本?
下載完畢后我們直接解壓，解壓完畢后開始設(shè)置我們的環(huán)境變量?
需要設(shè)置的變量有?
HADOOP_HOME：E:\hadoop-2.6.4 （解壓目錄）?
PATH：E:\hadoop-2.6.4\bin?
上訴內(nèi)容都準(zhǔn)備好之后再次重新打開控制臺(tái)輸入spark-shell如果還有以上錯(cuò)誤日志，那么請(qǐng)找到你的hadoop\bin目錄找下里面有沒有winutils.exe文件，如果沒有的話，我們需要去下載。?
winutils.exe下載地址https://github.com/steveloughran/winutils?
進(jìn)入目錄后找到你相應(yīng)的hadoop目錄–進(jìn)入bin—找到winutils.exe文件下載。下載好之后我們把它放到E:\hadoop-2.6.4\bin 里面，確保該目錄中有winutils.exe文件。

那么下面就需要在控制臺(tái)輸入一下命令來修改權(quán)限

E:\hadoop-2.6.4\bin\winutils.exe chmod 777 /tmp/hive

注意該命令需要根據(jù)你實(shí)際的hadoop所在目錄。?
好了，經(jīng)過這么多的準(zhǔn)備工作，我想我們的spark到此已經(jīng)安裝完畢了。下面我們重新打開一個(gè)控制臺(tái)窗口輸入spark-shell看下結(jié)果吧。?
?
?
如果你看到上訴兩圖所圈住的日志信息，那么，恭喜您，spark已經(jīng)安裝成功了！

配置spark和Hadoop環(huán)境

打開pycharm,導(dǎo)入已有的或者新建工程。
2.創(chuàng)建新的run configurition。

如右上角所示，選擇edit configurition。

設(shè)置環(huán)境，創(chuàng)建PYTHONPATH和SPARK_HOME
配置路徑如圖所示，都可以在Spark安裝路徑下找到：

選擇 File->setting->你的project->project structure

右上角Add content root添加：py4j-some-version.zip和pyspark.zip的路徑（這兩個(gè)文件都在Spark中的python文件夾下，自己找一下）

5.保存，ok

總結(jié)

以上是生活随笔為你收集整理的Windows下安装spark+Hadoop的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：非常值得收藏的 IBM SPSS Mod
下一篇： TensorFlow在windows 下

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Windows下安装spark+Hadoop

總結(jié)