日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

Windows下安装spark+Hadoop

發(fā)布時(shí)間:2025/4/5 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Windows下安装spark+Hadoop 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Spark作為一個(gè)基于內(nèi)存的開源計(jì)算框架,在這個(gè)大數(shù)據(jù)時(shí)代背景下,受到越來越多的開發(fā)者的喜愛,相對(duì)于Hadoop,Spark擁有對(duì)大量數(shù)據(jù)更快的處理速度,并且易于使用(支持多種開發(fā)語言)。比Hadoop具有更多的優(yōu)點(diǎn),怎能不讓人想去嘗試一下Spark的魅力呢?了解Spark的都知道Spark是用Scala寫的,那么要想在windows下來運(yùn)行Spark少不了的就要先安裝Scala。 首先的在一個(gè)大前提下就是我們本機(jī)已經(jīng)安裝并配置好JDk環(huán)境變量了。 那么,我們就可以安裝Scala了

一、安裝Scala?
下載地址:http://www.scala-lang.org/download/all.html

進(jìn)入頁面后選擇一個(gè)Scala版本進(jìn)行下載,我選擇的是Scala2.12.0版本。特別注意的是看帖子又的說Scala版本與Spark版本之間是有一定關(guān)聯(lián)的,比如說你的Scala版本是2.12.0,那么就應(yīng)該下載Spark版本為從1.3.0到Spark 1.6.2之間的各個(gè)版本。這種說法不知道準(zhǔn)不準(zhǔn)確,但是還是注意一下比較好。?


Scala安裝好之后呢,

在環(huán)境變量PATH里面配置scala安裝路徑。下面就打開cmd輸入Scala看下安裝后控制臺(tái)的輸出效果。

?
如果出現(xiàn)一下信息,那么就證明Scala已經(jīng)安裝成功了。?
需要注意的是:如果在控制臺(tái)輸入scala之后輸出沒有出現(xiàn)版本信息,那么就需要你手動(dòng)替換掉安裝Scala時(shí)自動(dòng)配置的變量。

既然Scala已經(jīng)安裝成功了, 那么我們就可以繼續(xù)安裝我們的主角Spark了?

安裝完成之后可能會(huì)出現(xiàn)錯(cuò)誤:

Exception in thread "main" java.lang.UnsupportedClassVersionError: scala/tools/n sc/MainGenericRunne,

這個(gè)是由于jdk版本過低導(dǎo)致的,需要將jdk版本升至1.8以上。
二、安裝Spark?
同樣的我會(huì)附上Spark下載地址:http://spark.apache.org/downloads.html?

這里引用了別人的一張圖片,因?yàn)楣揪W(wǎng)絡(luò)有限制,導(dǎo)致訪問頁面布局錯(cuò)誤,所以網(wǎng)上找了一張圖片來給大家展示一下。

那么,當(dāng)我們下載好之后,Spark是不需要進(jìn)行安裝的,直接解壓到Spark目錄,然后配置一下Path環(huán)境變量就可以了?
?
我的Spark目錄為E:\spark\bin?
下面我們來驗(yàn)證一下看spark是否能正常啟動(dòng)。?
在控制臺(tái)輸入一下命令:spark-shell?
注意spark-shell之間是沒有空格的,千萬不要輸錯(cuò)了。?
情況看圖片?
?
到這里就說明我們的準(zhǔn)備工作已經(jīng)做完了嗎?顯然不是,雖然控制臺(tái)已經(jīng)輸出了Spark信息,但是并不是已經(jīng)完全ok的,等待10秒鐘左右控制臺(tái)會(huì)繼續(xù)輸出信息。如下?
?
看到圖中報(bào)錯(cuò)信息是不是快要崩潰了?別著急,聽我慢慢道來?
這里主要是因?yàn)镾park是基于Hadoop的,所以這里也有必要配置一個(gè)Hadoop的運(yùn)行環(huán)境。?
三、Hadoop下載?
地址:https://archive.apache.org/dist/hadoop/common/?
進(jìn)去之后盡量往下翻,越是下面的版本越新。?
?
由于我們之前選擇下載spark的時(shí)候是基于Hadoop2.6版本的,所以我這里選擇的是hadoop2.6.4版本?
下載完畢后我們直接解壓,解壓完畢后開始設(shè)置我們的環(huán)境變量?
需要設(shè)置的變量有?
HADOOP_HOME:E:\hadoop-2.6.4 (解壓目錄)?
PATH:E:\hadoop-2.6.4\bin?
上訴內(nèi)容都準(zhǔn)備好之后再次重新打開控制臺(tái)輸入spark-shell如果還有以上錯(cuò)誤日志,那么請(qǐng)找到你的hadoop\bin目錄找下里面有沒有winutils.exe文件,如果沒有的話,我們需要去下載。?
winutils.exe下載地址https://github.com/steveloughran/winutils?
進(jìn)入目錄后找到你相應(yīng)的hadoop目錄–進(jìn)入bin—找到winutils.exe文件下載。下載好之后我們把它放到E:\hadoop-2.6.4\bin 里面,確保該目錄中有winutils.exe文件。

那么下面就需要在控制臺(tái)輸入一下命令來修改權(quán)限

E:\hadoop-2.6.4\bin\winutils.exe chmod 777 /tmp/hive
  • 1

注意該命令需要根據(jù)你實(shí)際的hadoop所在目錄。?
好了,經(jīng)過這么多的準(zhǔn)備工作,我想我們的spark到此已經(jīng)安裝完畢了。下面我們重新打開一個(gè)控制臺(tái)窗口輸入spark-shell看下結(jié)果吧。?
?
?
如果你看到上訴兩圖所圈住的日志信息,那么,恭喜您,spark已經(jīng)安裝成功了!

配置spark和Hadoop環(huán)境

打開pycharm,導(dǎo)入已有的或者新建工程。
2.創(chuàng)建新的run configurition。

如右上角所示,選擇edit configurition。

  • 設(shè)置環(huán)境,創(chuàng)建PYTHONPATH和SPARK_HOME
    配置路徑如圖所示,都可以在Spark安裝路徑下找到:

  • ?

    選擇 File->setting->你的project->project structure

    右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路徑(這兩個(gè)文件都在Spark中的python文件夾下,自己找一下)


    5.保存,ok

    ?

    ?

    ?

    總結(jié)

    以上是生活随笔為你收集整理的Windows下安装spark+Hadoop的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。