當(dāng)前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

大数据学习笔记——Spark完全分布式完整部署教程

發(fā)布時(shí)間：2024/1/3 综合教程 27 生活家

生活随笔收集整理的這篇文章主要介紹了大数据学习笔记——Spark完全分布式完整部署教程小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Spark完全分布式完整部署教程

繼Mapreduce之后，作為新一代并且是主流的計(jì)算引擎，學(xué)好Spark是非常重要的，這一篇博客會(huì)專門介紹如何部署一個(gè)分布式的Spark計(jì)算框架，在之后的博客中，更會(huì)講到Spark的基本模塊的介紹以及底層原理，好了，廢話不多說，直接開始吧！

1. 安裝準(zhǔn)備

部署Spark時(shí)，我們使用的版本如下所示：

2. 正式安裝

1. 將spark-2.4.3-bin-hadoop2.7.tgz文件使用遠(yuǎn)程傳輸軟件發(fā)送至/home/centos/downloads目錄下

2. 將spark-2.4.3-bin-hadoop2.7.tgz解壓縮至/soft目錄下

tar -xzvf spark-2.4.3-bin-hadoop2.7.tgz -C /soft

3. 進(jìn)入到/soft目錄下，配置spark的符號(hào)鏈接

cd /soft

ln -sspark-2.4.3-bin-hadoop2.7 spark

4. 修改并生效環(huán)境變量

nano /etc/profile

在文件末尾添加以下代碼：

#spark環(huán)境變量

export SPARK_HOME=/soft/spark

export PATH=$PATH:$SPARK_HOME/bin

生效環(huán)境變量后保存退出

source /etc/profile

5. 規(guī)劃集群部署方案

根據(jù)現(xiàn)有的虛擬機(jī)配置，集群部署方案為：s101節(jié)點(diǎn)作為master節(jié)點(diǎn)，s102 - s104作為worker節(jié)點(diǎn)

6. 使用腳本分發(fā)spark軟件包以及/etc/profile文件到所有節(jié)點(diǎn)

cd /soft

xsync.shspark-2.4.3-bin-hadoop2.7

xsync.sh /etc/profile

7. 使用ssh連接到除s101外的其他所有節(jié)點(diǎn)創(chuàng)建符號(hào)鏈接

ssh s102

cd /soft

ln -sspark-2.4.3-bin-hadoop2.7 spark

exit

其他節(jié)點(diǎn)同理

8. 配置spark的配置文件并分發(fā)到所有節(jié)點(diǎn)

cd /soft/spark/conf

cpspark-env.sh.template spark-env.sh

nano spark-env.sh

在文件末尾處添加后保存退出：

export JAVA_HOME=/soft/jdk

export HADOOP_CONF_DIR=/soft/hadoop/etc/hadoop

準(zhǔn)備好如下文件，避免每次提交spark job上傳spark類庫：

先用WinScp將spark的類庫放到/home/centos目錄下

將spark的類庫上傳到HDFS文件系統(tǒng)上去：hdfs dfs -put /home/centos/spark_lib.zip /

修改spark-defaults配置文件：

cp spark-defaults.conf.template spark-defaults.conf

nanospark-defaults.conf

在文件末尾處添加后保存退出：

spark.yarn.archive hdfs://mycluster/spark_lib.zip

cpslaves.template slaves

nano slaves

在文件中末尾處刪除localhost并添加以下命令后后保存退出：

s102
s103
s104

分發(fā)上述三個(gè)個(gè)配置文件

xsync.sh spark-env.sh

xsync.sh spark-defaults.conf

xsync.sh slaves

9. 啟動(dòng)spark集群

/soft/spark/sbin/start-all.sh

10. 查看進(jìn)程

xcall.sh jps

出現(xiàn)以下畫面：

11. 查看WebUI

http://s101:8080

配置大功告成！！！

12. 結(jié)合hadoop啟動(dòng)spark的各種模式檢測(cè)是否都能正常啟動(dòng)

啟動(dòng)local模式：spark-shell --master local

啟動(dòng)hadoop集群：

xzk.sh start

start-all.sh

然后啟動(dòng)standalone模式：spark-shell --master spark://s101:7077

最后測(cè)試yarn模式是否能連接成功：spark-shell --master yarn

總結(jié)

以上是生活随笔為你收集整理的大数据学习笔记——Spark完全分布式完整部署教程的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：黑苹果配置
下一篇：怎么创建具有真实纹理的CG场景岩石？