大数据学习笔记——Spark完全分布式完整部署教程
Spark完全分布式完整部署教程
繼Mapreduce之后,作為新一代并且是主流的計(jì)算引擎,學(xué)好Spark是非常重要的,這一篇博客會(huì)專門介紹如何部署一個(gè)分布式的Spark計(jì)算框架,在之后的博客中,更會(huì)講到Spark的基本模塊的介紹以及底層原理,好了,廢話不多說,直接開始吧!
1. 安裝準(zhǔn)備
部署Spark時(shí),我們使用的版本如下所示:
2. 正式安裝
1. 將spark-2.4.3-bin-hadoop2.7.tgz文件使用遠(yuǎn)程傳輸軟件發(fā)送至/home/centos/downloads目錄下
2. 將spark-2.4.3-bin-hadoop2.7.tgz解壓縮至/soft目錄下
tar -xzvf spark-2.4.3-bin-hadoop2.7.tgz -C /soft
3. 進(jìn)入到/soft目錄下,配置spark的符號(hào)鏈接
cd /soft
ln -sspark-2.4.3-bin-hadoop2.7 spark
4. 修改并生效環(huán)境變量
nano /etc/profile
在文件末尾添加以下代碼:
#spark環(huán)境變量
export SPARK_HOME=/soft/spark
export PATH=$PATH:$SPARK_HOME/bin
生效環(huán)境變量后保存退出
source /etc/profile
5. 規(guī)劃集群部署方案
根據(jù)現(xiàn)有的虛擬機(jī)配置,集群部署方案為:s101節(jié)點(diǎn)作為master節(jié)點(diǎn),s102 - s104作為worker節(jié)點(diǎn)
6. 使用腳本分發(fā)spark軟件包以及/etc/profile文件到所有節(jié)點(diǎn)
cd /soft
xsync.shspark-2.4.3-bin-hadoop2.7
xsync.sh /etc/profile
7. 使用ssh連接到除s101外的其他所有節(jié)點(diǎn)創(chuàng)建符號(hào)鏈接
ssh s102
cd /soft
ln -sspark-2.4.3-bin-hadoop2.7 spark
exit
其他節(jié)點(diǎn)同理
8. 配置spark的配置文件并分發(fā)到所有節(jié)點(diǎn)
cd /soft/spark/conf
cpspark-env.sh.template spark-env.sh
nano spark-env.sh
在文件末尾處添加后保存退出:
export JAVA_HOME=/soft/jdk
export HADOOP_CONF_DIR=/soft/hadoop/etc/hadoop
準(zhǔn)備好如下文件,避免每次提交spark job上傳spark類庫:
先用WinScp將spark的類庫放到/home/centos目錄下
將spark的類庫上傳到HDFS文件系統(tǒng)上去:hdfs dfs -put /home/centos/spark_lib.zip /
修改spark-defaults配置文件:
cp spark-defaults.conf.template spark-defaults.conf
nanospark-defaults.conf
在文件末尾處添加后保存退出:
spark.yarn.archive hdfs://mycluster/spark_lib.zip
cpslaves.template slaves
nano slaves
在文件中末尾處刪除localhost并添加以下命令后后保存退出:
s102
s103
s104
分發(fā)上述三個(gè)個(gè)配置文件
xsync.sh spark-env.sh
xsync.sh spark-defaults.conf
xsync.sh slaves
9. 啟動(dòng)spark集群
/soft/spark/sbin/start-all.sh
10. 查看進(jìn)程
xcall.sh jps
出現(xiàn)以下畫面:
11. 查看WebUI
http://s101:8080
配置大功告成!!!
12. 結(jié)合hadoop啟動(dòng)spark的各種模式檢測(cè)是否都能正常啟動(dòng)
啟動(dòng)local模式:spark-shell --master local
啟動(dòng)hadoop集群:
xzk.sh start
start-all.sh
然后啟動(dòng)standalone模式:spark-shell --master spark://s101:7077
最后測(cè)試yarn模式是否能連接成功:spark-shell --master yarn
總結(jié)
以上是生活随笔為你收集整理的大数据学习笔记——Spark完全分布式完整部署教程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 黑苹果配置
- 下一篇: 怎么创建具有真实纹理的CG场景岩石?