日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

二、安装Spark集群

發布時間:2025/3/21 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 二、安装Spark集群 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
【一個很疑惑的問題】為什么我們一直在反復做一個操作:就是scp拷貝過來拷貝過去? 【答案】這是為了將文件或目錄的權限修改成hadoop所屬組。

一. 下載Spark安裝包并傳給mster機器,使權限是hadoop

①在slave1機器上下載Spark(進入官網下載更快)

②解壓安裝包

tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz -C /data

③把slave1機器上的解壓后的spark拷貝到master機器上

先進入/data目錄下,打開終端,不用修改用戶再: scp -r spark-1.6.3-bin-hadoop2.6/ hadoop@master:/data/

④刪除slave1機器上的spark-1.6.3-bin-hadoop2.6

sudo rm -r /data/spark-1.6.3-bin-hadoop2.6 到現在為止,slave1機器上的spark-1.6.3-bin-hadoop2.6安裝包已經被刪除;只在master機器上有spark-1.6.3-bin-hadoop2.6安裝包,且權限是 hadoop。 可以進行下面的Spark配置了!

==========

二 .配置 spark(涉及到的配置文件有以下幾個:)

在master機器上,新建下面文件:

先su hadoopsudo mkdir /data/spark_data sudo chmod -R 777 /data/spark_datasudo mkdir /data/spark_data/spark_works sudo chmod -R 777 /data/spark_data/spark_workssudo mkdir /data/spark_data/history sudo chmod -R 777 /data/spark_data/historysudo mkdir /data/spark_data/history/event-log sudo chmod -R 777 /data/spark_data/history/event-logsudo mkdir /data/spark_data/history/spark-events sudo chmod -R 777 /data/spark_data/history/spark-events再把在master創建好的上面的文件拷貝給slave機器: 在 master 機器上: 先切換到hadoop用戶 su hadoopscp -r /data/spark_data hadoop@slave1:/data scp -r /data/spark_data hadoop@slave2:/data 此時,在slave機器上就產生了/data/spark_data目錄,查看權限是hadoop刪除上面再master機器上創建的目錄(在master機器上執行)sudo rm -r /data/spark_data 從slave1機器上復制一份給master(在slave1機器上執行)scp -r /data/spark_data hadoop@master:/data 1. ${SPARK_HOME}/conf/spark-env.sh 2. ${SPARK_HOME}/conf/slaves 3. ${SPARK_HOME}/conf/spark-defaults.conf這三個文件都是由原始的 template 文件復制過來的,比如: 先進入conf目錄下,打開終端,再: su hadoopcp spark-env.sh.template spark-env.shcp slaves.template slavescp spark-env.sh.template spark-env.sh sudo chmod -R 777 ../*

配置文件 1:sudo gedit spark-env.sh

【重點注意】SPARK_MASTER_IP=192.168.1.10一定要修改成自己的master地址 注意:需要在本地創建/data/spark_data/spark_works 目錄JAVA_HOME=/data/jdk1.8.0_111 SCALA_HOME=/data/scala-2.11.8 SPARK_MASTER_IP=192.168.1.10 HADOOP_CONF_DIR=/data/hadoop-2.6.5/etc/hadoop # shuffled以及 RDD的數據存放目錄 SPARK_LOCAL_DIRS=/data/spark_data # worker端進程的工作目錄 SPARK_WORKER_DIR=/data/spark_data/spark_works

配置文件 2:sudo gedit slaves

去掉最后一行的localhost后,在最后一行加上下面內容 master slave1 slave2

配置文件 3:sudo gedit spark-defaults.conf

注意:需要在本地創建/data/spark_data/history/event-log、/data/spark_data/history/spark-events spark.master spark://master:7077 spark.serializer org.apache.spark.serializer.KryoSerializer spark.eventLog.enabled true spark.eventLog.dir file:///data/spark_data/history/event-log spark.history.fs.logDirectory file:///data/spark_data/history/spark-events spark.eventLog.compress true

===

三 . 復制到其他節點

在 master 上:1. scp -r /data/spark* hadoop@slave1:/data2. scp -r /data/spark* hadoop@slave2:/data 發現在 slave1 和slave2 上的/data目錄下有spark-1.6.3-bin-hadoop2.6的目錄, 查看權限是hadoop組。spark*實際上也把創建的目錄/data/spark_data全部拷貝過去了。

四 . 設置環境變量

在master機器上:su hadoopsudo gedit ~/.bashrc 將以下內容加入到~/.bashrc 文件中, export SPARK_HOME=/data/spark-1.6.3-bin-hadoop2.6 export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH然后執行以下命令:source ~/.bashrc再把master機器上的~/.bashrc文件拷貝到slave機器上:(在hadoop用戶下) su hadoop #切換到hadoop用戶scp -r ~/.bashrc hadoop@slave1:~/ scp -r ~/.bashrc hadoop@slave2:~/

=======================================

=======================================

5. 啟動驗證

在master機器上

1)啟動 masterstart-master.sh下圖說明在 master 節點上成功啟動 Master 進程:

在master機器上

2)啟動 slavestart-slaves.shjps

在slave機器上

執行jps

上面的圖片說明在每臺機器上都成功啟動了 Worker 進程。

3)訪問 WebUI

在 master、slave1 和 slave2 這三臺中任意一臺機器上的瀏覽器中輸入:http://master:8080/, 看到如下圖片,就說明我們的 spark 集群安裝成功了。

===

趟過的坑

配置 core-site.xml 和 hdfs-site.xml 文件時所指定的本地目錄一定要自己 創建,否則在執行 玩格式化 hdfs 后,啟動 hdfs 會丟失進程。

總結

以上是生活随笔為你收集整理的二、安装Spark集群的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。