日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark详解(二):Spark完全分布式环境搭建

發(fā)布時間:2025/4/16 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark详解(二):Spark完全分布式环境搭建 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1. 前言

本文搭建了一個由三節(jié)點(master、slave1、slave2)構(gòu)成的Spark完全分布式集群,并通過Spark分布式計算的一個示例測試集群的正確性。本文將搭建一個支持Yarn的完全分布式環(huán)境

2. Spark架構(gòu)

Spark 使用的是主從架構(gòu)體系

3. Apache Spark環(huán)境搭建

需要配置的文件有 slaves spark-env.sh spark-defaults.conf

spark-env.sh

#!/usr/bin/env bash export JAVA_HOME=/opt/java/jdk1.8.0_151 export HADOOP_HOME=/opt/hadoop/hadoop-2.7.6 export HADOOP_CONF_DIR=/opt/hadoop/hadoop-2.7.6/etc/hadoop export SCALA_HOME=/opt/scala/scala-2.11.12 export SPARK_HOME=/opt/spark/spark-2.3.1-bin-hadoop2.7 export YARN_HOME=/opt/hadoop/hadoop-2.7.6 export YARN_CONF_DIR=//opt/hadoop/hadoop-2.7.6/etc/hadoop export SPARK_MASTER_IP=node91 export SPARK_MASTER_PORT=7077 export SPARK_MASTER_WEBUI_PORT=8099 export SPARK_WORKER_CORES=16 export SPARK_WORKER_MEMORY=16g export SPARK_WORKER_INSTANCES=1 export SPARK_WORKER_WEBUI_PORT=8081 export SPARK_EXECUTOR_CORES=4 export SPARK_EXECUTOR_MEMORY=4g #export SPARK_CLASSPATH=/opt/hadoop-lzo/current/hadoop-lzo.jar #export SPARK_CLASSPATH=$SPARK_CLASSPATH:$CLASSPATH export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node91:9000/user/root/sparkhistory"# spark standalone模式 # spark_WORKER_CORES spark每個worker進程分配cpu核數(shù) # spark_WORKER_INSTANCES spark每個節(jié)點分配多少個worker進程 # spark_WORKER_MEMORY spark每個worker進程占用內(nèi)存 # spark_EXECUTROR_CORES spark每個executor占用cpu核數(shù) # spark_EXECUTOR_MEMORY spark每個executor占用內(nèi)存

spark-defaults.conf

# Example: spark.master spark://node91:7077 spark.eventLog.enabled true spark.eventLog.compress true park.eventLog.dir hdfs://node91:9000/user/root/sparkhistory spark.history.fs.logDirectory hdfs://node91:9000/user/root/sparkhistory spark.yarn.historyServer.address node91:18080 spark.history.ui.port 18080 spark.ui.port 8099 # spark.serializer org.apache.spark.serializer.KryoSerializer # spark.driver.memory 5g # spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

slaves

node23 node24

4. Apache Spark配置高可用性

使用zookeeper配置高可用性 利用StandyBy的Master節(jié)點進行備份

1.配置spark-env.sh export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=root2:2181,root4:2181,root5:2181" 2.然后再你需要作為備用啟動的Master節(jié)點上 配置 export SPARK_MASTER_IP=root2 指定Spark Master 的ip地址 3.然后再你需要作為備用啟動的Master節(jié)點上 啟動start-master.sh

5. 啟動和關(guān)閉 Apache Spark集群

5.1 啟動Apache Spark

啟動 Spark Master 進程

start-master.sh

啟動 Spark Slaves 進程

start-slaves.sh

啟動 Spark History Server 進程

start-history-server.sh

5.2 關(guān)閉Apache Spark

關(guān)閉 Spark Master 進程

stop-master.sh

關(guān)閉 Spark Slaves 進程

stop-slaves.sh

關(guān)閉 Spark History Server 進程

stop-history-server.sh

6. 測試

PI 案例:

6.1 Standyalone 提交命令

spark-submit \ --master spark://node91:7077 \ --class org.apache.spark.examples.SparkPi \ examples/jars/spark-examples_2.11-2.3.1.jar 10000

6.2 YARN提交命令

spark-submit \ --master yarn \ --class org.apache.spark.examples.SparkPi \ examples/jars/spark-examples_2.11-2.3.1.jar 10000

7. Web UI

Spark Master UI:8089

Spark Worker UI: 8081

Spark History Server UI:18080

Spark Master : 提交作業(yè)端口 7077

總結(jié)

以上是生活随笔為你收集整理的Spark详解(二):Spark完全分布式环境搭建的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。