當前位置：首頁 >

spark1.6.1 on yarn搭建部署

發布時間：2025/3/8 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark1.6.1 on yarn搭建部署小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

注：本文是建立在hadoop已經搭建完成的基礎上進行的。

Apache Spark是一個分布式計算框架，旨在簡化運行于計算機集群上的并行程序的編寫。該框架對資源調度，任務的提交、執行和跟蹤，節點間的通信以及數據并行處理的內在底層操作都進行了抽象。它提供了一個更高級別的API用于處理分布式數據。從這方面說，它與Apache Hadoop等分布式處理框架類似。但在底層架構上，Spark與它們有所不同。

Spark起源于加利福利亞大學伯克利分校的一個研究項目。學校當時關注分布式機器學習算法的應用情況。因此，Spark從一開始便為應對迭代式應用的高性能需求而設計。在這類應用中，相同的數據會被多次訪問。該設計主要靠利用數據集內存緩存以及啟動任務時的低延遲和低系統開銷來實現高性能。再加上其容錯性、靈活的分布式數據結構和強大的函數式編程接口，Spark在各類基于機器學習和迭代分析的大規模數據處理任務上有廣泛的應用，這也表明了其實用性。

Spark支持四種運行模式。

本地單機模式：所有Spark進程都運行在同一個Java虛擬機（Java Vitural Machine，JVM）中。
集群單機模式：使用Spark自己內置的任務調度框架。
基于Mesos：Mesos是一個流行的開源集群計算框架。
基于YARN：即Hadoop 2，它是一個與Hadoop關聯的集群計算和資源調度框架。

spark是由Scala語言編寫的，但是運行的環境是jvm，所以需要安裝JDK?
編譯過程：Python、java、Scala編寫的代碼?->?scala編譯器編譯解釋，生成class文件?->?由jvm負責執行class文件（與java代碼執行一致）

Apache Hadoop YARN （Yet Another Resource Negotiator，另一種資源協調者）是一種新的 Hadoop 資源管理器，它是一個通用資源管理系統，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處

由于 spark是由Scala語言編寫的，所以依賴Scala環境，且由Scala編寫的執行代碼也需要環境進行編譯。

hdfs是作為spark的持久層，所以需要安裝Hadoop，同時如果需要配置spark on yarn，則Hadoop需要安裝yarn版本的

spark官方詳細參數配置手冊：http://spark.apache.org/docs/latest/configuration.html

下載地址：http://spark.apache.org/downloads.html

---------------------------------------------------------------------------------------------------------

1、安裝Scala

官網下載地址：?http://www.scala-lang.org/download/all.html

下載后解壓到指定目錄,例如 /usr/local/scala

# tar -zxvf?scala-2.11.8.tgz ?; ?mv?scala-2.11.8 /usr/local/scala

配置環境變量:

# vim /etc/profile

export ?SCALA_HOME=/usr/local/scala/

export ?PATH=$SCALA_HOME/bin:$PATH?

2、編輯conf/spark-env.sh文件

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_IP=dataMaster30
export SPARK_EXECUTOR_INSTANCES=3
export SPARK_EXECUTOR_CORES=3
export SPARK_EXECUTOR_MEMORY=8g
export SPARK_DRIVER_MEMORY=2g

3、編輯slaves文件

#localhost dataSlave31 dataSlave32 dataSlave33 dataSlave34 dataSlave35

4、啟動spark集群：

/usr/local/spark/sbin/start-all.sh

關閉spark集群：

/usr/local/spark/sbin/stop-all.sh

5、檢測是否安裝成功:

# jps (Master節點) 此時會多出現一個Master進程

1701?Master
1459?SecondaryNameNode
2242?NameNode
1907?ResourceManage

# jps ?(Worker節點)?此時會多出現一個Worker進程

5387 Worker
4269 DataNode
4398 NodeManager

執行以下測試命令，查看spark單機運行是否成功：

/usr/local/spark/bin/run-example SparkPi 1000?

執行以下測試命令，查看spark集群運行是否成功：?

cd /usr/local/spark

?./bin/spark-submit --master spark://master60:7077 --class org.apache.spark.examples.SparkPi ?lib/spark-examples-1.6.1-hadoop2.6.0.jar 1000

如果沒有報錯的話，則證明spark確實部署成功。

6、查看集群狀態:

http://master30:8080/?

最后設置開機自啟動：

vim /etc/rc.local

su - hadoop -c "/usr/local/hadoop/sbin/start-all.sh"
su - hadoop -c "/usr/local/spark/sbin/start-all.sh"

總結

以上是生活随笔為你收集整理的spark1.6.1 on yarn搭建部署的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

yarn

上一篇： Cell.reuseIdentifier
下一篇： FMDB的介绍

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

spark1.6.1 on yarn搭建部署

總結