日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

spark提交到yarn_详细总结spark基于standalone、yarn集群提交作业流程

發布時間:2023/11/27 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 spark提交到yarn_详细总结spark基于standalone、yarn集群提交作业流程 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近總結了一些關于spark core的內容,今天先來和大家分享一下spark的運行模式。


spark運行模式

(1)local:在本地eclipse、IDEA中寫spark代碼運行程序,一般用于測試

(2)standalone:spark自帶的資源調度框架,支持分布式集群搭建。Spark可以運行在standalone集群上

(3)Yarn:Hadoop生態圈中的資源調度框架,spark可以基于Yarn運行

(4)Mesos: 資源調度框架 (用的比較少)

下面,來給大家總結一下spark基于standalone和yarn集群上提交作業的流程:

有兩種可選的運行方式:

(1)client 一般用于測試環境

(2)cluster 用于實際生產環境

Spark基于standalone集群提交任務的流程

1.Client模式:

1)集群啟動后,worker向Master匯報資源(資源指core和內存)

2)Master掌握了集群的資源

3)客戶端提交spark任務,首先在客戶端啟動Driver

4)客戶端向Master申請資源

5)Master找到滿足資源的worker節點,在worker節點上啟動Excutor進程,反向注冊給Driver。

6)Driver向Worker發送Task,監控task的執行,回收結果。

流程圖示:

注:(1)Driver在客戶端啟動

(2)每個SparkApplication有獨立的Driver和Excutor

(3)Driver和集群中的worker會有大量的通信,如果有很多的apllication提交,而這種client運行方式中Driver均在客戶端啟動,就很容易造成客戶端節點的網卡流量激增問題。所以這種方式適用于程序測試環境,不適用與生產環境。

(4)在客戶端可以查看task執行過程和結果,方便調錯。

2.Cluster模式:

spark基于standalone集群的cluster模式的提交任務流程:

1) 集群啟動后worker向Master匯報資源

2) Master掌握集群資源

3) 客戶端提交sparkApplication,客戶端向Master申請啟動Driver。

4) Master收到請求后隨機找一臺節點啟動Driver。

5) Driver向Master申請資源用于啟動Application

6) Master找到滿足資源的worker節點,啟動Excutor,反向注冊給Driver

7) Driver發送task到worker節點,監控task,回收結果(collect方法)

流程圖示:

注:(1)先啟動Driver,再啟動Application

(2)Driver在隨機一臺worker節點上啟動,當有很多的SparkApplication提交時,這些Application作業的Driver都是分布在集群中不同worker節點上的,解決了client模式中單節點網卡流量激增的問題,適用于生產環境。

(3)在客戶端看不到task的執行過程以及運行結果,要在WebUI中查看

Spark基于yarn集群提交任務的流程

1.Client模式:

流程總結:

1) NodeManager向ResourceManager匯報資源

2) ResourceManager掌握集群資源

3) 客戶端提交Application,在客戶端啟動Driver

4) 客戶端向ResourceManager申請啟動ApplicationMaster。

5) ResourceManager收到請求之后隨機找一臺NodeManager啟動ApplicationMaster

6) ApplicationMaster啟動之后向ResourceManager申請資源用于啟動Excutor,

7) ResourceManager收到請求后返回一批滿足要求的NodeManager節點給AM

8) ApplicationMaster連接NodeManager啟動Excutor

9) Excutor反向注冊給Driver

10)Driver發送task給NodeManager,監控task執行,并回收結果

流程圖示:

2.Cluster模式:

Spark基于Yarn的Cluster提交作業流程總結:

1) 集群啟動后,NodeManager向ResourceManager匯報資源

2) ResourceManager掌握了集群資源

3) 客戶端提交SparkApplication

4) 客戶端向ResourceManager申請啟動ApplicationMaster

5) ResourceManager隨機找一臺NodeManager啟動ApplicationMaster(Driver)

6) ApplicationMaster向ResourceManager申請資源用于啟動Excutor

7) ResourceManager返回一批滿足資源的NodeManager節點給ApplicationMaster

8) ApplicationMaster在這些NodeManager上啟動Excutor

9) Excutor反向注冊給Driver(ApplicationMaster)

10) ApplicationMaster發送task給NodeManager,監控task執行,回收結果

流程圖示:

總結:

總結

以上是生活随笔為你收集整理的spark提交到yarn_详细总结spark基于standalone、yarn集群提交作业流程的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。