當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2、MapReduce的job提交启动过程

發布時間：2023/12/20 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 2、MapReduce的job提交启动过程小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019獨角獸企業重金招聘Python工程師標準>>>

1、MR任務提交流程圖

2、流程分析

1、首先在提交job之前，FileInputFormat調用getsplits();獲得分片信息，并且序列化為一個job.split文件。接著再講job的配置信息轉變成一個xml文件。 =>所以總共有job.jar、job.split、job.xml三個文件
2、第一步準備好后，向resourceManager請求提供機器運行程序。
3、resourceManager向客戶端返回一個job文件上傳的路徑XXX/staging和一個jobID。
4、Client往這個路徑上傳已經準備好的那三個文件。接這個告訴resourceManager已經上傳完成，并且告知需要的資源。
5、resourceManager生成一個資源任務放入resourceManager的任務隊列中，這個資源任務描述了：作業存放的路徑、需要的運行資源等。
6、由NodeManager輪詢任務列表，獲得這個任務，根據資源任務信息創建一個容器，并且將job作業信息下載下來，接著通知resourceManager已經下載完成。
7、resourceManager通知Client，資源準備好了，處理這個任務的NameManager的iP和端口是多少。
8、Client向這個NodeManager發送啟動MRAppMaster的命令腳本，啟動Mrappmaster。
9、MrAppMaster啟動后，讀取job.xml，job.split文件，知道需要多少mapTask和reduceTask進程。而且每個Task的資源需求，接著向ResourceManager請求這些資源。
10、ResourceManager同樣創建一些資源任務，放入任務隊列中。等待NodeManager輪詢處理。
11、NanoManager拿到這個MapTask任務后，創建一個容器并且下載job.jar、job.split、job.xml文件，后向resourceManager返回確認。resourceManager最后想MrappMaster返回準備完成的信息。
12、MrAppMaster向NanoManager發送啟動MapTask的命令腳本啟動MapTask。
13、重復MapTask過程的資源請求步驟，請求ReduceTask。

3、總結

job運行有兩種方式：

1、（開發debug模擬階段）直接在idea中運行，(不需要打包) 利用hadoop 的client jar包，其中有一個localRunner.jar來模擬。但是這種方式必須在電腦上安裝hadoop，并且必須在安裝目錄下bin文件夾中加入如下兩個文件

下載地址：https://download.csdn.net/download/luoyepiaoxin/8860033

引入maven依賴
-- 必須引入依賴<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.6.4</version></dependency>-- 如果想直接讀取的是HDFS上的文件，則需要引入依賴<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>2.6.4</version></dependency>-- 并且在代碼中指定HDFS//指定HDFS的實現方式設置默認文件系統為HDFS，同時偽裝自己的身份為rootconf.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());conf.set("fs.default.name", "hdfs://cmAgent2:8022");System.setProperty("HADOOP_USER_NAME", "root");
2、（生產部署階段）在idea中打包好，然后提交到集群中，最后使用hadoop jar XXXX。直接在集群中啟動。

注意：在打包的時候需要將上面的那幾行代碼注釋
總體依賴如下<dependencies><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.6.4</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>2.6.4</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.6.4</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>2.6.4</version></dependency></dependencies>

轉載于:https://my.oschina.net/liufukin/blog/795826

總結

以上是生活随笔為你收集整理的2、MapReduce的job提交启动过程的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：不止性能优化，移动端 APM 产品研发技
下一篇： Atitit 理解Monad attil