日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2、MapReduce的job提交启动过程

發(fā)布時(shí)間:2023/12/20 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2、MapReduce的job提交启动过程 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>

1、MR任務(wù)提交流程圖

2、流程分析

  • 1、首先在提交job之前,FileInputFormat調(diào)用getsplits();獲得分片信息,并且序列化為一個(gè)job.split文件。接著再講job的配置信息轉(zhuǎn)變成一個(gè)xml文件。 =>所以總共有job.jar、job.split、job.xml三個(gè)文件

  • 2、第一步準(zhǔn)備好后,向resourceManager請求提供機(jī)器運(yùn)行程序。

  • 3、resourceManager向客戶端返回一個(gè)job文件上傳的路徑XXX/staging和一個(gè)jobID。

  • 4、Client往這個(gè)路徑上傳已經(jīng)準(zhǔn)備好的那三個(gè)文件。接這個(gè)告訴resourceManager已經(jīng)上傳完成,并且告知需要的資源。

  • 5、resourceManager生成一個(gè)資源任務(wù)放入resourceManager的任務(wù)隊(duì)列中,這個(gè)資源任務(wù)描述了:作業(yè)存放的路徑、需要的運(yùn)行資源等。

  • 6、由NodeManager輪詢?nèi)蝿?wù)列表,獲得這個(gè)任務(wù),根據(jù)資源任務(wù)信息創(chuàng)建一個(gè)容器,并且將job作業(yè)信息下載下來,接著通知resourceManager已經(jīng)下載完成。

  • 7、resourceManager通知Client,資源準(zhǔn)備好了,處理這個(gè)任務(wù)的NameManager的iP和端口是多少。

  • 8、Client向這個(gè)NodeManager發(fā)送啟動MRAppMaster的命令腳本,啟動Mrappmaster。

  • 9、MrAppMaster啟動后,讀取job.xml,job.split文件,知道需要多少mapTask和reduceTask進(jìn)程。而且每個(gè)Task的資源需求,接著向ResourceManager請求這些資源。

  • 10、ResourceManager同樣創(chuàng)建一些資源任務(wù),放入任務(wù)隊(duì)列中。等待NodeManager輪詢處理。

  • 11、NanoManager拿到這個(gè)MapTask任務(wù)后,創(chuàng)建一個(gè)容器并且下載job.jar、job.split、job.xml文件,后向resourceManager返回確認(rèn)。resourceManager最后想MrappMaster返回準(zhǔn)備完成的信息。

  • 12、MrAppMaster向NanoManager發(fā)送啟動MapTask的命令腳本啟動MapTask。

  • 13、重復(fù)MapTask過程的資源請求步驟,請求ReduceTask。

3、總結(jié)

job運(yùn)行有兩種方式:

  • 1、(開發(fā)debug模擬階段)直接在idea中運(yùn)行,(不需要打包) 利用hadoop 的client jar包,其中有一個(gè)localRunner.jar來模擬。但是這種方式必須在電腦上安裝hadoop,并且必須在安裝目錄下bin文件夾中加入如下兩個(gè)文件

    下載地址:https://download.csdn.net/download/luoyepiaoxin/8860033

    引入maven依賴

    -- 必須引入依賴<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.6.4</version></dependency>-- 如果想直接讀取的是HDFS上的文件,則需要引入依賴<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>2.6.4</version></dependency>-- 并且在代碼中指定HDFS//指定HDFS的實(shí)現(xiàn)方式設(shè)置默認(rèn)文件系統(tǒng)為HDFS,同時(shí)偽裝自己的身份為rootconf.set("fs.hdfs.impl",org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());conf.set("fs.default.name", "hdfs://cmAgent2:8022");System.setProperty("HADOOP_USER_NAME", "root");
  • 2、(生產(chǎn)部署階段)在idea中打包好,然后提交到集群中,最后使用hadoop jar XXXX。直接在集群中啟動。

    注意:在打包的時(shí)候需要將上面的那幾行代碼注釋

    總體依賴如下<dependencies><!--這個(gè)是必須的,common里面提供了rpc等功能--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.6.4</version></dependency><!--這個(gè)也是必須的--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>2.6.4</version></dependency><!--這個(gè)是本地debug運(yùn)行才需要的--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-common</artifactId><version>2.6.4</version></dependency><!--這個(gè)是本地debug的時(shí)候,需要讀取HDFS上的文件才需要,如果是讀取本地文件則不需要--><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>2.6.4</version></dependency></dependencies>

轉(zhuǎn)載于:https://my.oschina.net/liufukin/blog/795826

總結(jié)

以上是生活随笔為你收集整理的2、MapReduce的job提交启动过程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。