當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量，jar文件等

發(fā)布時(shí)間：2024/9/27 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量，jar文件等小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一個(gè)典型的實(shí)現(xiàn)Tool的程序：

/**

MyApp 需要從命令行讀取參數(shù)，用戶輸入命令如，

$bin/hadoop jar MyApp.jar -archives test.tgz ?arg1 arg2

-archives 為hadoop通用參數(shù)，arg1 ,arg2為job的參數(shù)

public class MyApp extends Configured implements Tool {

???????? //implemet Tool’s run

???????? public int run(String[] args) throws Exception {

?????????????????? Configuration conf = getConf();

?????????????????? // Create a JobConf using the processed conf

?????????????????? JobConf job = new JobConf(conf, MyApp.class);

?????????????????? // Process custom command-line options

?????????????????? Path in = new Path(args[1]);

?????????????????? Path out = new Path(args[2]);

?????????????????? // Specify various job-specific parameters

?????????????????? job.setJobName(“my-app”);

?????????????????? job.setInputPath(in);

?????????????????? job.setOutputPath(out);

?????????????????? job.setMapperClass(MyApp.MyMapper.class);

?????????????????? job.setReducerClass(MyApp.MyReducer.class);

?????????????????? ?

?????????????????? JobClient.runJob(job);

???????? }

???????

???????? public static void main(String[] args) throws Exception {

?????????????????? // args由ToolRunner來處理

?????????????????? int res = ToolRunner.run(new Configuration(), new MyApp(), args);

?????????????????? System.exit(res);

???????? }

}

說明：

使用ToolRunner讓參數(shù)傳遞更簡(jiǎn)單，關(guān)于MapReduce運(yùn)行和參數(shù)配置，你是否有下面的煩惱：

A: 將MapReduce Job配置參數(shù)寫到j(luò)ava代碼里，一旦變更意味著修改java文件源碼、編譯、打包、部署一連串事情。

B:當(dāng)MapReduce 依賴配置文件的時(shí)候，你需要手工編寫java代碼使用DistributedCache將其上傳到HDFS中，以便map和reduce函數(shù)可以讀取。

C:當(dāng)你的map或reduce 函數(shù)依賴第三方j(luò)ar文件時(shí)，你在命令行中使用”-libjars”參數(shù)指定依賴jar包時(shí)，但根本沒生效。

D:其實(shí)，Hadoop有個(gè)ToolRunner類，它是個(gè)好東西，簡(jiǎn)單好用。無論在《Hadoop權(quán)威指南》還是Hadoop項(xiàng)目源碼自帶的example，都推薦使用ToolRunner。

下面我們看下src/example目錄下WordCount.Java文件，它的代碼結(jié)構(gòu)是這樣的：

public class WordCount {

???// 略...

???public static void main(String[] args) throws Exception {

???????Configuration conf = new Configuration();

???????String[] otherArgs = new GenericOptionsParser(conf,

???????????????????????????????????????????args).getRemainingArgs();

???????// 略...

???????Job job = new Job(conf, "word count");

???????// 略...

???????System.exit(job.waitForCompletion(true) ? 0 : 1);

??? }

}

WordCount.java中使用到了GenericOptionsParser這個(gè)類，它的作用是將命令行中參數(shù)自動(dòng)設(shè)置到變量conf中。舉個(gè)例子，比如我希望通過命令行設(shè)置reduce task數(shù)量，就這么寫：bin/hadoop jar MyJob.jar com.xxx.MyJobDriver -Dmapred.reduce.tasks=5

上面這樣就可以了，不需要將其硬編碼到j(luò)ava代碼中，很輕松就可以將參數(shù)與代碼分離開。

其它常用的參數(shù)還有”-libjars”和-“files”，使用方法一起送上：

bin/hadoop jar MyJob.jar com.xxx.MyJobDriver -Dmapred.reduce.tasks=5\

???-files ./dict.conf? \

???-libjars lib/commons-beanutils-1.8.3.jar,lib/commons-digester-2.1.jar

參數(shù)”-libjars”的作用是上傳本地jar包到HDFS中MapReduce臨時(shí)目錄并將其設(shè)置到map和reduce task的classpath中；參數(shù)”-files”的作用是上傳指定文件到HDFS中mapreduce臨時(shí)目錄，并允許map和reduce task讀取到它。這兩個(gè)配置參數(shù)其實(shí)都是通過DistributeCache來實(shí)現(xiàn)的。

至此，我們還沒有說到ToolRunner，上面的代碼我們使用了GenericOptionsParser幫我們解析命令行參數(shù)，編寫ToolRunner的程序員更懶，它將GenericOptionsParser調(diào)用隱藏到自身run方法，被自動(dòng)執(zhí)行了，修改后的代碼變成了這樣：

public class WordCount extends Configuredimplements Tool {

???@Override

???public int run(String[] arg0) throws Exception {

???????Job job = new Job(getConf(), "word count");

???????// 略...

???????System.exit(job.waitForCompletion(true) ? 0 : 1);

???????return 0;

??? }

???public static void main(String[] args) throws Exception {

???????int res = ToolRunner.run(new Configuration(), new WordCount(), args);

???????System.exit(res);

??? }

}

看看代碼上有什么不同：

讓W(xué)ordCount繼承Configured并實(shí)現(xiàn)Tool接口。

重寫Tool接口的run方法，run方法不是static類型，這很好。

在WordCount中我們將通過getConf()獲取Configuration對(duì)象。

最終我們得出的總結(jié)是：

1、通過使用ToolRunner.run(...)方法，可以更便利的使用hadoop命令行參數(shù)。

2、ToolRunner.run(...)通過調(diào)用Tool類中的run(String[])方法來運(yùn)行hadoop程序，并默認(rèn)加載core-default.xml與core-site.xml中的參數(shù)。

在程序運(yùn)行時(shí)，可以通過命令行修改參數(shù)，可修改的內(nèi)容如下：

總結(jié)

以上是生活随笔為你收集整理的Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量，jar文件等的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：启动盘坏了会怎么恢复启动盘坏了怎么恢复
下一篇： Mapreduce和Yarn概念，参数优

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量，jar文件等

總結(jié)