日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量,jar文件等

發(fā)布時間:2024/9/27 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量,jar文件等 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一個典型的實現(xiàn)Tool的程序:

/**

MyApp 需要從命令行讀取參數(shù),用戶輸入命令如,

$bin/hadoop jar MyApp.jar -archives test.tgz ?arg1 arg2

-archives 為hadoop通用參數(shù),arg1 ,arg2為job的參數(shù)

*/

public class MyApp extends Configured implements Tool {

???????? //implemet Tool’s run

???????? public int run(String[] args) throws Exception {

?????????????????? Configuration conf = getConf();

?????????????????? // Create a JobConf using the processed conf

?????????????????? JobConf job = new JobConf(conf, MyApp.class);

?????????????????? // Process custom command-line options

?????????????????? Path in = new Path(args[1]);

?????????????????? Path out = new Path(args[2]);

?????????????????? // Specify various job-specific parameters

?????????????????? job.setJobName(“my-app”);

?????????????????? job.setInputPath(in);

?????????????????? job.setOutputPath(out);

?????????????????? job.setMapperClass(MyApp.MyMapper.class);

?????????????????? job.setReducerClass(MyApp.MyReducer.class);

?????????????????? ?

?????????????????? JobClient.runJob(job);

???????? }

???????

???????? public static void main(String[] args) throws Exception {

?????????????????? // args由ToolRunner來處理

?????????????????? int res = ToolRunner.run(new Configuration(), new MyApp(), args);

?????????????????? System.exit(res);

???????? }

}

?

說明:

使用ToolRunner讓參數(shù)傳遞更簡單,關于MapReduce運行和參數(shù)配置,你是否有下面的煩惱:

A: 將MapReduce Job配置參數(shù)寫到java代碼里,一旦變更意味著修改java文件源碼、編譯、打包、部署一連串事情。

B:當MapReduce 依賴配置文件的時候,你需要手工編寫java代碼使用DistributedCache將其上傳到HDFS中,以便map和reduce函數(shù)可以讀取。

C:當你的map或reduce 函數(shù)依賴第三方jar文件時,你在命令行中使用”-libjars”參數(shù)指定依賴jar包時,但根本沒生效。

D:其實,Hadoop有個ToolRunner類,它是個好東西,簡單好用。無論在《Hadoop權威指南》還是Hadoop項目源碼自帶的example,都推薦使用ToolRunner。

?

下面我們看下src/example目錄下WordCount.Java文件,它的代碼結構是這樣的:

public class WordCount {

???// 略...

???public static void main(String[] args) throws Exception {

???????Configuration conf = new Configuration();

???????String[] otherArgs = new GenericOptionsParser(conf,

???????????????????????????????????????????args).getRemainingArgs();

???????// 略...

???????Job job = new Job(conf, "word count");

???????// 略...

???????System.exit(job.waitForCompletion(true) ? 0 : 1);

??? }

}

WordCount.java中使用到了GenericOptionsParser這個類,它的作用是將命令行中參數(shù)自動設置到變量conf中。舉個例子,比如我希望通過命令行設置reduce task數(shù)量,就這么寫:bin/hadoop jar MyJob.jar com.xxx.MyJobDriver -Dmapred.reduce.tasks=5

上面這樣就可以了,不需要將其硬編碼到java代碼中,很輕松就可以將參數(shù)與代碼分離開。

其它常用的參數(shù)還有”-libjars”和-“files”,使用方法一起送上:

bin/hadoop jar MyJob.jar com.xxx.MyJobDriver -Dmapred.reduce.tasks=5\

???-files ./dict.conf? \

???-libjars lib/commons-beanutils-1.8.3.jar,lib/commons-digester-2.1.jar

參數(shù)”-libjars”的作用是上傳本地jar包到HDFS中MapReduce臨時目錄并將其設置到map和reduce task的classpath中;參數(shù)”-files”的作用是上傳指定文件到HDFS中mapreduce臨時目錄,并允許map和reduce task讀取到它。這兩個配置參數(shù)其實都是通過DistributeCache來實現(xiàn)的。

至此,我們還沒有說到ToolRunner,上面的代碼我們使用了GenericOptionsParser幫我們解析命令行參數(shù),編寫ToolRunner的程序員更懶,它將GenericOptionsParser調用隱藏到自身run方法,被自動執(zhí)行了,修改后的代碼變成了這樣:

?

public class WordCount extends Configuredimplements Tool {

?

???@Override

???public int run(String[] arg0) throws Exception {

???????Job job = new Job(getConf(), "word count");

???????// 略...

???????System.exit(job.waitForCompletion(true) ? 0 : 1);

???????return 0;

??? }

?

???public static void main(String[] args) throws Exception {

???????int res = ToolRunner.run(new Configuration(), new WordCount(), args);

???????System.exit(res);

??? }

}

看看代碼上有什么不同:

讓WordCount繼承Configured并實現(xiàn)Tool接口。

重寫Tool接口的run方法,run方法不是static類型,這很好。

在WordCount中我們將通過getConf()獲取Configuration對象。

?

最終我們得出的總結是:

1、通過使用ToolRunner.run(...)方法,可以更便利的使用hadoop命令行參數(shù)。

2、ToolRunner.run(...)通過調用Tool類中的run(String[])方法來運行hadoop程序,并默認加載core-default.xml與core-site.xml中的參數(shù)。

?

在程序運行時,可以通過命令行修改參數(shù),可修改的內容如下:

?

?

?


總結

以上是生活随笔為你收集整理的Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量,jar文件等的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。