日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop大数据--Mapreduce编程规范及入门示例

發(fā)布時(shí)間:2025/1/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Hadoop大数据--Mapreduce编程规范及入门示例 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Mapreduce是一個(gè)分布式的運(yùn)算編程框架,核心功能是將用戶編寫的核心邏輯代碼分布式地運(yùn)行在一個(gè)集群的很多服務(wù)器上.

Mapreduce的存在價(jià)值

(1)海量數(shù)據(jù)在單機(jī)上處理因?yàn)橛布Y源限制,無(wú)法勝任,因?yàn)樾枰捎梅植际郊旱姆绞絹?lái)處理。
(2)而一旦將單機(jī)版程序擴(kuò)展到集群來(lái)分布式運(yùn)行,將極大地增加程序的復(fù)雜度和開(kāi)發(fā)難度
(3)引入mapreduce框架后,開(kāi)發(fā)人員可以將絕大部分工作集中在業(yè)務(wù)邏輯的開(kāi)發(fā)上,而將分布式計(jì)算中的復(fù)雜性交由框架來(lái)處理

hadoop與mapreduce的關(guān)系

Hadoop的發(fā)布包中內(nèi)置了一個(gè)hadoop-mapreduce-example-2.4.1.jar,這個(gè)jar包中有各種MR示例程序,可以通過(guò)以下步驟運(yùn)行:
啟動(dòng)hdfs,yarn
然后在集群中的任意一臺(tái)服務(wù)器上執(zhí)行,(比如運(yùn)行wordcount):
hadoop jar hadoop-mapreduce-example-2.4.1.jar wordcount /wordcount/data /wordcount/out

mapreduce編程規(guī)范

(1)用戶程序會(huì)分成三個(gè)部分:Mapper,Reducer,Driver
(2)Mapper的輸入數(shù)據(jù)是KV對(duì)的形式,KV的類型可以設(shè)置
(3)Mapper的輸出數(shù)據(jù)是KV對(duì)的形式,KV的類型可以設(shè)置
(4)Mapper中的業(yè)務(wù)邏輯寫在map方法中
(5)map方法是每進(jìn)來(lái)一個(gè)KV對(duì)調(diào)用一次
(6)Reducer的輸入數(shù)據(jù)應(yīng)該對(duì)應(yīng)Mapper的輸出數(shù)據(jù),也是KV
(7)Reducer的業(yè)務(wù)邏輯寫在reduce方法中
(8)reduce方法是對(duì)每一個(gè)<key,valueList>調(diào)用一次
(9)用戶的Mapper和Reducer都要繼承各自的父類
(10)整個(gè)程序需要一個(gè)Drvier來(lái)進(jìn)行提交,提交的是一個(gè)描述了各種必要信息的job對(duì)象.

wordcount示例編寫

  • (1)定義一個(gè)mapper類
//首先要定義四個(gè)泛型的類型 //keyin: LongWritable valuein: Text //keyout: Text valueout:IntWritablepublic class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{//map方法的生命周期: 框架每傳一行數(shù)據(jù)就被調(diào)用一次//key : 這一行的起始點(diǎn)在文件中的偏移量//value: 這一行的內(nèi)容@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//拿到一行數(shù)據(jù)轉(zhuǎn)換為stringString line = value.toString();//將這一行切分出各個(gè)單詞String[] words = line.split(" ");//遍歷數(shù)組,輸出<單詞,1>for(String word:words){context.write(new Text(word), new IntWritable(1));}} }
  • (2)定義一個(gè)reducer類
//生命周期:框架每傳遞進(jìn)來(lái)一個(gè)kv 組,reduce方法被調(diào)用一次@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {//定義一個(gè)計(jì)數(shù)器int count = 0;//遍歷這一組kv的所有v,累加到count中for(IntWritable value:values){count += value.get();}context.write(key, new IntWritable(count));} }
  • (3)定義一個(gè)主類,用來(lái)描述job并提交job
public class WordCountRunner {//把業(yè)務(wù)邏輯相關(guān)的信息(哪個(gè)是mapper,哪個(gè)是reducer,要處理的數(shù)據(jù)在哪里,輸出的結(jié)果放哪里。。。。。。)描述成一個(gè)job對(duì)象//把這個(gè)描述好的job提交給集群去運(yùn)行public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job wcjob = Job.getInstance(conf);//指定我這個(gè)job所在的jar包 // wcjob.setJar("/home/hadoop/wordcount.jar");wcjob.setJarByClass(WordCountRunner.class);wcjob.setMapperClass(WordCountMapper.class);wcjob.setReducerClass(WordCountReducer.class);//設(shè)置我們的業(yè)務(wù)邏輯Mapper類的輸出key和value的數(shù)據(jù)類型wcjob.setMapOutputKeyClass(Text.class);wcjob.setMapOutputValueClass(IntWritable.class);//設(shè)置我們的業(yè)務(wù)邏輯Reducer類的輸出key和value的數(shù)據(jù)類型wcjob.setOutputKeyClass(Text.class);wcjob.setOutputValueClass(IntWritable.class);//指定要處理的數(shù)據(jù)所在的位置FileInputFormat.setInputPaths(wcjob, "hdfs://hdp-server01:9000/wordcount/data/big.txt");//指定處理完成之后的結(jié)果所保存的位置FileOutputFormat.setOutputPath(wcjob, new Path("hdfs://hdp-server01:9000/wordcount/output/"));//向yarn集群提交這個(gè)jobboolean res = wcjob.waitForCompletion(true);System.exit(res?0:1);}

總結(jié)

以上是生活随笔為你收集整理的Hadoop大数据--Mapreduce编程规范及入门示例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。