Hadoop大数据--Mapreduce编程规范及入门示例
Mapreduce是一個(gè)分布式的運(yùn)算編程框架,核心功能是將用戶編寫的核心邏輯代碼分布式地運(yùn)行在一個(gè)集群的很多服務(wù)器上.
Mapreduce的存在價(jià)值
(1)海量數(shù)據(jù)在單機(jī)上處理因?yàn)橛布Y源限制,無(wú)法勝任,因?yàn)樾枰捎梅植际郊旱姆绞絹?lái)處理。
(2)而一旦將單機(jī)版程序擴(kuò)展到集群來(lái)分布式運(yùn)行,將極大地增加程序的復(fù)雜度和開(kāi)發(fā)難度
(3)引入mapreduce框架后,開(kāi)發(fā)人員可以將絕大部分工作集中在業(yè)務(wù)邏輯的開(kāi)發(fā)上,而將分布式計(jì)算中的復(fù)雜性交由框架來(lái)處理
hadoop與mapreduce的關(guān)系
Hadoop的發(fā)布包中內(nèi)置了一個(gè)hadoop-mapreduce-example-2.4.1.jar,這個(gè)jar包中有各種MR示例程序,可以通過(guò)以下步驟運(yùn)行:
啟動(dòng)hdfs,yarn
然后在集群中的任意一臺(tái)服務(wù)器上執(zhí)行,(比如運(yùn)行wordcount):
hadoop jar hadoop-mapreduce-example-2.4.1.jar wordcount /wordcount/data /wordcount/out
mapreduce編程規(guī)范
(1)用戶程序會(huì)分成三個(gè)部分:Mapper,Reducer,Driver
(2)Mapper的輸入數(shù)據(jù)是KV對(duì)的形式,KV的類型可以設(shè)置
(3)Mapper的輸出數(shù)據(jù)是KV對(duì)的形式,KV的類型可以設(shè)置
(4)Mapper中的業(yè)務(wù)邏輯寫在map方法中
(5)map方法是每進(jìn)來(lái)一個(gè)KV對(duì)調(diào)用一次
(6)Reducer的輸入數(shù)據(jù)應(yīng)該對(duì)應(yīng)Mapper的輸出數(shù)據(jù),也是KV
(7)Reducer的業(yè)務(wù)邏輯寫在reduce方法中
(8)reduce方法是對(duì)每一個(gè)<key,valueList>調(diào)用一次
(9)用戶的Mapper和Reducer都要繼承各自的父類
(10)整個(gè)程序需要一個(gè)Drvier來(lái)進(jìn)行提交,提交的是一個(gè)描述了各種必要信息的job對(duì)象.
wordcount示例編寫
- (1)定義一個(gè)mapper類
- (2)定義一個(gè)reducer類
- (3)定義一個(gè)主類,用來(lái)描述job并提交job
總結(jié)
以上是生活随笔為你收集整理的Hadoop大数据--Mapreduce编程规范及入门示例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: springboot+mybatis整合
- 下一篇: JAVA计算机存储单元概述及数据类型