mapreduce理解_大数据
map:對不同的數(shù)據(jù)進(jìn)行同種操作
reduce:按keys 把數(shù)據(jù)規(guī)約到一起
看這篇文章請出去跑兩圈,然后泡一壺茶,邊喝茶,邊看,看完你就對hadoop 與MapReduce的整體有所了解了。
【前言】
Hadoop是一個實現(xiàn)了Google云計算系統(tǒng)的開源系統(tǒng),包括并行計算模型Map/Reduce、分布式文件系統(tǒng)HDFS,以及分布式數(shù)據(jù)庫Hbase,同時Hadoop的相關(guān)項目也很豐富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等。
本文就hadoop的并行分布式計算模型MapReduce做一個簡單的入門介紹。
【什么是Map/Reduce】
看看下面的各種解釋:
(1)MapReduce是hadoop的核心組件之一,hadoop要實現(xiàn)分布式需要包括兩部分,一部分是分布式文件系統(tǒng)hdfs,一部分是分布式計算框架mapreduce,缺一不可,也就是說,可以通過mapreduce很容易在hadoop平臺上進(jìn)行分布式的計算編程。(2)Mapreduce是一種編程模型,是一種方法,抽象理論。
(3)下面是一個關(guān)于一個程序員是如何跟妻子講解什么是MapReduce,文章很長請耐心的看。
我問妻子:“你真的想要弄懂什么是MapReduce?” 她很堅定的回答說“是的”。?
因此我問道:
我: 你是如何準(zhǔn)備洋蔥辣椒醬的?(以下并非準(zhǔn)確食譜,請勿在家嘗試)妻子: 我會取一個洋蔥,把它切碎,然后拌入鹽和水,最后放進(jìn)混合研磨機(jī)里研磨。這樣就能得到洋蔥辣椒醬了。但這和MapReduce有什么關(guān)系?
我: 你等一下。讓我來編一個完整的情節(jié),這樣你肯定可以在15分鐘內(nèi)弄懂MapReduce。
妻子: 好吧。
我:現(xiàn)在,假設(shè)你想用薄荷、洋蔥、番茄、辣椒、大蒜弄一瓶混合辣椒醬。你會怎么做呢?
妻子: 我會取薄荷葉一撮,洋蔥一個,番茄一個,辣椒一根,大蒜一根,切碎后加入適量的鹽和水,再放入混合研磨機(jī)里研磨,這樣你就可以得到一瓶混合辣椒醬了。
我: 沒錯,讓我們把MapReduce的概念應(yīng)用到食譜上。Map和Reduce其實是兩種操作,我來給你詳細(xì)講解下。Map(映射) 把洋蔥、番茄、辣椒和大蒜切碎,是各自作用在這些物體上的一個Map操作。所以你給Map一個洋蔥,Map就會把洋蔥切碎。 同樣的,你把辣椒,大蒜和番茄一一地拿給Map,你也會得到各種碎塊。 所以,當(dāng)你在切像洋蔥這樣的蔬菜時,你執(zhí)行就是一個Map操作。 Map操作適用于每一種蔬菜,它會相應(yīng)地生產(chǎn)出一種或多種碎塊,在我們的例子中生產(chǎn)的是蔬菜塊。在Map操作中可能會出現(xiàn)有個洋蔥壞掉了的情況,你只要把壞洋蔥丟了就行了。所以,如果出現(xiàn)壞洋蔥了,Map操作就會過濾掉壞洋蔥而不會生產(chǎn)出任何的壞洋蔥塊。Reduce(化簡)這一階段,你將各種蔬菜碎都放入研磨機(jī)里進(jìn)行研磨,你就可以得到一瓶辣椒醬了。這意味要制成一瓶辣椒醬,你需要研磨所有的原料。因此,研磨機(jī)通常將map操作的蔬菜碎聚集在了一起。
妻子: 所以,這就是MapReduce?我: 你可以說是,也可以說不是。 其實這只是MapReduce的一部分,MapReduce的強(qiáng)大在于分布式計算。
妻子: 分布式計算? 那是什么?請給我解釋下吧。
我: 假設(shè)你參加了一個辣椒醬比賽并且你的食譜贏得了最佳辣椒醬獎。得獎之后,辣椒醬食譜大受歡迎,于是你想要開始出售自制品牌的辣椒醬。假設(shè)你每天需要生產(chǎn)10000瓶辣椒醬,你會怎么辦呢?
妻子: 我會找一個能為我大量提供原料的供應(yīng)商。
我:是的,就是那樣的。那你能否獨自完成制作呢?也就是說,獨自將原料都切碎? 僅僅一部研磨機(jī)又是否能滿足需要?而且現(xiàn)在,我們還需要供應(yīng)不同種類的辣椒醬,像洋蔥辣椒醬、青椒辣椒醬、番茄辣椒醬等等。
妻子: 當(dāng)然不能了,我會雇傭更多的工人來切蔬菜。我還需要更多的研磨機(jī),這樣我就可以更快地生產(chǎn)辣椒醬了。
我:沒錯,所以現(xiàn)在你就不得不分配工作了,你將需要幾個人一起切蔬菜。每個人都要處理滿滿一袋的蔬菜,而每一個人都相當(dāng)于在執(zhí)行一個簡單的Map操作。每一個人都將不斷地從袋子里拿出蔬菜來,并且每次只對一種蔬菜進(jìn)行處理,也就是將它們切碎,直到袋子空了為止。這樣,當(dāng)所有的工人都切完,工作臺上就有了洋蔥塊、番茄塊、和蒜蓉等等。
妻子:但是我怎么會制造出不同種類的番茄醬呢?
我:現(xiàn)在你會看到MapReduce遺漏的階段——攪拌。MapReduce將所有輸出的蔬菜碎都攪拌在了一起,這些蔬菜碎都是在以key為基礎(chǔ)的map操作下產(chǎn)生的。攪拌將自動完成,你可以假設(shè)key是一種原料的名字,就像洋蔥一樣。 所以全部的洋蔥keys都會攪拌在一起,并轉(zhuǎn)移到研磨洋蔥的研磨器里。這樣,你就能得到洋蔥辣椒醬了。同樣地,所有的番茄也會被轉(zhuǎn)移到標(biāo)記著番茄的研磨器里,并制造出番茄辣椒醬。
(4)上面都是從理論上來說明什么是MapReduce,那么咱們在MapReduce產(chǎn)生的過程和代碼的角度來理解這個問題。
如果想統(tǒng)計下過去10年計算機(jī)論文出現(xiàn)最多的幾個單詞,看看大家都在研究些什么,那收集好論文后,該怎么辦呢??
方法一:可以寫一個小程序,把所有論文按順序遍歷一遍,統(tǒng)計每一個遇到的單詞的出現(xiàn)次數(shù),最后就可以知道哪幾個單詞最熱門了。 這種方法在數(shù)據(jù)集比較小時,是非常有效的,而且實現(xiàn)最簡單,用來解決這個問題很合適。?
方法二:寫一個多線程程序,并發(fā)遍歷論文。 這個問題理論上是可以高度并發(fā)的,因為統(tǒng)計一個文件時不會影響統(tǒng)計另一個文件。當(dāng)我們的機(jī)器是多核或者多處理器,方法二肯定比方法一高效。但是寫一個多線程程序要比方法一困難多了,我們必須自己同步共享數(shù)據(jù),比如要防止兩個線程重復(fù)統(tǒng)計文件。?
方法三:把作業(yè)交給多個計算機(jī)去完成。 我們可以使用方法一的程序,部署到N臺機(jī)器上去,然后把論文集分成N份,一臺機(jī)器跑一個作業(yè)。這個方法跑得足夠快,但是部署起來很麻煩,我們要人工把程序copy到別的機(jī)器,要人工把論文集分開,最痛苦的是還要把N個運行結(jié)果進(jìn)行整合(當(dāng)然我們也可以再寫一個程序)。?
方法四:讓MapReduce來幫幫我們吧!MapReduce本質(zhì)上就是方法三,但是如何拆分文件集,如何copy程序,如何整合結(jié)果這些都是框架定義好的。我們只要定義好這個任務(wù)(用戶程序),其它都交給MapReduce。map函數(shù)和reduce函數(shù):map函數(shù)和reduce函數(shù)是交給用戶實現(xiàn)的,這兩個函數(shù)定義了任務(wù)本身。
map函數(shù):接受一個鍵值對(key-value pair),產(chǎn)生一組中間鍵值對。MapReduce框架會將map函數(shù)產(chǎn)生的中間鍵值對里鍵相同的值傳遞給一個reduce函數(shù)。?
reduce函數(shù):接受一個鍵key,以及相關(guān)的一組值(value list),將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個或零個值)。?
統(tǒng)計詞頻的MapReduce函數(shù)的核心代碼非常簡短,主要就是實現(xiàn)這兩個函數(shù)。
- map(String key, String value):
- // key: document name
- // value: document contents
- for each word w in value:
- EmitIntermediate(w, "1");
- reduce(String key, Iterator values):
- // key: a word
- // values: a list of counts
- int result = 0;
- for each v in values:
- result += ParseInt(v);
- Emit(AsString(result));
在統(tǒng)計詞頻的例子里,map函數(shù)接受的鍵(key)是文件名,值(value)是文件的內(nèi)容,map逐個遍歷單詞,每遇到一個單詞word就產(chǎn)生一個中間鍵值對<w, "1">(表示單詞w咱又找到了一個);MapReduce將鍵相同(都是單詞w)的鍵值對傳給reduce函數(shù),這樣reduce函數(shù)接受的鍵就是單詞w,值是一串"1"(最基本的實現(xiàn)是這樣,但可以優(yōu)化),個數(shù)等于鍵為w的鍵值對的個數(shù),然后將這些“1”累加就得到單詞w的出現(xiàn)次數(shù)。最后這些單詞的出現(xiàn)次數(shù)會被寫到用戶定義的位置,存儲在底層的分布式存儲系統(tǒng)(GFS或HDFS)。?
【MapReduce工作原理】
(1)MapReduce庫先把user program的輸入文件劃分為M份(M為用戶定義),每一份通常有16MB到64MB,如圖左方所示分成了split0~split4;然后使用fork將用戶進(jìn)程拷貝到集群內(nèi)其它機(jī)器上。
(2)user program的副本中有一個稱為master,其余稱為worker,master是負(fù)責(zé)調(diào)度的,為空閑worker分配作業(yè)(Map作業(yè)或者Reduce作業(yè)),worker的數(shù)量也是可以由用戶指定的。?
(3)被分配了Map作業(yè)的worker,開始讀取對應(yīng)分片的輸入數(shù)據(jù),Map作業(yè)數(shù)量是由M決定的,和split一一對應(yīng);Map作業(yè)從輸入數(shù)據(jù)中抽取出鍵值對,每一個鍵值對都作為參數(shù)傳遞給map函數(shù),map函數(shù)產(chǎn)生的中間鍵值對被緩存在內(nèi)存中(環(huán)形緩沖區(qū)kvBuffer)。(4)緩存的中間鍵值對會被定期寫入本地磁盤(spill),而且被分為R個區(qū),R的大小是由用戶定義的,將來每個區(qū)會對應(yīng)一個Reduce作業(yè);這些中間鍵值對的位置會被通報給master,master負(fù)責(zé)將信息轉(zhuǎn)發(fā)給Reduce worker。?
(5)master通知分配了Reduce作業(yè)的worker它負(fù)責(zé)的分區(qū)在什么位置(肯定不止一個地方,每個Map作業(yè)產(chǎn)生的中間鍵值對都可能映射到所有R個不同分區(qū)),當(dāng)Reduce worker把所有它負(fù)責(zé)的中間鍵值對都讀過來后,先對它們進(jìn)行排序,使得相同鍵的鍵值對聚集在一起。因為不同的鍵可能會映射到同一個分區(qū)也就是同一個Reduce作業(yè),所以排序是必須的。?
(6)reduce worker遍歷排序后的中間鍵值對,對于每個唯一的鍵,都將鍵與關(guān)聯(lián)的值傳遞給reduce函數(shù),reduce函數(shù)產(chǎn)生的輸出會添加到這個分區(qū)的輸出文件中。
(7)當(dāng)所有的Map和Reduce作業(yè)都完成了,master喚醒正版的user program,MapReduce函數(shù)調(diào)用返回user program的代碼。?
所有執(zhí)行完畢后,MapReduce輸出放在了R個分區(qū)的輸出文件中(分別對應(yīng)一個Reduce作業(yè))。用戶通常并不需要合并這R個文件,而是將其作為輸入交給另一個MapReduce程序處理。整個過程中,輸入數(shù)據(jù)來自底層分布式文件系統(tǒng)(hdfs),中間數(shù)據(jù)是放在本地文件系統(tǒng)的,最終輸出數(shù)據(jù)是寫入hdfs的。注意Map/Reduce作業(yè)和map/reduce函數(shù)的區(qū)別:Map作業(yè)處理一個輸入數(shù)據(jù)的分片,可能需要調(diào)用多次map函數(shù)來處理每個輸入鍵值對;Reduce作業(yè)處理一個分區(qū)的中間鍵值對,期間要對每個不同的鍵調(diào)用一次reduce函數(shù),Reduce作業(yè)最終也對應(yīng)一個輸出文件。【總結(jié)】
通過以上你是否了解什么是MapReduce了,什么是key,怎么過濾有效數(shù)據(jù),怎么得到自己想要的數(shù)據(jù)。
MapReduce是一種編程思想,可以使用java來實現(xiàn),C++來實現(xiàn)。Map的作用是過濾一些原始數(shù)據(jù),Reduce則是處理這些數(shù)據(jù),得到我們想要的結(jié)果(比如造出番茄辣椒醬)。也就是我們使用hadoop,比如進(jìn)行日志處理之后,得到我們關(guān)心的數(shù)據(jù)。
總結(jié)
以上是生活随笔為你收集整理的mapreduce理解_大数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cuda安装教cudnn安装显卡问题
- 下一篇: 数据库 user schema sql