當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

mapreduce理解_大数据

發(fā)布時間：2023/11/28 生活经验 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 mapreduce理解_大数据小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

map:對不同的數(shù)據(jù)進(jìn)行同種操作
reduce：按keys 把數(shù)據(jù)規(guī)約到一起

看這篇文章請出去跑兩圈，然后泡一壺茶，邊喝茶，邊看，看完你就對hadoop 與MapReduce的整體有所了解了。

【前言】

Hadoop是一個實現(xiàn)了Google云計算系統(tǒng)的開源系統(tǒng)，包括并行計算模型Map/Reduce、分布式文件系統(tǒng)HDFS，以及分布式數(shù)據(jù)庫Hbase，同時Hadoop的相關(guān)項目也很豐富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等。

本文就hadoop的并行分布式計算模型MapReduce做一個簡單的入門介紹。

【什么是Map/Reduce】

看看下面的各種解釋：

（1）MapReduce是hadoop的核心組件之一，hadoop要實現(xiàn)分布式需要包括兩部分，一部分是分布式文件系統(tǒng)hdfs，一部分是分布式計算框架mapreduce，缺一不可，也就是說，可以通過mapreduce很容易在hadoop平臺上進(jìn)行分布式的計算編程。
（2）Mapreduce是一種編程模型，是一種方法，抽象理論。
（3）下面是一個關(guān)于一個程序員是如何跟妻子講解什么是MapReduce，文章很長請耐心的看。

我問妻子：“你真的想要弄懂什么是MapReduce？” 她很堅定的回答說“是的”。?

因此我問道：

我：你是如何準(zhǔn)備洋蔥辣椒醬的？（以下并非準(zhǔn)確食譜，請勿在家嘗試）
妻子：我會取一個洋蔥，把它切碎，然后拌入鹽和水，最后放進(jìn)混合研磨機(jī)里研磨。這樣就能得到洋蔥辣椒醬了。但這和MapReduce有什么關(guān)系？
我：你等一下。讓我來編一個完整的情節(jié)，這樣你肯定可以在15分鐘內(nèi)弄懂MapReduce。
妻子：好吧。
我：現(xiàn)在，假設(shè)你想用薄荷、洋蔥、番茄、辣椒、大蒜弄一瓶混合辣椒醬。你會怎么做呢？
妻子：我會取薄荷葉一撮，洋蔥一個，番茄一個，辣椒一根，大蒜一根，切碎后加入適量的鹽和水，再放入混合研磨機(jī)里研磨，這樣你就可以得到一瓶混合辣椒醬了。

我：沒錯，讓我們把MapReduce的概念應(yīng)用到食譜上。Map和Reduce其實是兩種操作，我來給你詳細(xì)講解下。Map（映射）把洋蔥、番茄、辣椒和大蒜切碎，是各自作用在這些物體上的一個Map操作。所以你給Map一個洋蔥，Map就會把洋蔥切碎。同樣的，你把辣椒，大蒜和番茄一一地拿給Map，你也會得到各種碎塊。所以，當(dāng)你在切像洋蔥這樣的蔬菜時，你執(zhí)行就是一個Map操作。 Map操作適用于每一種蔬菜，它會相應(yīng)地生產(chǎn)出一種或多種碎塊，在我們的例子中生產(chǎn)的是蔬菜塊。在Map操作中可能會出現(xiàn)有個洋蔥壞掉了的情況，你只要把壞洋蔥丟了就行了。所以，如果出現(xiàn)壞洋蔥了，Map操作就會過濾掉壞洋蔥而不會生產(chǎn)出任何的壞洋蔥塊。Reduce（化簡）這一階段，你將各種蔬菜碎都放入研磨機(jī)里進(jìn)行研磨，你就可以得到一瓶辣椒醬了。這意味要制成一瓶辣椒醬，你需要研磨所有的原料。因此，研磨機(jī)通常將map操作的蔬菜碎聚集在了一起。

妻子：所以，這就是MapReduce?
我：你可以說是，也可以說不是。其實這只是MapReduce的一部分，MapReduce的強(qiáng)大在于分布式計算。
妻子：分布式計算？那是什么？請給我解釋下吧。
我：假設(shè)你參加了一個辣椒醬比賽并且你的食譜贏得了最佳辣椒醬獎。得獎之后，辣椒醬食譜大受歡迎，于是你想要開始出售自制品牌的辣椒醬。假設(shè)你每天需要生產(chǎn)10000瓶辣椒醬，你會怎么辦呢？
妻子：我會找一個能為我大量提供原料的供應(yīng)商。
我：是的，就是那樣的。那你能否獨自完成制作呢？也就是說，獨自將原料都切碎？僅僅一部研磨機(jī)又是否能滿足需要？而且現(xiàn)在，我們還需要供應(yīng)不同種類的辣椒醬，像洋蔥辣椒醬、青椒辣椒醬、番茄辣椒醬等等。
妻子：當(dāng)然不能了，我會雇傭更多的工人來切蔬菜。我還需要更多的研磨機(jī)，這樣我就可以更快地生產(chǎn)辣椒醬了。
我：沒錯，所以現(xiàn)在你就不得不分配工作了，你將需要幾個人一起切蔬菜。每個人都要處理滿滿一袋的蔬菜，而每一個人都相當(dāng)于在執(zhí)行一個簡單的Map操作。每一個人都將不斷地從袋子里拿出蔬菜來，并且每次只對一種蔬菜進(jìn)行處理，也就是將它們切碎，直到袋子空了為止。這樣，當(dāng)所有的工人都切完，工作臺上就有了洋蔥塊、番茄塊、和蒜蓉等等。
妻子：但是我怎么會制造出不同種類的番茄醬呢？
我：現(xiàn)在你會看到MapReduce遺漏的階段——攪拌。MapReduce將所有輸出的蔬菜碎都攪拌在了一起，這些蔬菜碎都是在以key為基礎(chǔ)的map操作下產(chǎn)生的。攪拌將自動完成，你可以假設(shè)key是一種原料的名字，就像洋蔥一樣。所以全部的洋蔥keys都會攪拌在一起，并轉(zhuǎn)移到研磨洋蔥的研磨器里。這樣，你就能得到洋蔥辣椒醬了。同樣地，所有的番茄也會被轉(zhuǎn)移到標(biāo)記著番茄的研磨器里，并制造出番茄辣椒醬。

（4）上面都是從理論上來說明什么是MapReduce，那么咱們在MapReduce產(chǎn)生的過程和代碼的角度來理解這個問題。
如果想統(tǒng)計下過去10年計算機(jī)論文出現(xiàn)最多的幾個單詞，看看大家都在研究些什么，那收集好論文后，該怎么辦呢？?

方法一：可以寫一個小程序，把所有論文按順序遍歷一遍，統(tǒng)計每一個遇到的單詞的出現(xiàn)次數(shù)，最后就可以知道哪幾個單詞最熱門了。這種方法在數(shù)據(jù)集比較小時，是非常有效的，而且實現(xiàn)最簡單，用來解決這個問題很合適。?

方法二：寫一個多線程程序，并發(fā)遍歷論文。這個問題理論上是可以高度并發(fā)的，因為統(tǒng)計一個文件時不會影響統(tǒng)計另一個文件。當(dāng)我們的機(jī)器是多核或者多處理器，方法二肯定比方法一高效。但是寫一個多線程程序要比方法一困難多了，我們必須自己同步共享數(shù)據(jù)，比如要防止兩個線程重復(fù)統(tǒng)計文件。?

方法三：把作業(yè)交給多個計算機(jī)去完成。我們可以使用方法一的程序，部署到N臺機(jī)器上去，然后把論文集分成N份，一臺機(jī)器跑一個作業(yè)。這個方法跑得足夠快，但是部署起來很麻煩，我們要人工把程序copy到別的機(jī)器，要人工把論文集分開，最痛苦的是還要把N個運行結(jié)果進(jìn)行整合（當(dāng)然我們也可以再寫一個程序）。?

方法四：讓MapReduce來幫幫我們吧！MapReduce本質(zhì)上就是方法三，但是如何拆分文件集，如何copy程序，如何整合結(jié)果這些都是框架定義好的。我們只要定義好這個任務(wù)（用戶程序），其它都交給MapReduce。

map函數(shù)和reduce函數(shù)：map函數(shù)和reduce函數(shù)是交給用戶實現(xiàn)的，這兩個函數(shù)定義了任務(wù)本身。

map函數(shù)：接受一個鍵值對（key-value pair），產(chǎn)生一組中間鍵值對。MapReduce框架會將map函數(shù)產(chǎn)生的中間鍵值對里鍵相同的值傳遞給一個reduce函數(shù)。?

reduce函數(shù)：接受一個鍵key，以及相關(guān)的一組值（value list），將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值（通常只有一個或零個值）。?

統(tǒng)計詞頻的MapReduce函數(shù)的核心代碼非常簡短，主要就是實現(xiàn)這兩個函數(shù)。

map(String key, String value):
// key: document name
// value: document contents 
for each word w in value: 
EmitIntermediate(w, "1");

reduce(String key, Iterator values): 
// key: a word 
// values: a list of counts 
int result = 0; 
for each v in values:
result += ParseInt(v); 
Emit(AsString(result));

　　在統(tǒng)計詞頻的例子里，map函數(shù)接受的鍵（key）是文件名，值（value）是文件的內(nèi)容，map逐個遍歷單詞，每遇到一個單詞word就產(chǎn)生一個中間鍵值對<w, "1">（表示單詞w咱又找到了一個）；MapReduce將鍵相同（都是單詞w）的鍵值對傳給reduce函數(shù)，這樣reduce函數(shù)接受的鍵就是單詞w，值是一串"1"（最基本的實現(xiàn)是這樣，但可以優(yōu)化），個數(shù)等于鍵為w的鍵值對的個數(shù)，然后將這些“1”累加就得到單詞w的出現(xiàn)次數(shù)。最后這些單詞的出現(xiàn)次數(shù)會被寫到用戶定義的位置，存儲在底層的分布式存儲系統(tǒng)（GFS或HDFS）。?

【MapReduce工作原理】

上圖是論文里給出的MapReduce流程圖。一切都是從最上方的user program開始的，user program鏈接了MapReduce庫，實現(xiàn)了最基本的Map函數(shù)和Reduce函數(shù)。圖中執(zhí)行的順序都用數(shù)字標(biāo)記了。

（1）MapReduce庫先把user program的輸入文件劃分為M份（M為用戶定義），每一份通常有16MB到64MB，如圖左方所示分成了split0~split4；然后使用fork將用戶進(jìn)程拷貝到集群內(nèi)其它機(jī)器上。

（2）user program的副本中有一個稱為master，其余稱為worker，master是負(fù)責(zé)調(diào)度的，為空閑worker分配作業(yè)（Map作業(yè)或者Reduce作業(yè)），worker的數(shù)量也是可以由用戶指定的。?

（3）被分配了Map作業(yè)的worker，開始讀取對應(yīng)分片的輸入數(shù)據(jù)，Map作業(yè)數(shù)量是由M決定的，和split一一對應(yīng)；Map作業(yè)從輸入數(shù)據(jù)中抽取出鍵值對，每一個鍵值對都作為參數(shù)傳遞給map函數(shù)，map函數(shù)產(chǎn)生的中間鍵值對被緩存在內(nèi)存中（環(huán)形緩沖區(qū)kvBuffer）。

（4）緩存的中間鍵值對會被定期寫入本地磁盤（spill），而且被分為R個區(qū)，R的大小是由用戶定義的，將來每個區(qū)會對應(yīng)一個Reduce作業(yè)；這些中間鍵值對的位置會被通報給master，master負(fù)責(zé)將信息轉(zhuǎn)發(fā)給Reduce worker。?

（5）master通知分配了Reduce作業(yè)的worker它負(fù)責(zé)的分區(qū)在什么位置（肯定不止一個地方，每個Map作業(yè)產(chǎn)生的中間鍵值對都可能映射到所有R個不同分區(qū)），當(dāng)Reduce worker把所有它負(fù)責(zé)的中間鍵值對都讀過來后，先對它們進(jìn)行排序，使得相同鍵的鍵值對聚集在一起。因為不同的鍵可能會映射到同一個分區(qū)也就是同一個Reduce作業(yè)，所以排序是必須的。?

（6）reduce worker遍歷排序后的中間鍵值對，對于每個唯一的鍵，都將鍵與關(guān)聯(lián)的值傳遞給reduce函數(shù)，reduce函數(shù)產(chǎn)生的輸出會添加到這個分區(qū)的輸出文件中。

（7）當(dāng)所有的Map和Reduce作業(yè)都完成了，master喚醒正版的user program，MapReduce函數(shù)調(diào)用返回user program的代碼。?

所有執(zhí)行完畢后，MapReduce輸出放在了R個分區(qū)的輸出文件中（分別對應(yīng)一個Reduce作業(yè)）。用戶通常并不需要合并這R個文件，而是將其作為輸入交給另一個MapReduce程序處理。整個過程中，輸入數(shù)據(jù)來自底層分布式文件系統(tǒng)（hdfs），中間數(shù)據(jù)是放在本地文件系統(tǒng)的，最終輸出數(shù)據(jù)是寫入hdfs的。注意Map/Reduce作業(yè)和map/reduce函數(shù)的區(qū)別：Map作業(yè)處理一個輸入數(shù)據(jù)的分片，可能需要調(diào)用多次map函數(shù)來處理每個輸入鍵值對；Reduce作業(yè)處理一個分區(qū)的中間鍵值對，期間要對每個不同的鍵調(diào)用一次reduce函數(shù)，Reduce作業(yè)最終也對應(yīng)一個輸出文件。

【總結(jié)】

通過以上你是否了解什么是MapReduce了，什么是key，怎么過濾有效數(shù)據(jù)，怎么得到自己想要的數(shù)據(jù)。

MapReduce是一種編程思想，可以使用java來實現(xiàn)，C++來實現(xiàn)。Map的作用是過濾一些原始數(shù)據(jù)，Reduce則是處理這些數(shù)據(jù)，得到我們想要的結(jié)果（比如造出番茄辣椒醬）。也就是我們使用hadoop，比如進(jìn)行日志處理之后，得到我們關(guān)心的數(shù)據(jù)。

總結(jié)

以上是生活随笔為你收集整理的mapreduce理解_大数据的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： cuda安装教cudnn安装显卡问题
下一篇：数据库 user schema sql

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活经验

mapreduce理解_大数据

總結(jié)