日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

11.MapReduce第1部分

發(fā)布時(shí)間:2025/3/21 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 11.MapReduce第1部分 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.


兩個(gè)核心函數(shù)Map、Reduce


MapReduce的體系結(jié)構(gòu)

TaskTracker是以什么方式衡量資源使用情況?在MapReduce設(shè)計(jì)中,TaskTracker是使用一種槽slot的概念: 先劃分:TaskTracker使用slot把機(jī)器上的CPU、內(nèi)存等資源進(jìn)行等量劃分,分成大小相同的slot。 再調(diào)度:將各個(gè)TaskTracker上空閑的slot分配給task(maptask、reducetask)使用 啟動(dòng):TaskTracker啟動(dòng)maptask、reducetask

MapReduce工作流程

1、工作流程概述:

數(shù)據(jù)分塊存儲(chǔ)到不同的HDFS機(jī)器節(jié)點(diǎn)上--->把大數(shù)據(jù)集分片操作split 每一個(gè)小分片單獨(dú)啟動(dòng)一個(gè)map()任務(wù),去負(fù)責(zé)處理該分片map()任務(wù)的輸入<key,value>,輸出list<key,value>,這些輸出的list<key,value>要 “經(jīng)過shuffle處理”,shuffle處理完之后才發(fā)送到不同的reduce()機(jī)器上進(jìn)行后續(xù)的并行處理, reduce()處理后,輸出到HDFS 見下圖所示:

2、MapReduce各個(gè)執(zhí)行階段

先通過InputFormat進(jìn)行加載文件中的數(shù)據(jù)(InputFormat工作:輸入進(jìn)行格式驗(yàn)證;邏輯切分split) RR:記錄閱讀器RecordReader


MapReduce的核心:shuffle過程

【說明】:一個(gè)shuffle過程包括map中的shuffle和reduce中的shufle【過程簡介】:數(shù)據(jù)是保存在分布式文件系統(tǒng)HDFS中的,是從分布式文件系統(tǒng)HDFS中輸入數(shù)據(jù);輸入完之后進(jìn)行分片處理,每個(gè)分片交給map任務(wù),map任務(wù)包含用戶對數(shù)據(jù)的處理邏輯,map處理結(jié)束后生成很多的鍵值對,這些鍵值對不是直接發(fā)送給reduce,也不是直接寫入磁盤, 而是先寫入緩存中去,當(dāng)緩存被寫滿的時(shí)候,發(fā)生溢寫,在混村的數(shù)據(jù)寫入磁盤的過程中會(huì) 發(fā)生(分區(qū)、排序、合并),把(分區(qū)、排序、合并)后的數(shù)據(jù)寫入到磁盤文件中。因此,寫入到磁盤中的數(shù)據(jù)是(分區(qū)、排序、合并之后的)的大文件,生成的該大文件之后會(huì) 通知reduce任務(wù)取走。---------------------------------------------------reduce任務(wù)會(huì)取走屬于自己的對應(yīng)的分區(qū)中的數(shù)據(jù),執(zhí)行歸并,之后再輸入給reduce()函數(shù),reduce()函數(shù)中有用戶寫好的處理數(shù)據(jù)的邏輯,處理完成后進(jìn)行輸出,輸出給 分布式文件系統(tǒng)HDFS 圖示見下:

總結(jié)

以上是生活随笔為你收集整理的11.MapReduce第1部分的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。