日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

MapReduce运行原理和过程

發布時間:2025/7/14 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 MapReduce运行原理和过程 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一.Map的原理和運行流程

?

Map的輸入數據源是多種多樣的,我們使用hdfs作為數據源。文件在hdfs上是以block(塊,Hdfs上的存儲單元)為單位進行存儲的。

?

?

1.分片

?

我們將這一個個block劃分成數據分片,即Split(分片,邏輯劃分,不包含具體數據,只包含這些數據的位置信息),那么上圖中的第一個Split則對應兩個個文件塊,第二個Split對應一個塊。需要注意的是一個Split只會包含一個File的block,不會跨文件。

?2.?數據讀取和處理

當我們把數據塊分好的時候,MapReduce(以下簡稱mr)程序將這些分片以key-value的形式讀取出來,并且將這些數據交給用戶自定義的Map函數處理。

?

3.

?

用戶處理完這些數據后同樣以key-value的形式將這些數據寫出來交給mr計算框架。mr框架會對這些數據進行劃分,此處用進行表示。不同顏色的partition矩形塊表示為不同的partition,同一種顏色的partition最后會分配到同一個reduce節點上進行處理。

Map是如何將這些數據進行劃分的?

默認使用Hash算法對key值進行Hash,這樣既能保證同一個key值的數據劃分到同一個partition中,又能保證不同partition的數據梁是大致相當的。

?

總結

1.一個map指揮處理一個Split????

2.map處理完的數據會分成不同的partition

3.一類partition對應一個reduce

那么一個mr程序中 map的數量是由split的數量決定的,reduce的數量是由partiton的數量決定的。

?

二.Shuffle

Shuffle,翻譯成中文是混洗。mr沒有排序是沒有靈魂的,shuffle是mr中非常重要的一個過程。他在Map執行完,Reduce執行前發生。

?

?

Map階段的shuffle

數據經過用戶自定的map函數處理完成之后,數據會放入內存中的環形緩沖區之內,,他分為兩個部分,數據區和索引區。數據區是存放用戶真實的數據,索引區存放數據對應的key值,partition和位置信息。當環形緩沖區數據達到一定的比例后,會將數據溢寫到一個文件之中,即途中的spill(溢寫)過程。

在溢寫前,會將數據根據key和partition進行排序,排好序之后會將數據區的數據按照順序一個個寫入文件之中。這樣就能保證文件中數據是按照key和parttition進行排序的。最后會將溢寫出的一個個小文件合并成一個大的文件,并且保證在每一個partition

中是按照Key值有序的。

總結:

  • ?Collect階段將數據放進環形緩沖區,緩沖區分為數據區和索引區。
  • Sort階段對在同一partition內的索引按照key排序。
  • Spill階段跟胡排好序的索引將數據按照順序寫到文件中。
  • Merge階段將Spill生成的小文件分批合并排序成一個大文件。
  • Reduce階段的shuffle

    reduce節點會將數據拷貝到自己的buffer緩存區中,當緩存區中的數據達到一定的比例的時候,同樣會發生溢寫過程,我們任然要保證每一個溢寫的文件是有序的。與此同時,后臺會啟一個線程,將這些小文件合并成一個大文件,經過一輪又一輪的合并,最后將這些文件合并成一個大的數據集。在這個數據集中,數據是有序的,相同的key值對應的value值是挨在一起的。最后,將這些數據交給reduce程序進行聚合處理。

    總結:

  • 1.????? Copy階段將Map端的數據分批拷貝到Reduce的緩沖區。
  • 2.????? Spill階段將內存緩存區的數據按順序寫到文件中。
  • 3.????? Merge階段將溢出的文件合并成一個排序的數據集。
  • ?

    ?

    三.Reduce運行過程

    ?

    ?

    在map處理完之后,reduce節點會將各個map節點上屬于自己的數據拷貝到內存緩沖區中,最后將數據合并成一個大的數據集,并且按照key值進行聚合,把聚合后的value值作為iterable(迭代器)交給用戶使用,這些數據經過用戶自定義的reduce函數進行處理之后,同樣會以key-value的形式輸出出來,默認輸出到hdfs上的文件。

    四.Combine優化

    我們說mr程序最終是要將數據按照key值進行聚合,對value值進行計算,那么我們是不是可以提前對聚合好的value值進行計算?of course,我們將這個過程稱為Combine。哪些場景可以進行conbine優化。如下。

    Map端:

    1. 在數據排序后,溢寫到磁盤前,運行combiner。這個時候相同Key值的value值是挨在一起的,可以對這些value值進行一次聚合計算,比如說累加。

    2. 溢寫出的小文件合并之前,我們也可以執行一次combiner,需要注意的是mr程序默認至少存在三個文件才進行combiner,否則mr會認為這個操作是不值得的。當然這個值可以通過min.num.spills.for.combine設置。

    Reduce端:

  • 和map端一樣,在合并溢出文件輸出到磁盤之前,運行combiner。
  • ?

    寫在最后

    送上整個MR過程圖

    ?

    ?

    轉載于:https://www.cnblogs.com/zmanzi/p/10836462.html

    《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

    總結

    以上是生活随笔為你收集整理的MapReduce运行原理和过程的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。