Hadoop大数据——shuffle详解
生活随笔
收集整理的這篇文章主要介紹了
Hadoop大数据——shuffle详解
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Shuffle緩存流程:
----shuffle是MR處理流程中的一個過程,它的每一個處理步驟是分散在各個map task和reduce task節點上完成的,整體來看,分為3個操作:
1、分區partition
2、Sort根據key排序
3、Combiner進行局部value的合并
整個shuffle的大流程如下:
- map task輸出結果到一個內存緩存,并溢出為磁盤文件
- combiner調用
- 分區/排序
- reduce task 拉取map輸出文件中對應的分區數據
- reduce端歸并排序
產生聚合values迭代器來傳遞給reduce方法,并把這組聚合kv(聚合的依據是GroupingComparator)中排序最前的kv的key傳給reduce方法的入參 key
總結
以上是生活随笔為你收集整理的Hadoop大数据——shuffle详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop大数据——mapreduce
- 下一篇: Hadoop大数据——MR程序map任务