Hadoop大数据——mapreduce中的Combiner/序列化/排序初步
生活随笔
收集整理的這篇文章主要介紹了
Hadoop大数据——mapreduce中的Combiner/序列化/排序初步
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
- mapreduce中的Combiner
(1)combiner是MR程序中Mapper和Reducer之外的一種組件
(2)combiner組件的父類就是Reducer
(3)Combiner和reducer的區別在于運行的位置:
Combiner是在每一個maptask所在的節點運行
Reducer是接收全局所有Mapper的輸出結果;
- mapreduce中的序列化
(1)Java的序列化是一個重量級序列化框架(Serializable),一個對象被序列化后,會附帶很多額外的信息(各種校驗信息,header,繼承體系。。。。),所以很臃腫,不便于在網絡中高效傳輸;
所以,hadoop自己開發了一套序列化機制(Writable),精簡,高效
簡單代碼驗證兩種序列化機制的差別:
- mapreduce的排序初步
MR程序在處理數據的過程中會對數據排序,排序的依據是mapper輸出的key
總結
以上是生活随笔為你收集整理的Hadoop大数据——mapreduce中的Combiner/序列化/排序初步的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hadoop大数据——mapreduce
- 下一篇: Hadoop大数据——mapreduce