Hadoop大数据——mapreduce中的Combiner/序列化/排序初步
生活随笔
收集整理的這篇文章主要介紹了
Hadoop大数据——mapreduce中的Combiner/序列化/排序初步
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
- mapreduce中的Combiner
(1)combiner是MR程序中Mapper和Reducer之外的一種組件
(2)combiner組件的父類就是Reducer
(3)Combiner和reducer的區(qū)別在于運(yùn)行的位置:
Combiner是在每一個(gè)maptask所在的節(jié)點(diǎn)運(yùn)行
Reducer是接收全局所有Mapper的輸出結(jié)果;
- mapreduce中的序列化
(1)Java的序列化是一個(gè)重量級序列化框架(Serializable),一個(gè)對象被序列化后,會附帶很多額外的信息(各種校驗(yàn)信息,header,繼承體系。。。。),所以很臃腫,不便于在網(wǎng)絡(luò)中高效傳輸;
所以,hadoop自己開發(fā)了一套序列化機(jī)制(Writable),精簡,高效
簡單代碼驗(yàn)證兩種序列化機(jī)制的差別:
- mapreduce的排序初步
MR程序在處理數(shù)據(jù)的過程中會對數(shù)據(jù)排序,排序的依據(jù)是mapper輸出的key
總結(jié)
以上是生活随笔為你收集整理的Hadoop大数据——mapreduce中的Combiner/序列化/排序初步的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hadoop大数据——mapreduce
- 下一篇: Hadoop大数据——mapreduce