第2节 mapreduce深入学习:4, 5
第2節 mapreduce深入學習:4、mapreduce的序列化以及自定義排序
?
序列化(Serialization)是指把結構化對象轉化為字節流。
反序列化(Deserialization)是序列化的逆過程。把字節流轉為結構化對象。 當要在進程間傳遞對象或持久化對象的時候,就需要序列化對象成字節流
反之當要將接收到或從磁盤讀取的字節流轉換為對象,就要進行反序列化。
Java 的序列化(Serializable)是一個重量級序列化框架,一個對象被序列化后,會附帶很多額外的信息(各種校驗信息,header,繼承體系…),不便于在網絡中高效傳輸;所以,hadoop 自己開發了一套序列化機制(Writable),精簡,高效。不用像 java 對象類一樣傳輸多層的父子關系,需要哪個屬性就傳輸哪個屬性值,大大的減少網絡傳輸的開銷。
Writable是Hadoop的序列化格式,hadoop定義了這樣一個Writable接口。 一個類要支持可序列化只需實現這個接口即可。
另外Writable有一個子接口是WritableComparable,writableComparable是既可實現序列化,也可以對key進行比較,我們這里可以通過自定義key實現WritableComparable來實現我們的排序功能
mapreduce的排序以及序列化:要求第一列按照字典順序進行排列,第一列相同的時候,第二列按照升序進行排列
a 1
a 9
b 3
a 7
b 8
b 10
a 5
a 9
最終排序結果
a 1
a 5
a 7
a 9
a 9
b 3
b 8
b 10
在mapreduce當中默認是對key2 記住,要對誰排序,就得要把誰封裝成k2
需要對兩個字段進行排序
兩個字段進行比較,可不可以封裝成一個對象,對象里面兩個字段,對象實現writableComparable接口,就可以實現序列化,也可以實現排序了.
詳見代碼
轉載于:https://www.cnblogs.com/mediocreWorld/p/11021987.html
總結
以上是生活随笔為你收集整理的第2节 mapreduce深入学习:4, 5的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java基础(七)--Exception
- 下一篇: flutter中的路由跳转