Hadoop大数据——MR程序map任务数的规划机制
生活随笔
收集整理的這篇文章主要介紹了
Hadoop大数据——MR程序map任务数的规划机制
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一個inputsplit對應一個map
而inputsplit切片規劃是由InputFormat的具體實現子類來實現,就是調用
InputSplits[ ] getSplits() 方法,這個方法的邏輯可以自定義
在默認情況下,由FileInputFormat來實現,它的核心邏輯:
規劃切片的大小
(2)構造切片信息對象,并放入InputSplits[ ]中
splits.add(makeSplit(path,length-bytesRemaining,splitSize,blkLocations[blkIndex].getHosts()));注:FileInputFormat的切片機制是針對一個一個的文件進行,因此,如果文件太小,則整個文件劃分為一個切片
如果一個大文件被切成若干個切片后,剩下的長度如果在blocksize的1.1倍大小以內,則將剩下的長度全部規劃為一個切片
總結
以上是生活随笔為你收集整理的Hadoop大数据——MR程序map任务数的规划机制的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop大数据——shuffle详解
- 下一篇: Hadoop大数据——mapreduce