InputFormat和OutPutFormat
InputFormat主要用于對輸入數(shù)據(jù)的描述。提供了兩個功能。
1,數(shù)據(jù)的切片。InputFormat按照某個策略,將輸入數(shù)據(jù)切分為若干個split,Map任務(wù)的個數(shù)和split的個數(shù)相對應(yīng)。
Inputformat中對應(yīng)getSplits的方法,完成數(shù)據(jù)切分的功能。歸于inputsplit有兩個特點。
A,邏輯分片。Inputsplit只是在邏輯上對輸入的數(shù)據(jù)進(jìn)行分片,并不會在磁盤上將其切分,inputspli只是記錄了分片的元數(shù)據(jù)信息,比如說起始位置,長度和節(jié)點的列表等。
B,可序列化。Inputsplit序列化以方便進(jìn)程間通信。作業(yè)提交的時候,inputsplit會序列化到文件中,在map任務(wù)啟動前,初始化的時候可以直接讀取文件。
inputformat的FileInputFormat中inputsplit的切分過程。
FileInputFormat的切分主要包括兩個方面,一是文件的切分。二是host的選擇。
文件的切分,主要是要確認(rèn)每一個切片的大小splitSize,切片的數(shù)量為文件的大小/splitSize。hadoop中切片的大小是如下確認(rèn)的:
splitSize=max{minSize,min{maxSize,BlockSize}};
其中minSize和maxSize可以進(jìn)行配置,BlockSize是hdfs中每個block的大小。
host選擇算法直接印象運行過程中任務(wù)的本地性。hadoop對本地性劃分為3個等級,node,rack,datacenter。host在選擇的時候是選擇包含該inputsplit數(shù)據(jù)總量最大的前幾個節(jié)點
2,位Mapper提供輸入數(shù)據(jù)。通過某個給定的split,能夠?qū)⑵浣馕龀梢粋€個的key/value對。inputformat中另外一個方法是getRecordReader;通過傳入inputsplit,返回recordReader對象。Map任務(wù)執(zhí)行過程中,就是通過不斷的調(diào)用RecordReader的方法迭代獲取key/value.
順便說一下outputformat。
outputformat中主要包括兩個方法1,getRecoreWrite。2,checkOutputSpecs。
checkOutputSpecs主要檢查輸出目錄是否合法,一般在作業(yè)提交之前會被調(diào)用,如果目錄已經(jīng)存在就會拋出異常,放置文件被覆蓋。
fileOutPutFormat的實現(xiàn)中為了放置推測式的任務(wù)產(chǎn)生沖突,會為每個task任務(wù)數(shù)據(jù)創(chuàng)建side-effect,將產(chǎn)生的數(shù)據(jù)臨時寫入該文件,等task完成后在移動到最終輸出任務(wù)。
轉(zhuǎn)載于:https://www.cnblogs.com/yimixiong/p/7348254.html
總結(jié)
以上是生活随笔為你收集整理的InputFormat和OutPutFormat的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 表单验证的初步实现和省市级联
- 下一篇: 利用selenium webdriver