日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

InputFormat和OutPutFormat

發(fā)布時間:2023/12/18 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 InputFormat和OutPutFormat 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

InputFormat主要用于對輸入數(shù)據(jù)的描述。提供了兩個功能。

1,數(shù)據(jù)的切片。InputFormat按照某個策略,將輸入數(shù)據(jù)切分為若干個split,Map任務(wù)的個數(shù)和split的個數(shù)相對應(yīng)。

Inputformat中對應(yīng)getSplits的方法,完成數(shù)據(jù)切分的功能。歸于inputsplit有兩個特點。

A,邏輯分片。Inputsplit只是在邏輯上對輸入的數(shù)據(jù)進(jìn)行分片,并不會在磁盤上將其切分,inputspli只是記錄了分片的元數(shù)據(jù)信息,比如說起始位置,長度和節(jié)點的列表等。

B,可序列化。Inputsplit序列化以方便進(jìn)程間通信。作業(yè)提交的時候,inputsplit會序列化到文件中,在map任務(wù)啟動前,初始化的時候可以直接讀取文件。

inputformat的FileInputFormat中inputsplit的切分過程。

FileInputFormat的切分主要包括兩個方面,一是文件的切分。二是host的選擇。

文件的切分,主要是要確認(rèn)每一個切片的大小splitSize,切片的數(shù)量為文件的大小/splitSize。hadoop中切片的大小是如下確認(rèn)的:

splitSize=max{minSize,min{maxSize,BlockSize}};

其中minSize和maxSize可以進(jìn)行配置,BlockSize是hdfs中每個block的大小。

host選擇算法直接印象運行過程中任務(wù)的本地性。hadoop對本地性劃分為3個等級,node,rack,datacenter。host在選擇的時候是選擇包含該inputsplit數(shù)據(jù)總量最大的前幾個節(jié)點

2,位Mapper提供輸入數(shù)據(jù)。通過某個給定的split,能夠?qū)⑵浣馕龀梢粋€個的key/value對。inputformat中另外一個方法是getRecordReader;通過傳入inputsplit,返回recordReader對象。Map任務(wù)執(zhí)行過程中,就是通過不斷的調(diào)用RecordReader的方法迭代獲取key/value.

順便說一下outputformat。

outputformat中主要包括兩個方法1,getRecoreWrite。2,checkOutputSpecs。

checkOutputSpecs主要檢查輸出目錄是否合法,一般在作業(yè)提交之前會被調(diào)用,如果目錄已經(jīng)存在就會拋出異常,放置文件被覆蓋。

fileOutPutFormat的實現(xiàn)中為了放置推測式的任務(wù)產(chǎn)生沖突,會為每個task任務(wù)數(shù)據(jù)創(chuàng)建side-effect,將產(chǎn)生的數(shù)據(jù)臨時寫入該文件,等task完成后在移動到最終輸出任務(wù)。

轉(zhuǎn)載于:https://www.cnblogs.com/yimixiong/p/7348254.html

總結(jié)

以上是生活随笔為你收集整理的InputFormat和OutPutFormat的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。