MapReduce中的InputFormat(1)概述
生活随笔
收集整理的這篇文章主要介紹了
MapReduce中的InputFormat(1)概述
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
1 概念
InputFormat用于描述輸入數(shù)據(jù)的格式,提供以下兩個(gè)功能:
A、數(shù)據(jù)切分:按照某種策略將輸入的數(shù)據(jù)切分成若干split,以便確定Map Task個(gè)數(shù),以及對(duì)應(yīng)的Split。
B、提供數(shù)據(jù):為Mapper提供輸入數(shù)據(jù),對(duì)于給定split,能將其解析為<k,v>格式。即<K1,V1>。
public abstract class InputFormat<K, V> {public abstract List<InputSplit> getSplits(JobContext context) throws IOException, InterruptedException; public abstract RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context) throws IOException,InterruptedException; }
3 解析
3.1 設(shè)計(jì)思想
所有基于文件的InputFormat的實(shí)現(xiàn)基類都是FileInputFormat。
針對(duì)文本格式:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat
針對(duì)二進(jìn)制格式:SequenceFileInputFormat
B 由各個(gè)派生類根據(jù)自己的需求,解析InputSplit。即各個(gè)子類實(shí)現(xiàn)的createRecordReader方法。
3.3 getRecordReader
該方法返回一個(gè)RecordReader對(duì)象,它實(shí)現(xiàn)了類似迭代器的功能,將某個(gè)split解析為一個(gè)個(gè)<k,v>對(duì)。該類需要考慮以下兩點(diǎn):
A、定位邊界記錄:為了識(shí)別一條完整的記錄,記錄之間要加上一些同步標(biāo)志。
對(duì)于TextInputFormat:同步標(biāo)識(shí)就是換行符。
對(duì)于SequenceFileInputFormat:每隔離若干條記錄,會(huì)添加固定長(zhǎng)度同步字符串。
B、解析<k,v>:定位到一條記錄后,需要將該記錄分解為key和value兩部分。
對(duì)于TextInputFormat:key就是該行在文件的中的偏移量,value就是該行的內(nèi)容。
對(duì)于SequenceFileInputFormat: 每條記錄的格式為[record length] [key length] [key] [value]。
前兩個(gè)字段分別是整條記錄的長(zhǎng)度和key的長(zhǎng)度,均為4個(gè)字節(jié),后半部分分別是key和value的內(nèi)容。知道每條記錄的格式后,很容易解析。
整理自董西成老師的《Hadoop技術(shù)內(nèi)幕》,并閱讀源碼小有體會(huì)。
InputFormat用于描述輸入數(shù)據(jù)的格式,提供以下兩個(gè)功能:
A、數(shù)據(jù)切分:按照某種策略將輸入的數(shù)據(jù)切分成若干split,以便確定Map Task個(gè)數(shù),以及對(duì)應(yīng)的Split。
B、提供數(shù)據(jù):為Mapper提供輸入數(shù)據(jù),對(duì)于給定split,能將其解析為<k,v>格式。即<K1,V1>。
2 新老版本
老版本:package org.apache.hadoop.mapred
public abstract class InputFormat<K, V> {public abstract List<InputSplit> getSplits(JobContext context) throws IOException, InterruptedException; public abstract RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context) throws IOException,InterruptedException; }
3 解析
3.1 設(shè)計(jì)思想
所有基于文件的InputFormat的實(shí)現(xiàn)基類都是FileInputFormat。
針對(duì)文本格式:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat
針對(duì)二進(jìn)制格式:SequenceFileInputFormat
基于文件的FileInputFormat的設(shè)計(jì)思想是:
A 由公共基類FileInputFormat采用統(tǒng)一的方法,對(duì)文件進(jìn)行切分成InputSplit(如按照統(tǒng)一的大小)。getSplit方法。B 由各個(gè)派生類根據(jù)自己的需求,解析InputSplit。即各個(gè)子類實(shí)現(xiàn)的createRecordReader方法。
3.2 getSplits
主要完成數(shù)據(jù)切分的功能,它會(huì)嘗試著將輸入數(shù)據(jù)切分為numSplit個(gè)inputSplit。有以下兩個(gè)特點(diǎn):
A、邏輯分片:inputSplit只記錄分片的元信息。
B、可序列化:為了進(jìn)程間通信。
在Hadoop1.X在JobClient的中writeNewSplits方法使用了getSplits。
3.3 getRecordReader
該方法返回一個(gè)RecordReader對(duì)象,它實(shí)現(xiàn)了類似迭代器的功能,將某個(gè)split解析為一個(gè)個(gè)<k,v>對(duì)。該類需要考慮以下兩點(diǎn):
A、定位邊界記錄:為了識(shí)別一條完整的記錄,記錄之間要加上一些同步標(biāo)志。
對(duì)于TextInputFormat:同步標(biāo)識(shí)就是換行符。
對(duì)于SequenceFileInputFormat:每隔離若干條記錄,會(huì)添加固定長(zhǎng)度同步字符串。
B、解析<k,v>:定位到一條記錄后,需要將該記錄分解為key和value兩部分。
對(duì)于TextInputFormat:key就是該行在文件的中的偏移量,value就是該行的內(nèi)容。
對(duì)于SequenceFileInputFormat: 每條記錄的格式為[record length] [key length] [key] [value]。
前兩個(gè)字段分別是整條記錄的長(zhǎng)度和key的長(zhǎng)度,均為4個(gè)字節(jié),后半部分分別是key和value的內(nèi)容。知道每條記錄的格式后,很容易解析。
整理自董西成老師的《Hadoop技術(shù)內(nèi)幕》,并閱讀源碼小有體會(huì)。
總結(jié)
以上是生活随笔為你收集整理的MapReduce中的InputFormat(1)概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在用户态下使用uint64_t
- 下一篇: UE4/UE5 WebBrowser无法