當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

MapReduce中的InputFormat（1）概述

發(fā)布時間：2023/12/9 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 MapReduce中的InputFormat（1）概述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1 概念
InputFormat用于描述輸入數(shù)據(jù)的格式，提供以下兩個功能：
A、數(shù)據(jù)切分：按照某種策略將輸入的數(shù)據(jù)切分成若干split，以便確定Map Task個數(shù)，以及對應(yīng)的Split。
B、提供數(shù)據(jù)：為Mapper提供輸入數(shù)據(jù)，對于給定split，能將其解析為<k,v>格式。即<K1,V1>。

2 新老版本

老版本：package org.apache.hadoop.mapred

public interface InputFormat<K, V> {InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;RecordReader<K, V> getRecordReader(InputSplit split,JobConf job, Reporter reporter) throws IOException; }新版本：package org.apache.hadoop.mapreduce

public abstract class InputFormat<K, V> {public abstract List<InputSplit> getSplits(JobContext context) throws IOException, InterruptedException; public abstract RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context) throws IOException,InterruptedException; }
3 解析
3.1 設(shè)計思想
所有基于文件的InputFormat的實現(xiàn)基類都是FileInputFormat。
針對文本格式：TextInputFormat、KeyValueTextInputFormat、NLineInputFormat
針對二進制格式：SequenceFileInputFormat

基于文件的FileInputFormat的設(shè)計思想是：

A 由公共基類FileInputFormat采用統(tǒng)一的方法，對文件進行切分成InputSplit（如按照統(tǒng)一的大小）。getSplit方法。
B 由各個派生類根據(jù)自己的需求，解析InputSplit。即各個子類實現(xiàn)的createRecordReader方法。

3.2 getSplits

主要完成數(shù)據(jù)切分的功能，它會嘗試著將輸入數(shù)據(jù)切分為numSplit個inputSplit。有以下兩個特點：
A、邏輯分片：inputSplit只記錄分片的元信息。
B、可序列化：為了進程間通信。
在Hadoop1.X在JobClient的中writeNewSplits方法使用了getSplits。

// 通過反射獲得設(shè)置的inputFormat.class的inputFormat對象 InputFormat<?, ?> input = ReflectionUtils.newInstance(job.getInputFormatClass(), conf); // 獲取邏輯分片信息 List<InputSplit> splits = input.getSplits(job);
3.3 getRecordReader
該方法返回一個RecordReader對象，它實現(xiàn)了類似迭代器的功能，將某個split解析為一個個<k,v>對。該類需要考慮以下兩點：
A、定位邊界記錄：為了識別一條完整的記錄，記錄之間要加上一些同步標志。
對于TextInputFormat：同步標識就是換行符。
對于SequenceFileInputFormat：每隔離若干條記錄，會添加固定長度同步字符串。
B、解析<k,v>：定位到一條記錄后，需要將該記錄分解為key和value兩部分。
對于TextInputFormat：key就是該行在文件的中的偏移量，value就是該行的內(nèi)容。
對于SequenceFileInputFormat：每條記錄的格式為[record length] [key length] [key] [value]。
前兩個字段分別是整條記錄的長度和key的長度，均為4個字節(jié)，后半部分分別是key和value的內(nèi)容。知道每條記錄的格式后，很容易解析。

整理自董西成老師的《Hadoop技術(shù)內(nèi)幕》，并閱讀源碼小有體會。

總結(jié)

以上是生活随笔為你收集整理的MapReduce中的InputFormat（1）概述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：在用户态下使用uint64_t
下一篇： UE4/UE5 WebBrowser无法

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

MapReduce中的InputFormat（1）概述

總結(jié)