日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

MapReduce中的InputFormat(1)概述

發布時間:2023/12/9 编程问答 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 MapReduce中的InputFormat(1)概述 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1 概念
InputFormat用于描述輸入數據的格式,提供以下兩個功能:
A、數據切分:按照某種策略將輸入的數據切分成若干split,以便確定Map Task個數,以及對應的Split。
B、提供數據:為Mapper提供輸入數據,對于給定split,能將其解析為<k,v>格式。即<K1,V1>


2 新老版本

老版本:package org.apache.hadoop.mapred

public interface InputFormat<K, V> {InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;RecordReader<K, V> getRecordReader(InputSplit split,JobConf job, Reporter reporter) throws IOException; }新版本:package org.apache.hadoop.mapreduce

public abstract class InputFormat<K, V> {public abstract List<InputSplit> getSplits(JobContext context) throws IOException, InterruptedException; public abstract RecordReader<K,V> createRecordReader(InputSplit split,TaskAttemptContext context) throws IOException,InterruptedException; }
3 解析
3.1 設計思想
所有基于文件的InputFormat的實現基類都是FileInputFormat。
針對文本格式:TextInputFormat、KeyValueTextInputFormat、NLineInputFormat
針對二進制格式:SequenceFileInputFormat


基于文件的FileInputFormat的設計思想是:

A 由公共基類FileInputFormat采用統一的方法,對文件進行切分成InputSplit(如按照統一的大小)。getSplit方法
B 由各個派生類根據自己的需求,解析InputSplit。即各個子類實現的createRecordReader方法


3.2 getSplits

主要完成數據切分的功能,它會嘗試著將輸入數據切分為numSplit個inputSplit。有以下兩個特點:
A、邏輯分片:inputSplit只記錄分片的元信息。
B、可序列化:為了進程間通信。
在Hadoop1.X在JobClient的中writeNewSplits方法使用了getSplits。

// 通過反射獲得設置的inputFormat.class的inputFormat對象 InputFormat<?, ?> input = ReflectionUtils.newInstance(job.getInputFormatClass(), conf); // 獲取邏輯分片信息 List<InputSplit> splits = input.getSplits(job);
3.3 getRecordReader
該方法返回一個RecordReader對象,它實現了類似迭代器的功能,將某個split解析為一個個<k,v>對。該類需要考慮以下兩點:
A、定位邊界記錄:為了識別一條完整的記錄,記錄之間要加上一些同步標志。
對于TextInputFormat:同步標識就是換行符。
對于SequenceFileInputFormat:每隔離若干條記錄,會添加固定長度同步字符串。
B、解析<k,v>:定位到一條記錄后,需要將該記錄分解為key和value兩部分。
對于TextInputFormat:key就是該行在文件的中的偏移量,value就是該行的內容。
對于SequenceFileInputFormat: 每條記錄的格式為[record length] [key length] [key] [value]。
前兩個字段分別是整條記錄的長度和key的長度,均為4個字節,后半部分分別是key和value的內容。知道每條記錄的格式后,很容易解析。

整理自董西成老師的《Hadoop技術內幕》,并閱讀源碼小有體會。


總結

以上是生活随笔為你收集整理的MapReduce中的InputFormat(1)概述的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。