當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop之Join、计数器、数据清洗概述

發(fā)布時(shí)間：2024/2/28 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop之Join、计数器、数据清洗概述小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Hadoop之Join、計(jì)數(shù)器、數(shù)據(jù)清洗概述

Hadoop為每個(gè)作業(yè)維護(hù)若干內(nèi)置計(jì)數(shù)器，以描述多項(xiàng)指標(biāo)。例如，某些計(jì)數(shù)器記錄已處理的字節(jié)數(shù)和記錄數(shù)，使用戶可監(jiān)控已處理的輸入數(shù)據(jù)量和已產(chǎn)生的輸出數(shù)據(jù)量。

API

采用枚舉的方式統(tǒng)計(jì)計(jì)數(shù)
enum MyCounter{MALFORORMED,NORMAL}
//對(duì)枚舉定義的自定義計(jì)數(shù)器加1
context.getCounter(MyCounter.MALFORORMED).increment(1);

采用計(jì)數(shù)器組、計(jì)數(shù)器名稱的方式統(tǒng)計(jì)
context.getCounter(“counterGroup”, “countera”).increment(1);
組名和計(jì)數(shù)器名稱隨便起，但最好有意義。

計(jì)數(shù)結(jié)果在程序運(yùn)行后的控制臺(tái)上查看。

4. 數(shù)據(jù)清洗（ETL）

概述
在運(yùn)行核心業(yè)務(wù)Mapreduce程序之前，往往要先對(duì)數(shù)據(jù)進(jìn)行清洗，清理掉不符合用戶要求的數(shù)據(jù)。清理的過(guò)程往往只需要運(yùn)行mapper程序，不需要運(yùn)行reduce程序。

總結(jié)

以上是生活随笔為你收集整理的Hadoop之Join、计数器、数据清洗概述的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Hadoop之OutputFormat数
下一篇： Hadoop之Hadoop数据压缩

生活随笔