KETTLE、spoon使用
ETL是Extract”、“ Transform” 、“Load”三個單詞的首字母縮寫分別代表了抽取、轉(zhuǎn)換、裝載、是數(shù)據(jù)倉庫中重要的一環(huán)、ETL是數(shù)據(jù)的抽取清洗轉(zhuǎn)換加載的過程,是數(shù)據(jù)進入數(shù)據(jù)倉庫進行大數(shù)據(jù)分析的載入過程,抽取將數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來,這是所有工作的前提。轉(zhuǎn)換按照預(yù)先設(shè)計好的規(guī)則將抽取得數(shù)據(jù)進行轉(zhuǎn)換,使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來。裝載將轉(zhuǎn)換完的數(shù)據(jù)按計劃增量或全部導(dǎo)入到數(shù)據(jù)倉庫中。大數(shù)據(jù)的利器大家可能普遍說是hadoop,但是大家要知道如果我們不做預(yù)先的清洗和轉(zhuǎn)換處理,我們進入hadoop后僅通過mapreduce進行數(shù)據(jù)清洗轉(zhuǎn)換再進行分析,垃圾數(shù)據(jù)會導(dǎo)致我們的磁盤占用量會相當(dāng)大,這樣無形中提升了我們的硬件成本(硬盤大,內(nèi)存小處理速度會很慢,內(nèi)存大cpu性能低速度也會受影響),因此雖然hadoop理論上解決了爛機器拼起來解決大問題的問題,但是事實上如果我們有更好的節(jié)點速度必然是會普遍提升的,因此ETL在大數(shù)據(jù)環(huán)境下仍然是必不可少的數(shù)據(jù)交換工具。目前流行的數(shù)據(jù)進入倉庫的過程有兩種形式,一種是進入數(shù)據(jù)庫后再進行清洗和轉(zhuǎn)換,另外一條路線是首先進行清洗轉(zhuǎn)換再進入數(shù)據(jù)庫,我們的ETL屬于后者。ETL是數(shù)據(jù)整合解決方案。目前的運行應(yīng)用系統(tǒng)是用戶花了大部分精力和構(gòu)建的、系統(tǒng)中的數(shù)據(jù)時非常寶貴的、是不可代理的系統(tǒng)、它的存在是為了解決原始數(shù)據(jù)庫中的數(shù)據(jù)來源與格式的不同導(dǎo)致的系統(tǒng)實施、數(shù)據(jù)整合問題。
KETTLE是一款很優(yōu)秀的開源ELT工具、java編寫的、可以在Window、Linux、Unix上運行、KETTLE應(yīng)用廣泛,而且使用方便、抽取高效穩(wěn)定。僅僅學(xué)會使用就可以找到一份不錯的工作、【數(shù)據(jù)層交換和高性能并發(fā)處理】課程***了大數(shù)據(jù)的一些處理方法,與目前流行的hadoop配合使用。分析KETTLE源碼,即使對ETL興趣不大,至少可以了解國外開源項目的一些源碼,并且KETTLE本身也使用了很多開源項目,因此可以從該工具上學(xué)到更多東西。
轉(zhuǎn)載于:https://blog.51cto.com/beifengwang/1328962
總結(jié)
以上是生活随笔為你收集整理的KETTLE、spoon使用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win10系统怎么改奇摩输入法_Yaho
- 下一篇: OD教程(多态和变形)