pentaho DI--- Tutorial (spoon)
Pentaho Data Integration (PDI, also called Kettle),是pentaho的etl工具.雖然etl工具一般都用在數據倉庫環境中,可是,PDI還是可以做以下事情:
1)在數據庫或應用系統間遷移數據.
2)把數據導成為檢系統
3)大數據的批量倒入數據庫。
4)系統整合。
5)數據清洗。
PDI的使用非常簡單,每一步基本上都可以聽過圖形化的工具來完成,而不需要寫代碼。從這個意義上說,PDI是面向元數據的。
PDI既可以作為一個單獨工具使用,也可以作為pentaho的整個軟件包的一部分使用。作為一個單獨的工具,PDI支持各種數據源的輸入和輸出,包括:
文本文件;數據表;各種商業化的數據庫引擎。PDI允許你對數據進行各種精細的控制。
現在,我們通過傳統的“Hello world”的例子,來展示使用PDI是多么的簡單。
1)下載PDI;
2)spoon的簡介:
spoon是一個圖形化的工具,用來設計和測試PDI要使用的過程等。設計測試完畢后,可以在終端窗口運行。
In Spoon, you build Jobs and Transformations. PDI offers two methods to save them:
3)例子
?a)源數據是一個csv文件,內容如下:
??? last_name, name
Suarez,Maria
Guimaraes,Joao
Rush,Jennifer
Ortiz,Camila
Rodriguez,Carmen
da Silva,Zoe
b)經過轉換后,變為xml文件,期望值如下:
- <Rows>
? - <row>
??????? <msg>Hello, Maria!</msg>
??? </row>
? - <row>
??????? <msg>Hello, Joao!</msg>
??? </row>
? - <row>
??????? <msg>Hello, Jennifer!</msg>
??? </row>
? - <row>
??????? <msg>Hello, Camila!</msg>
??? </row>
? - <row>
??????? <msg>Hello, Carmen!</msg>
??? </row>
? - <row>
??????? <msg>Hello, Zoe!</msg>
??? </row>
? </Rows>
下面是具體操作:
?第一步:菜單選擇:文件--〉新建--〉轉換
第二步:設置。對轉換過程進行設置。如上圖。
命名并保存。
使用?Steps and Hops構建轉換的骨架。
? 在轉換里面:step是最小的單元步驟。step的種類非常繁多,基本上,可以歸納成幾類,比如input和output,還有其他歸類。每一個step都認為是
完成一個工作,比如恢復數據集合等。
而hop,是在兩個step之間數據轉換流動的圖示。包含數據的起始和傳遞方向。
我們這次轉換例子,包含三個步驟:
1)讀取csv文件。
2)加入問候語句。
3)存成xml文件。
- To the left of the workspace is the Steps Palette. Select the Input category.
- Drag the CSV file onto the workspace on the right.
- Select the Scripting category.
- Drag the Modified JavaScript Value icon to the workspace.
- Select the Output category.
- Drag the XML Output icon to the workspace.
?
下面,選擇第一個step,按住shift鍵,拖到第二個step上。
同樣操作第二個到第三個。
現在,配置第一個step,雙擊它。可以看到:
這里還有2個步驟:get fields,和preview。
?
?
?
轉載于:https://www.cnblogs.com/aomi/archive/2013/05/16/3082505.html
總結
以上是生活随笔為你收集整理的pentaho DI--- Tutorial (spoon)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android cocos2dx pdf
- 下一篇: 谈谈即时通讯开发平台