kettle使用教程(超详细)
今天詳細詳細說一下kettle?的安裝,安裝的版本:
jdk:jdk-8u152-windows--x64
kettle:KETTLE-5.4
一、環境部署
1、安裝JDK,按默認值安裝即可
2、設置環境變量,如圖下圖
具體步驟:
1.右擊我的電腦-屬性-高級系統設置-環境變量-系統變量-新建
2.變量名:JAVA_HOME
3.變量值: JDK安裝目錄
3、 Kettle程序打開(無需安裝),如下圖:
二、資源庫
1、連接開發方案,選擇資源庫方式,如圖
2、錄入資源庫信息, 如下圖:
數據庫:
主機名稱:
數據庫名稱:
端口號:
賬號:
密碼:
3、選擇并登錄資源庫,如下圖:
賬號:?
密碼:
?三、資源管理
1、文件夾建立
?2、配置數據庫連接(數據源/數據倉庫)
四、方案開發
1、新建轉換,更改轉換名稱,選擇轉換歸屬
2、建立表輸入
步驟:
1在組件組-輸入中找到組件-表輸入
2.選擇數據庫連接(數據源)
3.填寫SQL語句,可預覽結果
3、建立表輸出
步驟:
1、在組件組-輸出中找到組件-表輸出
2.建立表輸入和表輸出的連接
3.選擇數據庫連接(數據倉庫)
4.錄入目標表名,指定數據庫字段
5.獲取字段
6.執行SQL(建表)
4、建立清理SQL
*步驟:
1在組件組-腳本中找到組件-執行SQL腳本
2.選擇數據庫連接(數據倉庫)#此處選擇必須謹慎,避免清理了數據源的數據
3.填寫SQL語句
4.建立與表輸入的關系
5、測試轉換是否能正常工作
6、新建作業,更改作業名稱,選擇作業歸屬
7、添加組件
*步驟:
1在組件組-通用中找到組件-START(作業開始,用于作業調度設置)
2.在組件組-通用中找到組件-轉換(如有多個可以多次添加)
3.通過引用指定轉換文件
4.在組件組-通用中找到組件-成功(作業結束)
5.按執行順序建立組件間的關系
8、作業定時調度及測試,
? ? ? ?? 這樣就算你可以入門了,我相信在不斷的探索中你會有更多的心得的。在此也要提醒一點,KETTLE的性能可能會有不穩定的情況出現,所以注意保存你已經做過的東西。
更新:
很早之前寫的文章,發現大家許多人想要下載安裝包,我就給大家把鏈接順便也找到了
jdk下載地址:
https://www.oracle.com/cn/java/technologies/javase/javase-jdk8-downloads.html
Kettle下載地址:
Pentaho from Hitachi Vantara - Browse /Data Integration at SourceForge.net
以為這就完了,no,再附加個人網盤地址:
kettle下載鏈接:
鏈接:https://pan.baidu.com/s/1tmFK1sdU7DDTT3YzoJVnwQ?
提取碼:76yw?
點擊下方鏈接,輸入上方提取碼即可
鏈接:https://pan.baidu.com/s/1tmFK1sdU7DDTT3YzoJVnwQ?
升級版本:
? ? ? 最近由于需要連接clickhouse數據庫,kettle目前的版本沒有clickhouse驅動,所以沒法連接,需要自定義插件,又重新安裝了kettle的9.2版本嘗試一下,應該是比較新的了所以就把資源也更新一下,希望對你有幫助的小伙伴可以點贊支持。
由于kettle的連接中暫時沒有clickhouse插件,需要自己搞定,先看下官網提示:
Creating Database Plugins - Hitachi Vantara Lumada and Pentaho Documentation
查找相關資料在githubs上找到源碼,連接如下:
GitHub - aaa8210/kettle2clickhouse: kettle connect clickhouse plug
上面是自己查找的一些資料,下面分享安裝包及插件:
kettle的9.2版本:
百度云鏈接如下(包含kettle安裝包、連接mysql驅動和clickhouse插件):
百度網盤 請輸入提取碼
提取碼:4sy0?
鏈接:https://pan.baidu.com/s/1CH5wYQjAxnuvOz-C0koO2w?
提取碼:4sy0?
注:連接clickhouse版本kettle版本需要對應.
1、下載分享資源
2、解壓 kettle 安裝包后將驅動包里的 clickhouse-plugins文件夾復制到 kettle 的 data-integration\plugins文件夾里
看一下clickhouse-plugins 里就是自定義的插件jar包
?
?3、復制驅動中的其余jar包
粘貼到 kettle 的 data-integration\libswt\win64 目錄下(根據自己的系統而定,我的是win64)?
?
4、啟動kettle,選擇新建連接就可以選擇Clickhouse了?目前感覺使用還不錯,雖然kettle自帶調度任務,但是前提是保持kettle打開,并且作業和轉換在運行狀態,這個不太適用與遠程服務器安裝windows客戶端,或者一些學習的同學可以在本地windows設置調度任務也可以,在linux上安裝部署kettle并調度是一個比較合適的方法。
參考如下步驟:
運用crontab執行kettle程序1.建立目錄存放kettle文件 # mkdir /data/kettle/kettle_job // 存放作業文件 # mkdir /data/kettle/kettle_transition // 存放轉換 # mkdir /data/kettle/kettle_sh // 存放執行腳本 # mkdir /data/kettle/kettle_log // 存放執行kettle產生的日志文件 將從windows上配置好的.ktr和.kjb程序分別放在transition目錄和job目錄下 (或linux下編寫后直接保存到該目錄下),注意:job中的轉換對應的目錄需要做相應修改2:編寫執行腳本 # cd /data/kettle/kettle_sh # vi ceshi.sh 文本內容如下: #!/bin/bash #執行job程序 cd /data/kettle/data-integration export JAVA_HOME=/usr/local/jdk1.8.0_201/ export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin./kitchen.sh -file=/data/kettle/kettle_job/testjob.kjb >>/data/kettle/kettle_log/ceshi_$(date +%Y%m%d).log注:(因為crond是個守護進程,它不歸屬于任何用戶,雖然之前以root用戶配置了java環境變量, 但是crond一樣找不到java命令,所以,當crond執行kettle任務時, 需要動態設置java環境變量,否則會出現手動執行.sh沒問題,放crontb里面執行后無效果) 保存ceshi.sh,執行賦予執行權限的命令 # chmod +x ceshi.sh 測試ceshi.sh是否可以正常執行 # sh -x ceshi.sh3:設定crontab 定時執行任務 # crontab -e */1 * * * * /data/kettle/kettle_sh/ceshi.sh //每分鐘執行一次ceshi.sh # systemctl restart crond # systemctl enable crond注意: 在linux中,如果是通過圖形界面執行程序的話,點擊那個綠色的三角即可。 如果是命令行啟動,后臺執行進行進程不能中斷。 因此,在linux中不推薦使用kettle里面的自動執行,使用操作系統的定時執行要穩定的多。 Windows下使用定時任務計劃,linux下使用crontab。/usr/share/java /data/java/jdk1.8.0_141/bin/java這個版本使用還不錯,這樣做完調度在之后就可以了。?
總結
以上是生活随笔為你收集整理的kettle使用教程(超详细)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 编写matlab程序设计状态反馈增益阵,
- 下一篇: 2021数据治理工具图谱研究报告在线下载