六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...
生活随笔
收集整理的這篇文章主要介紹了
六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
-
六種 主流ETL 工具的比較(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)
| 適用場景 | 主要用于各類數(shù)據(jù)融合、數(shù)據(jù)交換場景,專為超大數(shù)據(jù)量、高度復(fù)雜的數(shù)據(jù)鏈路設(shè)計的靈活、可擴展的數(shù)據(jù)交換平臺 | 面向數(shù)據(jù)倉庫建模傳統(tǒng)ETL工具 | 主要用于數(shù)據(jù)備份、容災(zāi) | 面向數(shù)據(jù)倉庫建模傳統(tǒng)ETL工具 | 面向數(shù)據(jù)倉庫建模傳統(tǒng)ETL工具 | 面向數(shù)據(jù)倉庫建模傳統(tǒng)ETL工具 |
| 使用方式 | 全流程圖形化界面,應(yīng)用端采用B/S架構(gòu),Cloud Native為云而生,所有操作在瀏覽器內(nèi)就可以完成,不需要額外的開發(fā)和生產(chǎn)發(fā)布 | C/S客戶端模式,開發(fā)和生產(chǎn)環(huán)境需要獨立部署,任務(wù)的編寫、調(diào)試、修改都在本地,需要發(fā)布到生產(chǎn)環(huán)境,線上生產(chǎn)環(huán)境沒有界面,需要通過日志來調(diào)試、debug,效率低,費時費力 | 沒有圖形化的界面,操作皆為命令行方式,可配置能力差 | C/S客戶端模式,開發(fā)和生產(chǎn)環(huán)境需要獨立部署,任務(wù)的編寫、調(diào)試、修改都在本地,需要發(fā)布到生產(chǎn)環(huán)境;學(xué)習(xí)成本較高,一般需要受過專業(yè)培訓(xùn)的工程師才能使用; | C/S客戶端模式,開發(fā)和生產(chǎn)環(huán)境需要獨立部署,任務(wù)的編寫、調(diào)試、修改都在本地,需要發(fā)布到生產(chǎn)環(huán)境; | DataX是以腳本的方式執(zhí)行任務(wù)的,需要完全吃透源碼才可以調(diào)用,學(xué)習(xí)成本高,沒有圖形開發(fā)化界面和監(jiān)控界面,運維成本相對高。 |
| 底層架構(gòu) | 分布式集群高可用架構(gòu),可以水平擴展到多節(jié)點支持超大數(shù)據(jù)量,架構(gòu)容錯性高,可以自動調(diào)節(jié)任務(wù)在節(jié)點之間分配,適用于大數(shù)據(jù)場景 | 主從結(jié)構(gòu)非高可用,擴展性差,架構(gòu)容錯性低,不適用大數(shù)據(jù)場景 | 可做集群部署,規(guī)避單點故障,依賴于外部環(huán)境,如Oracle RAC等; | schema mapping非自動;可復(fù)制性比較差;更新?lián)Q代不是很強 | 支持分布式部署 | 支持單機部署和集群部署兩種方式 |
| CDC機制 | 基于日志、基于時間戳和自增序列等多種方式可選 | 基于時間戳、觸發(fā)器等 | 主要是基于日志 | 基于日志、基于時間戳和自增序列等多種方式可選 | 基于觸發(fā)器、基于時間戳和自增序列等多種方式可選 | 離線批處理 |
| 對數(shù)據(jù)庫的影響 | 基于日志的采集方式對數(shù)據(jù)庫無侵入性 | 對數(shù)據(jù)庫表結(jié)構(gòu)有要求,存在一定侵入性 | 源端數(shù)據(jù)庫需要預(yù)留額外的緩存空間 | 基于日志的采集方式對數(shù)據(jù)庫無侵入性 | 有侵入性 | 通過sql select 采集數(shù)據(jù),對數(shù)據(jù)源沒有侵入性 |
| 自動斷點續(xù)傳 | 支持 | 不支持 | 支持 | 不支持,依賴ETL設(shè)計的合理性(例如T-1),指定續(xù)讀某個時間點的數(shù)據(jù),非自動 | 不支持,依賴ETL設(shè)計的合理性(例如T-1),指定續(xù)讀某個時間點的數(shù)據(jù),非自動 | 不支持 |
| 監(jiān)控預(yù)警 | 可視化的過程監(jiān)控,提供多樣化的圖表,輔助運維,故障問題可實時預(yù)警 | 依賴日志定位故障問題,往往只能是后處理的方式,缺少過程預(yù)警 | 無圖形化的界面預(yù)警 | monitor可以看到報錯信息,信息相對籠統(tǒng),定位問題仍需依賴分析日志 | 有問題預(yù)警,定位問題仍需依賴日志 | 依賴工具日志定位故障問題,沒有圖形化運維界面和預(yù)警機制,需要自定義開發(fā)。 |
| 數(shù)據(jù)清洗 | 圍繞數(shù)據(jù)質(zhì)量做輕量清洗 | 圍繞數(shù)據(jù)倉庫的數(shù)據(jù)需求進行建模計算,清洗功能相對復(fù)雜,需要手動編程 | 輕量清洗 | 支持復(fù)雜邏輯的清洗和轉(zhuǎn)化 | 支持復(fù)雜邏輯的清洗和轉(zhuǎn)化 | 需要根據(jù)自身清晰規(guī)則編寫清洗腳本,進行調(diào)用(DataX3.0 提供的功能)。 |
| 數(shù)據(jù)轉(zhuǎn)換 | 自動化的schema mapping | 手動配置schema mapping | 需手動配置異構(gòu)數(shù)據(jù)間的映射 | 手動配置schema mapping | 手動配置schema mapping | 通過編寫json腳本進行schema mapping映射 |
| 數(shù)據(jù)實時性 | 實時 | 非實時 | 實時 | 支持實時,但是主流應(yīng)用都是基于時間戳等方式做批量處理,實時同步效率未知 | 實時 | 定時 |
| 應(yīng)用難度 | 低 | 高 | 中 | 高 | 中 | 高 |
| 是否需要開發(fā) | 否 | 是 | 是 | 是 | 是 | 是 |
| 易用性 | 高 | 低 | 中 | 低 | 低 | 低 |
| 穩(wěn)定性 | 高 | 低 | 高 | 中 | 中 | 中 |
| 實施及售后服務(wù) | 原廠實施和售后服務(wù) | 開源軟件,需自客戶自行實施、維護 | 原廠和第三方的實施和售后服務(wù) | 主要為第三方的實施和售后服務(wù) | 分為開源版和企業(yè)版,企業(yè)版可提供相應(yīng)服務(wù) | 阿里開源代碼,需要客戶自動實施、開發(fā)、維護 |
轉(zhuǎn)載于:https://www.cnblogs.com/DataPipeline2018/p/11131723.html
總結(jié)
以上是生活随笔為你收集整理的六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ubuntu下在线安装mysql
- 下一篇: idea中Could not autow