ETL的四个基本过程.
轉(zhuǎn)自:http://www.chinabi.net/blog/user1/lastwood/archives/2006/888.html
What are the four basic data flow steps of an ETL process?
答:
Kimball 數(shù)據(jù)倉庫構(gòu)建方法中, ETL的過程和傳統(tǒng)的實現(xiàn)方法有一些不同, 主要分為4個階段, 分別是抽取(extract),? 清洗(clean), 一致性處理(comform) 和交付(delivery). 堅持ECCD.
1. Extract 階段的主要任務(wù)是:
讀取系統(tǒng)的數(shù)據(jù)模型.
連接并訪問源系統(tǒng)的數(shù)據(jù).
變化數(shù)據(jù)捕獲
抽取數(shù)據(jù)到數(shù)據(jù)準備區(qū).
2.clean階段的主要任務(wù)是:
清洗并增補列的屬性.
清洗并增補數(shù)據(jù)結(jié)構(gòu).
清洗并增補數(shù)據(jù)規(guī)則.
清洗并增補業(yè)務(wù)規(guī)則.
建立元數(shù)據(jù)庫描述數(shù)據(jù)質(zhì)量.
將清洗后的數(shù)據(jù)保存到數(shù)據(jù)準備區(qū)
3. comform階段的主要任務(wù)是:
一致性處理業(yè)務(wù)標簽, 即維度表中的描述屬性.
一致性處理業(yè)務(wù)度量及性能指標, 通常是事實表中的事實.
去除重復數(shù)據(jù).
國際化處理.
將一致性處理后的數(shù)據(jù)保存到數(shù)據(jù)準備區(qū).
4.delivery階段的主要任務(wù)是:
加載性行的和經(jīng)過雪花處理的維度表數(shù)據(jù).
產(chǎn)生日期維度.
加載退化維度.
加載子維度.
加載1.2.3型的緩慢變化維度.
處理遲到的維度和遲到的事實.
加載多值維度.
加載有復雜層級結(jié)構(gòu)的維度表
處理事實表的代理鍵.
加載三個基本類型的事實性數(shù)據(jù).
加載和更新聚集.
將處理好的數(shù)據(jù)加載到數(shù)據(jù)倉庫.
從這個任務(wù)列表中可以看出, ETL的過程和數(shù)據(jù)倉庫建模的過程結(jié)合的非常緊密. 換句話說, ETL系統(tǒng)的設(shè)計和目標表的設(shè)計同時開始. 通常來說, 數(shù)據(jù)倉庫架構(gòu)師和ETL系統(tǒng)設(shè)計師是同一個人.
總結(jié)
以上是生活随笔為你收集整理的ETL的四个基本过程.的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: grouping Function
- 下一篇: 在数据准备区中允许使用的数据结构有哪些,