日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据仓库基础(二)ETL

發(fā)布時(shí)間:2023/12/13 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据仓库基础(二)ETL 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)載自:http://www.cnblogs.com/evencao/archive/2013/06/14/3135529.html

?

ETL在數(shù)據(jù)倉庫中具有以下的幾個(gè)特點(diǎn):

數(shù)據(jù)流動(dòng)具有周期性:

因?yàn)閿?shù)據(jù)倉庫中的數(shù)據(jù)量巨大,一般采用成熟的ETL工具去完成抽取、轉(zhuǎn)換、加載,以降低設(shè)計(jì)開發(fā)的和維護(hù)的復(fù)雜度,使設(shè)計(jì)開發(fā)人員有更多的時(shí)間去專注于業(yè)務(wù)轉(zhuǎn)化規(guī)則。

ETL是數(shù)據(jù)抽取、轉(zhuǎn)換、加載的簡(jiǎn)寫。它的一般過程是將數(shù)據(jù)源抽取出來,中間經(jīng)過數(shù)據(jù)的清洗、轉(zhuǎn)換,最后加載到目標(biāo)表中。ETL的過程一般是批量的。

?

ETL的本質(zhì)

1.用戶應(yīng)該理解ETL本質(zhì)上就是數(shù)據(jù)從源到目標(biāo)的過程。

2.大多數(shù)的ETL工具價(jià)格昂貴,宏觀上一般都適合處理海量的數(shù)據(jù),但是在微觀上需要考慮ETL處理的不同情況。

3.元數(shù)據(jù)時(shí)ETL過程的重要體現(xiàn),藐視了數(shù)據(jù)源的屬性、數(shù)據(jù)源到目標(biāo)庫的轉(zhuǎn)換規(guī)則,數(shù)據(jù)抽取歷史記錄等。

4.構(gòu)建一個(gè)商業(yè)智能系統(tǒng),設(shè)計(jì)開發(fā)人員更多的人喜歡在ETL開始之前先將所有的業(yè)務(wù)規(guī)則弄清楚。

影響ETL數(shù)據(jù)質(zhì)量的關(guān)鍵因素:

  • 可能會(huì)有一部風(fēng)數(shù)據(jù)因?yàn)榭陀^或者人為的原因到時(shí)數(shù)據(jù)格式混亂。
  • 源系統(tǒng)設(shè)計(jì)存在不合理性
  • 在開發(fā)過程中,因?yàn)殚_發(fā)人員的錯(cuò)誤或者設(shè)計(jì)人員對(duì)業(yè)務(wù)規(guī)則描述的問題,同樣會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量出現(xiàn)問題。

?

保證數(shù)據(jù)質(zhì)量的方法:

  首先用戶必須遵守?cái)?shù)據(jù)倉庫項(xiàng)目中的數(shù)據(jù)源的質(zhì)量要求,對(duì)業(yè)務(wù)源數(shù)據(jù)進(jìn)行仔細(xì)分析,以便對(duì)數(shù)據(jù)源的任何錯(cuò)誤或不規(guī)范的地方有相應(yīng)的處理方法,如對(duì)錯(cuò)誤進(jìn)行修改或者舍棄

  其次,在保證數(shù)據(jù)源的質(zhì)量之后,在設(shè)計(jì)ETl過程中,對(duì)每一個(gè)步驟應(yīng)該有一個(gè)衡量數(shù)據(jù)質(zhì)量的方法,需要重視ETL的每一個(gè)過程。

  最后,就是規(guī)范業(yè)務(wù)流程,保證ETL正確性,避免誤刪或者重復(fù)加載數(shù)據(jù)。

其中對(duì)質(zhì)量的衡量有幾種方式:

  • 1.定義的數(shù)據(jù)是否和實(shí)際值相同。
  • 2.指標(biāo)數(shù)據(jù)是否符合業(yè)務(wù)規(guī)則。
  • 3.數(shù)據(jù)是否和業(yè)務(wù)源系統(tǒng)中的信息保持一致。
  • 4.數(shù)據(jù)時(shí)違背自然規(guī)律或者不符合常理。

?

主流的ETL工具有 Informatica PowerCenterDatastageETL 是商業(yè)智能的核心和靈魂

?

詳解ETL過程:

1.數(shù)據(jù)抽取

? ?數(shù)據(jù)抽取就是從源系統(tǒng)中獲取業(yè)務(wù)數(shù)據(jù)的過程。數(shù)據(jù)抽取時(shí)需要考慮很多的因素,(抽取時(shí)間,收取方式,抽取周期等)數(shù)據(jù)抽取有以下幾種情況:

? ? ? ? (1)如果業(yè)務(wù)操作系統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫質(zhì)檢的數(shù)據(jù)庫管理系統(tǒng)完全相同,只需要建立相應(yīng)的連接關(guān)系就可以使用ETL工具直接訪問,或者調(diào)用相應(yīng)的SQL語句或者存儲(chǔ)過程。

? ? ? ? (2)若數(shù)據(jù)倉庫系統(tǒng)和業(yè)務(wù)操作型數(shù)據(jù)庫的數(shù)據(jù)管理器不相同,比較簡(jiǎn)單的方式是使用ETL工具導(dǎo)出成文本文件或者Execl文件,然后再進(jìn)行統(tǒng)一的數(shù)據(jù)抽取。

? ? ? ? (3)如果需要抽取的數(shù)據(jù)量非常的龐大,此時(shí)必須考慮增量抽取。

2.數(shù)據(jù)清洗

  數(shù)據(jù)清洗就是選擇出有缺陷的數(shù)據(jù),然后再將他們正確話和規(guī)范化,從而達(dá)到用戶要求的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。

3.數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換就是指從業(yè)務(wù)系統(tǒng)中抽取的源數(shù)據(jù),然后再根據(jù)數(shù)據(jù)倉庫模型的需求,進(jìn)行一系列數(shù)據(jù)轉(zhuǎn)換的過程。

數(shù)據(jù)轉(zhuǎn)換是ETL過程中復(fù)雜度最高的過程,包括對(duì)數(shù)據(jù)不一致性的轉(zhuǎn)換,業(yè)務(wù)指標(biāo)的計(jì)算和某些數(shù)據(jù)的匯總,為決策系統(tǒng)提供數(shù)據(jù)支持。

ETL轉(zhuǎn)換過程中可能包含幾個(gè)方面:

  • 對(duì)空值進(jìn)行處理:在進(jìn)行加載是需要將空值替換成某一數(shù)據(jù)或者直接進(jìn)行加載。
  • 對(duì)數(shù)據(jù)格式規(guī)范化:例如:統(tǒng)一將數(shù)值型轉(zhuǎn)化為字符型
  • 根據(jù)業(yè)務(wù)需求進(jìn)行字段的拆分和合并
  • 對(duì)缺失數(shù)據(jù)的替換:
  • 根據(jù)業(yè)務(wù)規(guī)則對(duì)數(shù)據(jù)進(jìn)行過濾
  • 根據(jù)編碼表進(jìn)行數(shù)據(jù)唯一性的轉(zhuǎn)換:

4.數(shù)據(jù)加載:

這是ETL的最后一筆,需要保證加載工具必須有高效的性能去完成數(shù)據(jù)加載,同時(shí)還需要考慮加載的時(shí)周期和數(shù)據(jù)加載的策略。

數(shù)據(jù)加載包括:

時(shí)間戳的加載方式,是比較常見的一種加載方式。

全表對(duì)比的加載方式、通過讀取日志進(jìn)行加載的方式、全表刪除后再進(jìn)行加載的方式。

5.ETL日志

? ? ETL日志非常重要,它記錄了ETL執(zhí)行過程中的每一步信息。幫助系統(tǒng)維護(hù)人員進(jìn)行監(jiān)控,當(dāng)然ETL日志也可以未做數(shù)據(jù)加載的一個(gè)策略。

ETL設(shè)計(jì)的規(guī)范要點(diǎn):

1.在ETL設(shè)計(jì)之前,需要根據(jù)業(yè)務(wù)的需求確定所要分析的主題和數(shù)據(jù)結(jié)構(gòu)。根據(jù)數(shù)據(jù)倉庫的模型,考慮在ETL設(shè)計(jì)中是否增加預(yù)留字段和屬性

2.確定數(shù)據(jù)的粒度

3.ETL抽取周期的確定。

4.以增量抽取的方式作為ETL設(shè)計(jì)的重點(diǎn),減少數(shù)據(jù)抽取的壓力和抽取時(shí)間。

5.通常抽取盒清洗可以分成很多步驟

6.對(duì)異常情況進(jìn)行處理。包括網(wǎng)絡(luò)中斷等情況進(jìn)行處理,保證數(shù)據(jù)的正確性。

7.對(duì)ETL的運(yùn)行管理和監(jiān)控措施。

?

ETL的框架結(jié)構(gòu):

主要包括:ETL調(diào)度、抽取策略、轉(zhuǎn)換策略、加載策略

統(tǒng)一調(diào)度室ETL中較為重要的功能。

1.自動(dòng)調(diào)度方式

2.手動(dòng)調(diào)度方式

轉(zhuǎn)載于:https://www.cnblogs.com/shujuxiong/p/9105751.html

總結(jié)

以上是生活随笔為你收集整理的数据仓库基础(二)ETL的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。