生活随笔
收集整理的這篇文章主要介紹了
如何构建银行数据仓库
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
| 數(shù)據(jù)倉庫技術(shù)作為一項(xiàng)數(shù)據(jù)管理領(lǐng)域的新技術(shù),其精髓在于針對(duì)聯(lián)機(jī)分析處理(OLAP)提出了一種綜合的解決方案,與以往很多技術(shù)不同的是,它主要是一種概念,在此概念指導(dǎo)下完成系統(tǒng)的構(gòu)造。既沒有可以直接購買到的現(xiàn)成產(chǎn)品,也沒有具體的分析規(guī)范和實(shí)現(xiàn)方法,也就是說沒有成熟、可靠且被廣泛接受的數(shù)據(jù)倉庫標(biāo)準(zhǔn)。在以往關(guān)系數(shù)據(jù)庫的設(shè)計(jì)和實(shí)現(xiàn)中,不僅有詳細(xì)的理論推導(dǎo),還有無數(shù)的設(shè)計(jì)實(shí)例,無論你使用的是什么公司的數(shù)據(jù)庫產(chǎn)品、開發(fā)工具,只要按照規(guī)范做,那么實(shí)現(xiàn)同一業(yè)務(wù)需求的方案都會(huì)很相似。而現(xiàn)有數(shù)據(jù)倉庫的實(shí)現(xiàn)中,出現(xiàn)了MOLAP方案和ROLAP方案的區(qū)別,出現(xiàn)了形形色色的數(shù)據(jù)倉庫建模工具、表現(xiàn)工具,而設(shè)計(jì)人員的個(gè)人經(jīng)驗(yàn)和素質(zhì)也會(huì)在其中扮演很重要的角色。 |
| 數(shù)據(jù)倉庫技術(shù)的實(shí)現(xiàn)方式 |
| 目前在數(shù)據(jù)倉庫技術(shù)的實(shí)際應(yīng)用中主要包括如下幾種具體實(shí)現(xiàn)方式。 |
| 1、在關(guān)系數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(ROLAP) |
| 2、在多維數(shù)據(jù)庫上建立數(shù)據(jù)倉庫(MOLAP) |
| MOLAP方案是以多維方式來組織數(shù)據(jù),以多維方式來存儲(chǔ)數(shù)據(jù);ROLAP方案則以二維關(guān)系表為核心表達(dá)多維概念,通過將多維結(jié)構(gòu)劃分為兩類表:維表和事實(shí)表,使關(guān)系型結(jié)構(gòu)能較好地適應(yīng)多維數(shù)據(jù)的表示和存儲(chǔ)。在多維數(shù)據(jù)模型的表達(dá)方面,多維矩陣比關(guān)系表更清晰且占用的存儲(chǔ)更少,而通過關(guān)系表間的連接來查詢數(shù)據(jù)的ROLAP系統(tǒng),系統(tǒng)性能成為最大問題。MOLAP方案比ROLAP方案要簡明,索引及數(shù)據(jù)聚合可以自動(dòng)進(jìn)行并自動(dòng)管理,但同時(shí)喪失了一定的靈活性。ROLAP方案的實(shí)現(xiàn)較為復(fù)雜,但靈活性較好,用戶可以動(dòng)態(tài)定義統(tǒng)計(jì)和計(jì)算方式,另外能保護(hù)在已有關(guān)系數(shù)據(jù)庫上的投資。 |
| 由于兩種方案各有優(yōu)劣,因此在實(shí)際應(yīng)用中,往往將MOLAP和ROLAP結(jié)合使用,即所謂的混合模型。利用關(guān)系數(shù)據(jù)庫存儲(chǔ)歷史數(shù)據(jù)、細(xì)節(jié)數(shù)據(jù)或非數(shù)值型數(shù)據(jù),發(fā)揮關(guān)系數(shù)據(jù)庫技術(shù)成熟的優(yōu)勢,減少花費(fèi),而在多維數(shù)據(jù)庫中存儲(chǔ)當(dāng)前數(shù)據(jù)和常用統(tǒng)計(jì)數(shù)據(jù),以提高操作性能。 |
| 3、在原有關(guān)系庫上建立邏輯上的數(shù)據(jù)倉庫 |
| 由于目前正在運(yùn)行的OLTP系統(tǒng)中已經(jīng)積累了海量數(shù)據(jù),如何從中提取出決策所需的有用信息就成為用戶最迫切的需要。新建數(shù)據(jù)倉庫固然能從功能、性能各方面給出一個(gè)完整的解決方案,但需要投入大量的人力、物力,并且數(shù)據(jù)倉庫的建設(shè)和分析數(shù)據(jù)的積累需要一段時(shí)間,無法及時(shí)滿足用戶對(duì)信息分析的迫切需要。因此在籌建數(shù)據(jù)倉庫的前期,可以采用一些合適的表現(xiàn)工具,在原有OLTP系統(tǒng)上建立起一個(gè)邏輯的數(shù)據(jù)倉庫系統(tǒng)。盡管由于原有OLTP系統(tǒng)設(shè)計(jì)上的局限性,這樣的系統(tǒng)可能無法實(shí)現(xiàn)很多分析功能,但這樣一個(gè)系統(tǒng)中數(shù)據(jù)結(jié)構(gòu)固定、信息分析需求相對(duì)穩(wěn)定成熟,因此數(shù)據(jù)倉庫的建模、實(shí)現(xiàn)過程會(huì)相對(duì)容易、便捷;同時(shí),這樣的系統(tǒng)也會(huì)成為將來真正數(shù)據(jù)倉庫建設(shè)的原型。 |
| 信息系統(tǒng)與數(shù)據(jù)倉庫的關(guān)系 |
| 由于數(shù)據(jù)量大、數(shù)據(jù)來源多樣化,在商業(yè)銀行構(gòu)建管理信息系統(tǒng)時(shí),不可避免地會(huì)遇上如何管理這些浩如煙海的數(shù)據(jù),以及如何從中提取有用的信息的問題;而數(shù)據(jù)倉庫的最大優(yōu)點(diǎn)在于它能把企業(yè)網(wǎng)絡(luò)中不同信息島上的商業(yè)數(shù)據(jù)集中到一起,存儲(chǔ)在一個(gè)單一的集成的數(shù)據(jù)庫中,并提供各種手段對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析。因此可以說,在銀行使用數(shù)據(jù)倉庫構(gòu)建管理信息系統(tǒng),既有壓力,又有數(shù)據(jù)基礎(chǔ),它們之間的聯(lián)系是必然的,難以割舍的。 |
| 數(shù)據(jù)倉庫在商業(yè)銀行的應(yīng)用范圍包括存款分析、貸款分析、客戶市場分析、相關(guān)金融業(yè)分析決策(證券、外匯買賣)、風(fēng)險(xiǎn)預(yù)測、效益分析等。 |
| 在銀行信息系統(tǒng)構(gòu)建時(shí),由于歷史情況和現(xiàn)實(shí)需求的不同,存在兩種途徑: |
| 由于目前國內(nèi)商業(yè)銀行對(duì)銀行內(nèi)部運(yùn)營的監(jiān)管,缺乏很好的數(shù)據(jù)搜集機(jī)制,因此可以在構(gòu)建管理信息系統(tǒng)時(shí),分?jǐn)?shù)據(jù)收集錄入和數(shù)據(jù)匯總分析兩部分來考慮。這樣的系統(tǒng)中由于不需考慮大量歷史數(shù)據(jù)的處理問題,同時(shí)考慮到搜集過程中可能存在多個(gè)數(shù)據(jù)來源,因此可以在系統(tǒng)建設(shè)的同時(shí)構(gòu)建數(shù)據(jù)倉庫,將搜集來的各種數(shù)據(jù)通過數(shù)據(jù)抽取整合到數(shù)據(jù)倉庫中。 |
| 而對(duì)于已經(jīng)存在OLTP系統(tǒng),其中沉淀了大量歷史數(shù)據(jù),則可以先在原有系統(tǒng)上建立邏輯數(shù)據(jù)倉庫,即使用數(shù)據(jù)分析的表現(xiàn)工具,在關(guān)系模型上構(gòu)建一個(gè)虛擬的多維模型。當(dāng)系統(tǒng)需求穩(wěn)定后,再建立物理數(shù)據(jù)倉庫,這樣既節(jié)省投資,又縮短開發(fā)工期。 |
| 模型設(shè)計(jì)(包括邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì))是系統(tǒng)的基礎(chǔ)和成敗的關(guān)鍵,在實(shí)際操作中,視實(shí)現(xiàn)技術(shù)的不同應(yīng)分別對(duì)下列問題引起注意。 |
| 直接構(gòu)建數(shù)據(jù)倉庫時(shí),必須按業(yè)務(wù)分析的要求重組OLTP系統(tǒng)中的數(shù)據(jù),并要按不同側(cè)重點(diǎn)分別組織,使之便于使用。 |
| 主題是一個(gè)邏輯概念,它應(yīng)該能夠完整、統(tǒng)一地刻畫出分析對(duì)象所涉及的各項(xiàng)數(shù)據(jù)以及相互聯(lián)系。劃分主題的根據(jù)主要來源于兩方面:對(duì)原有固定報(bào)表的分析和對(duì)業(yè)務(wù)人員的訪談。原有固定報(bào)表能較好地反映出以往工作對(duì)數(shù)據(jù)分析的需求,而且數(shù)據(jù)含義和格式相對(duì)成熟、穩(wěn)定,在模型設(shè)計(jì)中需要大量借鑒。但僅僅滿足于替代目前的手工報(bào)表還遠(yuǎn)遠(yuǎn)不應(yīng)是構(gòu)建管理信息系統(tǒng)的目標(biāo),還應(yīng)該通過業(yè)務(wù)訪談,進(jìn)一步挖掘出日常工作中潛在的更廣、更深的分析需求。只有這樣,才能真正了解構(gòu)建數(shù)據(jù)倉庫模型所需的主題劃分。 |
| 主題的劃分實(shí)際上是與分析內(nèi)容的范圍直接相關(guān)的,一旦主題劃分清楚了,下一步就是細(xì)化分析的具體內(nèi)容以及根據(jù)分析內(nèi)容的性質(zhì)確定它在數(shù)據(jù)倉庫中的位置。通常維元素對(duì)應(yīng)的是分析角度,而度量對(duì)應(yīng)的是分析關(guān)心的具體指標(biāo)。一個(gè)指標(biāo)究竟是作為維元素、度量還是維屬性,取決于具體的業(yè)務(wù)需求,但從實(shí)際操作中可以總結(jié)出如下的概念性經(jīng)驗(yàn):作為維元素或維屬性的通常是離散型的數(shù)據(jù),只允許有限的取值;作為度量的是連續(xù)型數(shù)據(jù),取值無限。如果一定要用連續(xù)型數(shù)據(jù)作為維元素,則必須對(duì)其按取值進(jìn)行分段,以分段值作為實(shí)際的維元素。判斷分析指標(biāo)是作為維元素還是維屬性時(shí),則需要綜合考慮這個(gè)指標(biāo)占用的存儲(chǔ)空間與相關(guān)查詢的使用頻度。 |
| 需要特別強(qiáng)調(diào)的是,在細(xì)化分析內(nèi)容的過程中,務(wù)必解決指標(biāo)的歧義問題。在不同報(bào)表中以及在業(yè)務(wù)訪談中同一名稱的指標(biāo),是否是在同樣條件限定下,通過同樣方法提取或計(jì)算得到的,它們之間的相互關(guān)系是什么,這些問題都必須從熟悉業(yè)務(wù)的分析人員那里得到準(zhǔn)確、清晰的答案,否則將會(huì)影響到模型設(shè)計(jì)、數(shù)據(jù)提取、數(shù)據(jù)展現(xiàn)等多個(gè)方面。 |
| 數(shù)據(jù)倉庫模型中所存儲(chǔ)的數(shù)據(jù)的粒度將對(duì)信息系統(tǒng)的多方面產(chǎn)生影響。事實(shí)表中以各種維度的什么層次作為最細(xì)粒度,將決定存儲(chǔ)的數(shù)據(jù)能否滿足信息分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應(yīng)時(shí)間。 |
| 如果同一個(gè)信息系統(tǒng)要在大范圍、多層次上同時(shí)運(yùn)行,如部門級(jí)和企業(yè)級(jí),還應(yīng)考慮不同層次的數(shù)據(jù)倉庫采用不同的粒度。 |
| 復(fù)合指標(biāo)尤其是比率類指標(biāo)的定義,必須注意累加時(shí)是先加減后乘除,還是反之。戶數(shù)、筆數(shù)的計(jì)算,這類指標(biāo)在分析或報(bào)表中經(jīng)常出現(xiàn),但不需要作為單獨(dú)的指標(biāo)物理存在于數(shù)據(jù)庫中,但定義分析模型時(shí)一定應(yīng)該準(zhǔn)備。度量的時(shí)間特性,針對(duì)分析指標(biāo)在時(shí)間維上的不同表現(xiàn),可分為可累加指標(biāo)、半可累加指標(biāo)和不可累加指標(biāo)。 |
| 2、在原有數(shù)據(jù)基礎(chǔ)上構(gòu)建邏輯數(shù)據(jù)倉庫 |
| 如果直接使用OLTP系統(tǒng)中的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析處理,會(huì)遇到許多麻煩,有時(shí)甚至是不可能實(shí)現(xiàn)的。這并不是說關(guān)系數(shù)據(jù)庫不好,而是因?yàn)槠湓O(shè)計(jì)思路不適應(yīng)較大規(guī)模數(shù)據(jù)分析。因此在使用這種方法時(shí),需要注意下列問題的處理: |
| 這是實(shí)現(xiàn)過程中最常遇到的問題,也往往是最難解決的問題。OLTP系統(tǒng)中存儲(chǔ)的時(shí)間往往采用與實(shí)際業(yè)務(wù)發(fā)生相同的時(shí)間單位,如帳務(wù)數(shù)據(jù)單位為日期,財(cái)務(wù)報(bào)表單位為月或半年。而面向分析時(shí),往往要將不同時(shí)間單位的數(shù)據(jù)統(tǒng)一到同一個(gè)結(jié)果中,這樣就必須存在適當(dāng)?shù)霓D(zhuǎn)換機(jī)制才能實(shí)現(xiàn)。 |
| 所謂冗余信息,就是指不同關(guān)系表中存在的同一含義的字段,而同一含義不僅指這些字段的取得或計(jì)算方式一樣,還指它們成立的條件一樣,例如截止某一時(shí)間同一地區(qū)的同一貸種的貸款余額。在OLTP系統(tǒng)中,這樣的字段往往是基于性能考慮而設(shè)計(jì)的,而在面向分析設(shè)計(jì)模型時(shí),為了保證結(jié)果的唯一性和準(zhǔn)確性,就必須用且只用其中之一的數(shù)據(jù)產(chǎn)生分析結(jié)果。 |
| 由于OLTP系統(tǒng)中表的設(shè)計(jì)面向業(yè)務(wù)處理,既要保證數(shù)據(jù)的完整性、一致性,又要考慮響應(yīng)時(shí)間,因此表與表之間既相對(duì)獨(dú)立,又相互依賴。在設(shè)計(jì)數(shù)據(jù)倉庫邏輯模型時(shí),對(duì)表間的連接必須做出相應(yīng)取舍,既要保證分析數(shù)據(jù)能通過連接取得或計(jì)算出,又要避免出現(xiàn)環(huán)路,造成分析數(shù)據(jù)的歧義。另外,不同的連接途徑還會(huì)出現(xiàn)不同的查詢速度,影響數(shù)據(jù)分析的響應(yīng)性能。 |
| *統(tǒng)計(jì)表的設(shè)計(jì) |
| 如果上述問題不能在原有數(shù)據(jù)庫基礎(chǔ)上得到很好的解決,那么權(quán)益之計(jì)就是構(gòu)建統(tǒng)計(jì)表,即簡單化的數(shù)據(jù)倉庫,形式類似數(shù)據(jù)倉庫的事實(shí)表,定時(shí)計(jì)算統(tǒng)計(jì)數(shù)據(jù)放入,將時(shí)間、冗余、連接等問題擯除,進(jìn)行簡單分析。 |
| 數(shù)據(jù)抽取是一件技術(shù)含量不高,但非常煩瑣的工作,必須有專人負(fù)責(zé)數(shù)據(jù)抽取的工作。在對(duì)其進(jìn)行設(shè)計(jì)時(shí),要注意的問題有: |
| 1、數(shù)據(jù)抽取的規(guī)則要作為元數(shù)據(jù)進(jìn)行規(guī)范和管理,抽取過程中的源表、源字段、目的表、目的字段、轉(zhuǎn)換規(guī)則以及轉(zhuǎn)換條件都要作好詳細(xì)記錄。這樣不僅便于編程人員實(shí)現(xiàn),而且在抽取規(guī)則或邏輯模型發(fā)生變化時(shí)也便于修改。 |
| 2、如何記錄業(yè)務(wù)數(shù)據(jù)庫中的變動(dòng)情況是數(shù)據(jù)抽取中一個(gè)重要的環(huán)節(jié)。由于數(shù)據(jù)倉庫中按時(shí)間保存數(shù)據(jù),因此不同時(shí)間點(diǎn)之間數(shù)據(jù)的差異就成為一個(gè)關(guān)鍵性因素。通常可以利用數(shù)據(jù)庫管理系統(tǒng)提供的手段在數(shù)據(jù)庫級(jí)產(chǎn)生數(shù)據(jù)變動(dòng)日志,根據(jù)日志再判斷數(shù)據(jù)的變動(dòng)情況完成抽取,這樣是一個(gè)從性能、可操作性以及對(duì)原業(yè)務(wù)系統(tǒng)的影響等多方面綜合考慮都比較理想的方法。 |
| 3、當(dāng)數(shù)據(jù)倉庫中同一表中的數(shù)據(jù)來自于原有系統(tǒng)中不同的表,甚至不同的庫時(shí),抽取時(shí)務(wù)必保證這些數(shù)據(jù)單位一致,而且都滿足同一時(shí)間條件。 |
| 4、數(shù)據(jù)抽取不僅要考慮數(shù)據(jù)的提取,還要考慮抽取的時(shí)間安排和執(zhí)行方式,這樣才是一個(gè)完整的數(shù)據(jù)抽取方案,也才能保證抽取出來的數(shù)據(jù)準(zhǔn)確、可用。 |
| 數(shù)據(jù)倉庫的建設(shè)是一個(gè)長期工作,它同其他系統(tǒng)一樣需要在運(yùn)行的過程中不斷進(jìn)行調(diào)整、完善。這其中包括兩方面的工作: |
| 數(shù)據(jù)倉庫涉及海量數(shù)據(jù)的查詢,數(shù)據(jù)的大量寫入讀出,不僅對(duì)數(shù)據(jù)庫系統(tǒng)的要求很高,而且與OLTP系統(tǒng)的要求極為不同,因此在系統(tǒng)設(shè)計(jì)、實(shí)施和維護(hù)的過程中,數(shù)據(jù)倉庫系統(tǒng)的性能都是一個(gè)不可忽視的問題。尤其是在運(yùn)行期間,要密切關(guān)注應(yīng)用對(duì)系統(tǒng)資源的消耗情況,針對(duì)應(yīng)用的特點(diǎn)及時(shí)對(duì)系統(tǒng)進(jìn)行調(diào)整,包括調(diào)整數(shù)據(jù)庫參數(shù)、數(shù)據(jù)分片放置、創(chuàng)建特殊索引乃至提高系統(tǒng)配置等。 |
| 應(yīng)用與需求是相互促進(jìn)、不斷發(fā)展的,隨著信息系統(tǒng)建成運(yùn)行,用戶在對(duì)系統(tǒng)了解不斷加深的過程中,也會(huì)對(duì)系統(tǒng)提出更新更高的要求。如何在最小投入的前提下滿足用戶的需求,也是一個(gè)值得注意和潛心研究的問題。首先要盡可能挖掘現(xiàn)有系統(tǒng)的潛力,其次考慮,對(duì)主題的增加或可在現(xiàn)有系統(tǒng)上增加少量指標(biāo)就可解決的需求,對(duì)系統(tǒng)進(jìn)行適當(dāng)調(diào)整,最后才考慮對(duì)系統(tǒng)進(jìn)行重構(gòu),盡可能減小系統(tǒng)建設(shè)中的投入。 |
| 按照上述方法實(shí)現(xiàn)的應(yīng)用中,主要完成了報(bào)表的生成和日常業(yè)務(wù)的分析,這并不能給企業(yè)帶來真正的效益,也遠(yuǎn)遠(yuǎn)沒有發(fā)揮出數(shù)據(jù)倉庫的應(yīng)用價(jià)值。隨著應(yīng)用的深入,可以由企業(yè)的技術(shù)人員與業(yè)務(wù)人員緊密配合,規(guī)劃出對(duì)企業(yè)有實(shí)際價(jià)值的應(yīng)用模型,并根據(jù)實(shí)際業(yè)務(wù)的發(fā)展不斷調(diào)整模型自身的參數(shù),以期找出企業(yè)運(yùn)作過程中的規(guī)律,即在數(shù)據(jù)倉庫上進(jìn)行數(shù)據(jù)挖掘,構(gòu)建DSS系統(tǒng),這樣才能充分體現(xiàn)構(gòu)建數(shù)據(jù)倉庫的意義,從而最終為企業(yè)帶來效益。 |
| 盡管數(shù)據(jù)倉庫技術(shù)還需要不斷發(fā)展、完善,但只要企業(yè)能認(rèn)識(shí)到信息分析的重要性,業(yè)務(wù)人員和技術(shù)人員能真正配合起來,相信不久的將來會(huì)有更多的實(shí)用成果出現(xiàn)。 |
轉(zhuǎn)載于:https://www.cnblogs.com/fengye/archive/2007/02/04/639415.html
總結(jié)
以上是生活随笔為你收集整理的如何构建银行数据仓库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。