日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

我花600小时,调研30家银行,为你讲透银行数据架构,小白都能懂

發(fā)布時間:2025/3/15 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 我花600小时,调研30家银行,为你讲透银行数据架构,小白都能懂 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

如果一個系統(tǒng),沒有數(shù)據(jù)架構(gòu),那肯定是在吹牛,今天就來講講銀行的數(shù)據(jù)架構(gòu)。這是我花了600多小時,調(diào)研了30+銀行,得出來的方法論。

狹義的數(shù)據(jù)倉庫數(shù)據(jù)架構(gòu)用來特指數(shù)據(jù)分布,廣義的數(shù)據(jù)倉庫數(shù)據(jù)架構(gòu)還包括數(shù)據(jù)模型、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)治理。即包含相對靜態(tài)部分如元數(shù)據(jù)、業(yè)務(wù)對象數(shù)據(jù)模型、主數(shù)據(jù)、共享數(shù)據(jù),也包含相對動態(tài)部分如數(shù)據(jù)流轉(zhuǎn)、ETL、整合、訪問應(yīng)用和數(shù)據(jù)全生命周期管控治理。

數(shù)據(jù)架構(gòu)層面通過數(shù)據(jù)分類、分層部署等手段,從非功能性視角將數(shù)據(jù)合理布局。通過整體架構(gòu)管控和設(shè)計,支持業(yè)務(wù)操作類和管理分析類應(yīng)用(系統(tǒng)),滿足業(yè)務(wù)發(fā)展及IT轉(zhuǎn)型對數(shù)據(jù)的需求,架構(gòu)的擴展性和適應(yīng)性能夠提升數(shù)據(jù)分析應(yīng)用的及時性、靈活性和準(zhǔn)確性。

那實際情況下各個銀行業(yè)數(shù)據(jù)架構(gòu)體系會有所不同,根據(jù)各行業(yè)業(yè)務(wù)發(fā)展、客戶數(shù)據(jù)量、交易數(shù)據(jù)量、功能需求等會有不同的演變路徑以及發(fā)展方向。一般國有銀行、股份制銀行等全國性的銀行業(yè)務(wù)較復(fù)雜,數(shù)據(jù)量也較多,數(shù)據(jù)架構(gòu)也因此進化較快。常見的數(shù)據(jù)架構(gòu)分區(qū)如下圖所示:

?

1、數(shù)據(jù)采集層

數(shù)據(jù)緩存區(qū)的數(shù)據(jù)主要是將數(shù)據(jù)從源系統(tǒng)加載到數(shù)據(jù)倉庫中,作為數(shù)據(jù)在數(shù)據(jù)倉庫的起點,數(shù)據(jù)緩存區(qū)數(shù)據(jù)只保留7-10天,以備數(shù)據(jù)問題處理,數(shù)據(jù)緩沖區(qū)的數(shù)據(jù)除了標(biāo)準(zhǔn)化的處理,最好直接獲取源系統(tǒng)未經(jīng)加工的數(shù)據(jù),以便一次抽取,多次使用。

標(biāo)準(zhǔn)化處理主要有編碼統(tǒng)一轉(zhuǎn)化、異常字符清理等,以便后續(xù)處理。數(shù)據(jù)采集層不僅僅只應(yīng)用于數(shù)據(jù)倉庫相關(guān),也可以適用于各交易系統(tǒng)的批量數(shù)據(jù)或文件傳輸和交換,所以在全行系統(tǒng)層面制定規(guī)范。

2、存儲計算層

(1)主數(shù)據(jù)區(qū):

指結(jié)構(gòu)化數(shù)據(jù)的主數(shù)據(jù)區(qū),這部分數(shù)據(jù)包括了所有的基礎(chǔ)明細數(shù)據(jù)以及歷史數(shù)據(jù),其它區(qū)域的結(jié)構(gòu)化數(shù)據(jù)都是由主數(shù)據(jù)區(qū)數(shù)據(jù)加工而來。那主數(shù)據(jù)區(qū)主要有兩種模型:近源模型層和整合模型層。一般在實踐過程中可以兩個區(qū)域都有,也可以只有任意一個區(qū)域。

這兩個區(qū)的數(shù)據(jù)都通過歷史拉鏈或歷史流水的方式保留歷史數(shù)據(jù),如果有數(shù)據(jù)標(biāo)準(zhǔn),這兩個區(qū)的數(shù)據(jù)按數(shù)據(jù)標(biāo)準(zhǔn)進行字段屬性如代碼值、長度、精度的標(biāo)準(zhǔn)化,那這兩個區(qū)的數(shù)據(jù)主要在模型設(shè)計方面有所不同:

①近源模型區(qū):表結(jié)構(gòu)設(shè)計和源系統(tǒng)類似,在源系統(tǒng)表基礎(chǔ)上增加標(biāo)準(zhǔn)化字段以及歷史數(shù)據(jù)保存算法的數(shù)據(jù)日期字段,近源模型層的特點是保留源系統(tǒng)表所有信息,在建模和運行效率上比較高,但數(shù)據(jù)整合性不高,一些交易系統(tǒng)設(shè)計的表結(jié)構(gòu)并不直接適用數(shù)據(jù)分析和加工。

②整合模型區(qū):整合模型區(qū)按主題進行數(shù)據(jù)整合、表設(shè)計以三范式為主,模型穩(wěn)定,數(shù)據(jù)冗余少,那這里模型穩(wěn)定是指即使源系統(tǒng)表結(jié)構(gòu)如何變化,只要實體之間關(guān)系和屬性不變,那整合模型也可以保持基本不變。模型穩(wěn)定的一個好處就是可以屏蔽源系統(tǒng)變化,避免下游應(yīng)用系統(tǒng)重復(fù)改造。

舉個栗子:使用新的系統(tǒng),那所有表結(jié)構(gòu)都會發(fā)生變化,如果直接使用近源模型區(qū)數(shù)據(jù),那對于后續(xù)加工變化很大,同時時間跨度較大的分析(如年報)需要分別考慮新舊個人信貸系統(tǒng)的數(shù)據(jù)加工規(guī)則,如果使用整合模型,那整合模型變動不會太大,對于歷史數(shù)據(jù)也能同時存在于一個模型(一套報表)中,對于后續(xù)應(yīng)用加工影響較小。

同時整合模型會在客戶、賬戶、簽約等各主要維度進行分析梳理,形成整體視圖,有利于從全行視角分析。例如客戶整合可以區(qū)分客戶唯一性,獲得客戶視圖;產(chǎn)品和簽約的整合可以清楚看到客戶在行內(nèi)的購買的所有產(chǎn)品和簽約。方便后續(xù)客戶分析。

?

(2)指標(biāo)匯總區(qū):

由于主數(shù)據(jù)區(qū)的數(shù)據(jù)并不合適直接提供給數(shù)據(jù)系統(tǒng)分析使用,因此指標(biāo)匯總區(qū)是整合各數(shù)據(jù)應(yīng)用的加工需求,按事實表(寬表)和維度表進行模型設(shè)計,對主數(shù)據(jù)區(qū)數(shù)據(jù)進行關(guān)聯(lián)、公共指標(biāo)加工,提供給多個數(shù)據(jù)應(yīng)用使用,那指標(biāo)匯總區(qū)可按協(xié)議(賬戶)、產(chǎn)品、客戶、科目、機構(gòu)等逐層匯總,指標(biāo)匯總區(qū)可以消除各系統(tǒng)對于同一個指標(biāo)分別加工導(dǎo)致的口徑差異。

(3)集市區(qū)(倉內(nèi)):

倉內(nèi)集市主要指和數(shù)據(jù)倉庫在同一個物理平臺中的集市,可以直接訪問主數(shù)據(jù)區(qū),指標(biāo)匯總區(qū)數(shù)據(jù)、減少數(shù)據(jù)批量轉(zhuǎn)移的成本,利用數(shù)據(jù)倉庫平臺分析性能快速進行數(shù)據(jù)加工,那數(shù)據(jù)集市的劃分可按業(yè)務(wù)部門或下游系統(tǒng)關(guān)聯(lián)度進行集市劃分,如財務(wù)集市面向管理會計等財務(wù)分析應(yīng)用進行專門的數(shù)據(jù)加工、使用者主要為計劃財務(wù)部。監(jiān)管集市主要面向給人行、銀監(jiān)進行監(jiān)管報送報表的加工,涉及多個業(yè)務(wù)管理部門。

(4)批量接口區(qū):

數(shù)據(jù)倉庫給各下游數(shù)據(jù)應(yīng)用系統(tǒng)、倉外集市的數(shù)據(jù)接口加工區(qū),按雙方約定的數(shù)據(jù)格式提供給數(shù)據(jù)應(yīng)用系統(tǒng),批量接口區(qū)按接口協(xié)議做簡單關(guān)聯(lián),不做復(fù)雜加工,如果平臺支持視圖,接口區(qū)可以只有視圖提供給下游接口,減少數(shù)據(jù)冗余。

(5)非結(jié)構(gòu)化數(shù)據(jù)存儲計算區(qū):

主要對非結(jié)構(gòu)化數(shù)據(jù)進行存儲計算,按一定的數(shù)據(jù)類型、來源、用途進行區(qū)域劃分,方便實時查看和分析;

(6)歷史數(shù)據(jù)區(qū):

面向主數(shù)據(jù)區(qū)和非結(jié)構(gòu)化數(shù)據(jù)區(qū)的歷史數(shù)據(jù)歸檔和查詢。主數(shù)據(jù)區(qū)和非結(jié)構(gòu)化數(shù)據(jù)區(qū)一般只保留1-3年的數(shù)據(jù),之前的數(shù)據(jù)使用率低,可專門歸檔到歷史數(shù)據(jù)區(qū),提高主數(shù)據(jù)區(qū)的性能;同時歷史數(shù)據(jù)區(qū)可以采用成本較低的設(shè)備,降低成本。

(7)實時數(shù)據(jù)區(qū):

實時數(shù)據(jù)區(qū)主要面向流式數(shù)據(jù)的加工和處理,同時對于流處理所需的主數(shù)據(jù)區(qū)數(shù)據(jù)可以直接訪問也可以存儲一份在實時數(shù)據(jù)區(qū)。

(8)在線訪問區(qū):

在線訪問區(qū)數(shù)據(jù)是數(shù)據(jù)加工結(jié)果數(shù)據(jù),以實時數(shù)據(jù)接口方式提供給外部使用。該部分數(shù)據(jù)可以采用HBASE提供在線查詢服務(wù)。

3、倉外集市數(shù)據(jù)區(qū)

倉外數(shù)據(jù)集市和倉內(nèi)數(shù)據(jù)集市區(qū)別只是和數(shù)據(jù)倉庫不在同一物理平臺,但一樣面向特定的數(shù)據(jù)應(yīng)用進行加工分析,一般隨著數(shù)據(jù)量的增加,數(shù)據(jù)倉庫的平臺負荷過大往往會將集市從倉內(nèi)移到倉外,或者對于需24小時隨時提供數(shù)據(jù)處理的數(shù)據(jù)集市,為了不與數(shù)據(jù)倉庫平臺競爭資源,也一般選擇在倉外建設(shè)數(shù)據(jù)集市。

?

4、報表區(qū)

報表區(qū)數(shù)據(jù)是加工后的報表結(jié)果數(shù)據(jù),為報表平臺提供展示數(shù)據(jù),因為報表系統(tǒng)往往是7*24小時提供服務(wù),因此在數(shù)據(jù)平臺外單獨建立報表平臺,減少耦合性,在行內(nèi)可以建設(shè)統(tǒng)一的報表平臺,對報表的開發(fā)、整合、維護、下線進行統(tǒng)一管理,減少重復(fù)報表開發(fā)。

?

5、數(shù)據(jù)探索區(qū)

數(shù)據(jù)探索區(qū)是提供給各業(yè)務(wù)部門進行數(shù)據(jù)探索的區(qū)域,該區(qū)域的數(shù)據(jù)根據(jù)業(yè)務(wù)分析需求從數(shù)據(jù)倉庫進行加載,并T+1進行更新,由業(yè)務(wù)同事對數(shù)據(jù)進行自由分析和挖掘。

該平臺一般性能要求也比較高,可以使用MPP數(shù)據(jù)庫或HADOOP平臺進行技術(shù)實現(xiàn)。由于業(yè)務(wù)人員使用比較隨意,該區(qū)域需要注意歷史數(shù)據(jù)的清理,避免過多冗余無用的數(shù)據(jù)占用大量空間。

從數(shù)據(jù)分層來看,存儲計算區(qū)是最為核心的部分,存儲計算區(qū)大部分銀行是由MPP數(shù)據(jù)庫和HADOOP平臺共同來實現(xiàn),部分互聯(lián)網(wǎng)銀行單獨使用HADOOP平臺來實現(xiàn)。以下是一種常見的MPP和HADOOP平臺協(xié)作的存儲計算數(shù)據(jù)區(qū)的技術(shù)實現(xiàn):

?

從各數(shù)據(jù)區(qū)域的使用團隊來看,如果全行數(shù)據(jù)進行統(tǒng)一存儲管理或者采用數(shù)據(jù)中臺,那存儲計算區(qū)建議由統(tǒng)一團隊進行開發(fā)維護,數(shù)據(jù)集市區(qū)、數(shù)據(jù)采集區(qū)、數(shù)據(jù)實驗區(qū)、報表區(qū)可以統(tǒng)一規(guī)范和技術(shù)平臺,由各數(shù)據(jù)應(yīng)用團隊負責(zé)各自程序維護,通過用戶權(quán)限管理進行隔離。

歡迎關(guān)注我的公眾號“商業(yè)智能研究”,私信回復(fù)“資料包”,即可領(lǐng)取大數(shù)據(jù)、數(shù)據(jù)中臺、商業(yè)智能、數(shù)據(jù)倉庫等6G精華資料!

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的我花600小时,调研30家银行,为你讲透银行数据架构,小白都能懂的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。