BI中事实表,维度表和数据集市,数据仓库的理解
?
維度表(dimension)存放著一些維度屬性,例如時(shí)間維度:年月日時(shí);地域維度:省份,城市;年齡維度:老年,中年,青年;職稱維度:高,中,低。它定義了可以從哪些角度分析事實(shí)表。
事實(shí)表(fact)存放著一些業(yè)務(wù)產(chǎn)生的數(shù)據(jù),例如:商品訂購產(chǎn)生的訂單信息,銀行的流水信息,erp系統(tǒng)的辦公信息。但它不僅存放著上述事實(shí)信息,而且存放在事實(shí)信息與維度信息關(guān)聯(lián)的鍵值,例如訂單信息里面有日期字段可以和時(shí)間維度關(guān)聯(lián),可以通過銀行中的個(gè)稅流水與收入維度關(guān)聯(lián)量化各個(gè)收入群體,erp流水中的員工號(hào)可以同職稱維度表關(guān)聯(lián)統(tǒng)計(jì)公司運(yùn)行狀態(tài)。
其實(shí),在設(shè)計(jì)事實(shí)表與維度表的關(guān)聯(lián)關(guān)系時(shí),要引入兩個(gè)模型結(jié)構(gòu):星型表(star)和雪花表(snow)。
顧名思義,星型表模型是事實(shí)表與每個(gè)維度表分別關(guān)聯(lián),事實(shí)表位于中央,維度表圍繞事實(shí)表周圍。這種模型結(jié)構(gòu)是一種反范式的設(shè)計(jì)方式。優(yōu)點(diǎn)是設(shè)計(jì)簡單,減少了關(guān)聯(lián)事實(shí)表和維度表的關(guān)聯(lián)層級(jí),查詢效率會(huì)高一些,缺點(diǎn)是數(shù)據(jù)的冗余。例如:事實(shí)表student(學(xué)號(hào),年齡,姓名,國家,省份,地市,專業(yè)。。。),維度表:country(國家編碼,國家名稱),province(省份編碼,省份名稱),city(國家編碼,省份編碼,城市編碼,城市名稱);則在存儲(chǔ)來自同一省份不同地市的學(xué)生時(shí),國家和省份就重復(fù)存放了。
雪花表模型則是一種規(guī)范的范式結(jié)構(gòu),它的數(shù)據(jù)組織方式是消除冗余的,能有效減少數(shù)據(jù)量;優(yōu)點(diǎn)是減少了冗余并且在關(guān)聯(lián)查詢中不容易出現(xiàn)數(shù)據(jù)重復(fù)計(jì)算的情況,因?yàn)樗肓藬?shù)據(jù)完整性,缺點(diǎn)是維護(hù)復(fù)雜,增加了關(guān)聯(lián)層級(jí),執(zhí)行效率較低。例如:事實(shí)表student(學(xué)號(hào),年齡,姓名,地域,專業(yè)。。。),維度表:area(地域編碼,國家編碼,省份編碼,城市編碼)country(國家編碼,國家名稱),province(省份編碼,省份名稱),city(國家編碼,省份編碼,城市編碼,城市名稱)。
?
接著,有上述星型表和雪花表組成的數(shù)據(jù)集合就是一個(gè)數(shù)據(jù)集市(datamart),其面向于部門級(jí)應(yīng)用,存放少量的歷史數(shù)據(jù),數(shù)據(jù)來源于數(shù)據(jù)倉庫。
在數(shù)據(jù)集市的底層則為數(shù)據(jù)倉庫(data warehouse),它的數(shù)據(jù)來源于ODS,存放著大量歷史數(shù)據(jù),它是ods數(shù)據(jù)的視圖反映。數(shù)據(jù)存儲(chǔ)符合第三范式,面向企業(yè)級(jí)應(yīng)用。
?
另外,ODS(Operational Data Store):是業(yè)務(wù)產(chǎn)生的數(shù)據(jù),是不斷變化的數(shù)據(jù),例如業(yè)務(wù)產(chǎn)生的流水?dāng)?shù)據(jù)。
總結(jié)
以上是生活随笔為你收集整理的BI中事实表,维度表和数据集市,数据仓库的理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: “方脸老师”董宇辉爆火 刘畊宏直播间“降
- 下一篇: SharePoint安全 - Share