日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

层 数据仓库_小尝试:基于指标体系的数据仓库搭建和数据可视化

發(fā)布時間:2023/12/3 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 层 数据仓库_小尝试:基于指标体系的数据仓库搭建和数据可视化 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

關(guān)于作者:小姬,某知名互聯(lián)網(wǎng)公司產(chǎn)品專家,對數(shù)據(jù)采集、生產(chǎn)、加工有所了解,期望多和大家交流數(shù)據(jù)知識,以數(shù)據(jù)作為提出好問題的基礎(chǔ),挖掘商業(yè)價值。

0x00 前言

我將整理文章分享數(shù)據(jù)工作中的經(jīng)驗,因為業(yè)務(wù)內(nèi)容上的差異,可能導致大家的理解不一致,無法體會到場景中的諸多特殊性,不過相信不斷的溝通和交流,可以解決很多問題。前面我們分析了職場基本功、數(shù)據(jù)指標體系,今天我們來就前面文章中的指標體系,聊一下數(shù)據(jù)倉庫的搭建和數(shù)據(jù)可視化。

歷史導讀:

小進階:數(shù)據(jù)指標體系和數(shù)據(jù)治理的管理

小訣竅:不妨嘗試從交付質(zhì)量上打敗對手

以下,Enjoy:

0x01 為什么基于指標體系搭建數(shù)據(jù)倉庫

前面文章中我們提到過為什么要搭建指標體系,如果還無法體會指標體系的作用和意義,可以通過歷史導讀重溫前面的2篇文章,或者加入我們的微信群,同大家一起交流。這里簡單的在換2句話描述一下做指標體系的重要性。

  • 搭建指標體系實際上是同需求方達成一種協(xié)議,可以有效地遏制不靠譜的需求,讓需求變得體系且有條理;
  • 數(shù)據(jù)指標體系是指導數(shù)據(jù)倉庫搭建的基石,穩(wěn)定且體系的數(shù)據(jù)需求,有利于數(shù)據(jù)倉庫方案優(yōu)化,效率提升。

沒有數(shù)據(jù)指標體系的團隊內(nèi)數(shù)據(jù)需求經(jīng)常表現(xiàn)為“膨脹”現(xiàn)象。每個人都有看數(shù)據(jù)的視角和訴求,然后以非專業(yè)的方式創(chuàng)造維度/指標的數(shù)據(jù)口徑。數(shù)據(jù)從業(yè)人員被海量的數(shù)據(jù)需求纏住,很難抽離出業(yè)務(wù)規(guī)則設(shè)計好的解決方案,最終滾雪球似的搭建難以維護的“煙囪式”數(shù)據(jù)倉庫。

提供數(shù)據(jù)可視化方案的過程,依然存在像搭建數(shù)據(jù)倉庫一樣的問題。數(shù)據(jù)可視化報表數(shù)量膨脹但使用率低,好似再多的數(shù)據(jù)報表都遠遠不夠滿足數(shù)據(jù)需求一樣。長久下來維護成本居高不小,效益率不夠高。這讓數(shù)據(jù)從業(yè)者很苦惱,如果大家還有其他苦惱的問題,希望繼續(xù)深入的溝通了解,歡迎評論留言或者加入我們的微信群聊共同交流。

0x02 基于指標體系搭建數(shù)據(jù)倉庫思考

我們簡單回憶下的數(shù)據(jù)倉庫分層問題,做“又寬又薄”的數(shù)據(jù)倉庫分層,讓數(shù)據(jù)能夠有序的流轉(zhuǎn)。數(shù)據(jù)全鏈路的整個生命周期只有通過層次才能清洗明確的被使用者感知和消費。任何跨層依賴,循環(huán)依賴,多重依賴都會導致數(shù)據(jù)問題的多發(fā)且不可維護。

  • 數(shù)據(jù)倉庫常見分層方式

  • 數(shù)據(jù)倉庫分層和跨層依賴、循環(huán)依賴、多重依賴的不同表現(xiàn)形式

因此,我們需要有效的組織和管理數(shù)據(jù),讓它更有秩序。

  • 每層都有作用域和職責,清晰每層數(shù)據(jù)的目標定位和理解。
  • 規(guī)范工作方式,做標準數(shù)據(jù)分層,開發(fā)通用性強(健壯)的數(shù)據(jù)中間層,避免耦合重復計算問題。
  • 提供統(tǒng)一的數(shù)據(jù)服務(wù),輸出統(tǒng)一認知的數(shù)據(jù)口徑
  • 將復雜的數(shù)據(jù)任務(wù)拆解,標準步驟每層解決場景問題。

從數(shù)據(jù)倉庫的分層來看,ODS層是貼業(yè)務(wù),形態(tài)主要依賴業(yè)務(wù)數(shù)據(jù)形式;APP層是貼使用場景,取決于數(shù)據(jù)怎么呈現(xiàn)和消費,DW層是中間層,負責發(fā)揮重要的擴展作用,肩負大量的數(shù)據(jù)加工計算責任。

鑒于以上數(shù)據(jù)倉庫的分層邏輯,我們不難得出結(jié)論。

  • ODS層的搭建不需要過多思考,依賴業(yè)務(wù)庫的表現(xiàn)形式;
  • APP層的更多依賴數(shù)據(jù)最終的場景搭建,考慮場景因素居多,比如多維、速度、口徑。

只有DW層讓數(shù)據(jù)生產(chǎn)者有極大的發(fā)揮空間,如何設(shè)計出好的(擴展性強)DW層是數(shù)據(jù)倉庫的重點標準,相信很多同學在DW層搭建的過程都出現(xiàn)過類似問題“理想很豐滿,現(xiàn)實很殘酷”,搭建的數(shù)據(jù)“不接地氣,不實用”,還是不能解決數(shù)據(jù)需求問題,總是跟不上業(yè)務(wù)的發(fā)展變幻。

那么,從現(xiàn)在開始不妨首先建立指標體系,基于指標體系搭建數(shù)據(jù)倉庫。我們常見的指標體系大致包含以下內(nèi)容:

  • 產(chǎn)品框架
  • 數(shù)據(jù)矩陣
  • 說明:

    根據(jù)產(chǎn)品框架梳理出可靠的數(shù)據(jù)矩陣效果最佳,單現(xiàn)實的情況是在產(chǎn)品框架下的不同報表的指標口徑或是計算邏輯可能存在差異,因此數(shù)據(jù)矩陣可以是根據(jù)某個報表單獨針對性小矩陣。

  • 數(shù)據(jù)口徑
  • 說明:同數(shù)據(jù)矩陣一樣不同的數(shù)據(jù)報表中,相同的指標名稱可能存在不同的數(shù)據(jù)口徑或者計算邏輯 ,因此指標的口徑定義方面也可以做一些調(diào)整,例如口徑和計算邏輯不同,必須區(qū)分出不同的指標名稱,或者是相同的指標名稱,做好指標口徑定義的說明,告知受眾群體差異點在哪里。

    0x03 基于指標體系搭建數(shù)據(jù)倉庫

    常見的數(shù)據(jù)倉庫搭建,實現(xiàn)數(shù)據(jù)分層大致分為兩種模式:

    • A模式:基于業(yè)務(wù)實體或者數(shù)據(jù)的應用場景,從應用層向底層推導過程。
    • B模式:基于已有的數(shù)據(jù),從底層分類整理數(shù)據(jù),向應用層逐步搭建。

    以底層向應用層搭建數(shù)據(jù)倉庫,側(cè)重在于需求尚且不清晰的情形下開展數(shù)據(jù)開發(fā)工作,首先實現(xiàn)數(shù)據(jù)預處理,做好數(shù)據(jù)的采集對接和數(shù)據(jù)主題分類。以備數(shù)據(jù)消費場景落地的時候,快速實現(xiàn)功能的開發(fā)。這種模式通用型強,使用廣泛,同時也會造成很多冗余和設(shè)計不合理,實際響應需求的時候出現(xiàn)擴展性差,重構(gòu)幾率高的現(xiàn)象。

    另一種模式則是在需求明確的前提下,以需求向底層推導數(shù)據(jù)倉庫建模。通過需求讓參與項目的各方快速理解業(yè)務(wù)訴求,統(tǒng)一目標的認知。高質(zhì)量的梳理出業(yè)務(wù)需求和數(shù)據(jù)倉庫之間的關(guān)系,針對性強的搭建數(shù)據(jù)倉庫。但是這依然有詬病,就是數(shù)據(jù)建設(shè)容易出現(xiàn)“煙囪式”搭建,滿足場景有限,復用性差。

    基于指標體系搭建數(shù)據(jù)倉庫,主要解決的是“A模式”中的數(shù)據(jù)場景考慮不全面的問題。如果數(shù)據(jù)的使用場景考慮不全面就會造成“煙囪式”數(shù)據(jù)搭建,復用性差。數(shù)據(jù)需求如果以“點狀”碎片的形式提出,沒有全局的認知和規(guī)劃,數(shù)據(jù)倉庫的搭建只能針對性的以“點狀的煙囪式”搭建。如果需求能體系化的產(chǎn)出,梳理出業(yè)務(wù)場景中所需要的維度、指標。那么就可以最大限度的解決數(shù)據(jù)建模過程中的“煙囪式”,從而讓數(shù)據(jù)的搭建“又寬又薄”。

    例如,我們有如下數(shù)據(jù)矩陣

    那么,我們可以選擇的數(shù)據(jù)倉庫分層建模方式如下

    說明庫.表1:通過APP層的數(shù)據(jù)表服務(wù)數(shù)據(jù)可視化,數(shù)據(jù)應用服務(wù),多維查詢;庫.表2:實時明細表,通過與其他的實時表(庫.表3)或者維度表(庫.表4、5)關(guān)聯(lián)生成APP層的數(shù)據(jù)表;庫.表6:埋點數(shù)據(jù)產(chǎn)生的日志表,或者是從業(yè)務(wù)庫對接過來的業(yè)務(wù)數(shù)據(jù)(比如訂單數(shù)據(jù))

    0x04 數(shù)據(jù)可視化報表

    當然,理想很豐滿現(xiàn)實很殘酷,正如我?guī)状翁岬綄嶋H工作存在很多不理想,這是很多人遇到的問題,我也在探索新的方式,如果大家有興趣可以加入微信群一起交流。

    總結(jié)

    以上是生活随笔為你收集整理的层 数据仓库_小尝试:基于指标体系的数据仓库搭建和数据可视化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。