日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

阿里巴巴大数据之路——数据模型篇

發布時間:2025/3/21 72 豆豆
生活随笔 收集整理的這篇文章主要介紹了 阿里巴巴大数据之路——数据模型篇 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

阿里巴巴大數據之路——數據模型篇

一、概述

  1.什么是數據模型?

    數據模型就是數據的組織和存儲方法。主要關注的是從業務、數據存取和使用角度合理存儲數據。

  2.典型數據倉庫建模方法論

    ER模型

    緯度模型(建模四步曲:確定業務流程->確定粒度->確定緯度->確定事實表)

二、阿里巴巴數據整合管理體系oneData

   1.體系架構

    

    核心內容包括規范定義、模型設計等!

?    2.模型分層

      主要分為三大層(4小層):操作數據層(ODS),公共緯度模型層(CDM),應用數據層(ADS),其中,CDM又分為明細數據層(DWD)和匯總數據層(DWS)

      操作層數據ODS:貼源設計,幾乎無處理地存放操作系統數據

         ? ? ?結構化數據增量或全量同步到MaxComputer

         非結構化數據(日志)結構化處理同步到MaxComputer

         累積并保存清洗數據

       公共緯度模型層:存放明細數據、維表數據以及公共指標匯總數據,比較多的采用緯度退化的手段,將緯度退化到事實表中,減少關聯

        ??組合相關和相似數據,采用明細寬表,減少數據掃描

        ? 公共指標統一加工,統一口徑,建立邏輯匯總寬表

        ? 建立一致性緯度

      應用數據層ADS:存放數據產品個性化的指標數據

        ??個性化指標加工,無公用性

        ? 基于應用的數據組裝,大寬表集市、橫表轉縱表...

      整個模型如下圖所示:

      

?

        ??

          //數據調用服務一般優先使用CDM層,然后ODS,ADS作為應用數據一般不對外提供服務

    3.基本原則

      ? ?高內聚低耦合:將業務相近的放在一起,將高概率使用的放一起,遵循軟件設計開發的高內聚低耦合原則

      核心模型與拓展模型分離:核心模型只包含常用核心業務字段,保證核心模型的簡潔性

      一致性:相同含義的字段在不同表中必須使用相同的命名,表名等命名必須清晰一致,見名知意

      ...

   4.實施工作流

    (1)?數據調研

      包含業務調研和需求調研

   ? ??(2)?架構設計

      數據域劃分    

    【數據域設計】(就是給出數據的大分類,數據所屬的域)

?

      

?

      

?

      構建總線矩陣

    【總線結構】(就是列出緯度與主題,進行存在的緯度畫?)

     

      后續包括規范定義、模型設計與總結

?    規范定義:

      命名規范統一:表名、字段名等規范統一

      字段類型統一:相同與相似字段類型統一

      公共代碼與代碼值統一:代碼與標志性字段應統一

      

總結

以上是生活随笔為你收集整理的阿里巴巴大数据之路——数据模型篇的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。