《数据中台:让数据用起来》读书笔记
本篇博客是通過閱讀《數據中臺:讓數據用起來》,結合現在自己正在一個數據中臺還沒成體系化的公司中的一些工作經歷寫的一些筆記和個人感想。一直很喜歡數據產品經理這個崗位,也希望有一天能夠真正理解數據中臺的含義和構建過程,能夠獨自帶領搭建一個公司的數據中臺
1、數據化平臺
特征:充分協同并融入業務流程,統一數據模型并可平滑交換數據,云原生和數據能力開放,以及智能化
數據資產:能夠直接作用于業務領域,業務能夠閱讀、能理解的數據才叫數據資產
數據中臺建設特點:業務數據化–數據資產化–資產服務化–服務業務化
2、數據中臺
① 定義:數據中臺是一套可持續“讓企業的數據用起來”的機制,是一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建的一套持續不斷把數據變成資產并服務于業務的機制
② 數據中臺的核心能力
數據匯聚整合–數據提純加工–數據服務可視化–數據價值變現
③ 數據中臺建設目標評估
④ 建設內容
技術體系–數據體系–服務體系–運營體系
技術體系:分兩個層面,大數據存儲計算技術和數據中臺工具技術組件,技術體系主要關注點是工具技術組件。
數據體系:是數據中臺建設、管理、使用的核心要素,全企業的數據通過各種方式匯聚到數據中臺,在數據中臺按照一定的建模方式進行加工,形成企業的數據資產體系
服務體系:是通過數據中臺的服務組件能力,把數據變為一種服務能力,比如客戶微觀畫像服務、信用評估服務、風險預警服務等,讓數據能夠方便地參與到業務中并為業務帶去價值。
運營體系:是數據中臺得以健康、持續運轉的基礎。運營體系包括平臺流程規范執行監督、平臺資源占用的監管及優化推動、數據質量的監督及改進推動、數據價值的評估、數據服務的推廣、稽查排名等
3、數據中臺架構
4、數據中臺建設的評估與選擇
公司數據情況梳理:
①梳理公司現有有哪些業務線,每個業務線有哪些數據,分別以什么形式存儲以及數據的應用情況有哪些
②對數據的應用成熟度進行模型評估
5、數據開發
元數據管理:可以將Topic中相應的元數據信息統一維護到元數據注冊中心,將數據和元數據進行解耦, Topic中只需要存入數據即可
特征工程:是指在算法開發過程中,利用特征選擇、特征加工、特征降維等技術手段構建對結果具有顯著影響或便于模型處理的特征。利用特征工程相關的組件可以快速構建特征體系、快速選擇有效特征,進而大幅提高算法的質量,提升分析效率。常見的組件有主成分分析、特征尺度變換、特征離散、特征異常平滑、奇異值分解、one-hot編碼等
6、數據體系建設
①中臺數據體系特征:
a、覆蓋全域數據:數據集中建設,覆蓋所有業務過程數據,業務在中臺數據體系中總能找到需要的數據
b、結構層次清晰:縱向的數據分層,橫向主題域、業務過程劃分,讓整個層次結構清晰易理解
c、數據準確一致:定義一致性指標,統一命名、統一業務含義、統一計算口徑,并有專業團隊負責建模,保證數據的準確一致
d、性能提升:統一的規劃設計,選用合理的數據模型,清晰地定義并統一規范,并且考慮使用場景,使整體性能更好
f、降低成本:數據體系的建設使得數據能被業務共享,這避免了大量煙囪式的重復建設,節約了計算、存儲和人力成本
g、方便易用:易用的總體原則是越往后越能方便地直接使用數據,把一些復雜的處理盡可能前置,必要時做適當的冗余處理。比如在數據的使用中,可以通過維度冗余和事實冗余來提前進行相關處理,以避免使用時才計算,通過公共計算下沉、明細與匯總共存等為業務提供靈活性
②中臺數據體系架構
a、貼源數據層ODS(Operational Data Store,又稱操作數據層):對各業務系統數據進行采集、匯聚,盡可能保留原始業務流程數據,與業務系統基本保持一致,僅做簡單整合、非結構化數據結構化處理或者增加標識數據日期描述信息,不做深度清洗加工。
b、統一數倉層DW(Data Warehouse):又細分為明細數據層DWD(Data Warehouse Detail)和匯總數據層DWS (Data Warehouse Summary),與傳統數據倉庫功能基本一致,對全歷史業務過程數據進行建模存儲。對來源于業務系統的數據進行重新組織。業務系統是按照業務流程方便操作的方式來組織數據的,而統一數倉層從業務易理解的視角來重新組織,定義一致的指標、維度,各業務板塊、業務域按照統一規范獨立建設,從而形成統一規范的標準業務數據體系。
c、標簽數據層TDM(Tag Data Model):面向對象建模,對跨業務板塊、跨數據域的特定對象數據進行整合,通過ID-Mapping把各個業務板塊、各個業務過程中的同一對象的數據打通,形成對象的全域標簽體系,方便深度分析、挖掘、應用。
d、應用數據層ADS(Application Data Store):按照業務的需要從統一數倉層、標簽數據層抽取數據,并面向業務的特殊需要加工業務特定數據,以滿足業務及性能需求,向特定應用組裝應用數據。
③統一數倉層的建設過程
舉例:
業務板塊:商品素材板塊、作品板塊、短視頻板塊、評論帖子板塊
業務過程:業務過程與事實表一對一,點擊事實、購買事實、曝光事實、使用事實
原子指標:曝光次數、點擊次數、購買次數
派生指標:7天曝光次數、7天點擊,7天購買
維度屬性:時間維度、地點維度、商品維度
④數據域劃分
第一階段:數據調研
業務調研和數據調研
第二階段:業務分類
業務過程提取、業務過程拆分、業務過程分類
第三階段:數據域定義
業務分類確認、數據域定義
第四階段:總線矩陣構建
關系梳理、矩陣構建
舉例:
④指標設計
指標就是在企業業務運轉過程中產生的度量事實,一致性指標設計是為了在企業內外部使指標的命名、計算方法、業務理解達到一致,避免不同部門同一個指標的數據對不上或者對同一個指標的數據理解不一致
一致性指標:
a、維度表設計
維度表設計主要包括選擇維度、確定主維表、梳理關聯維表、定義維度屬性等過程。
b、事實表設計
事實表由兩部分組成:一部分是由主鍵和外鍵組成的鍵值部分,另一部分是用來描述業務過程的事實度量
⑤標簽設計
a、標簽分類
屬性標簽:對象本身的性質,性別、年齡等
統計標簽:一致性指標,日均登錄次數等
算法標簽:規則型和挖掘型指標,比如信用指數、購買能力、品牌偏好
b、標簽的設計內容
標簽的標簽,即元標簽的設計內容主要包括標簽類目、標簽名、標簽加工類型、標簽邏輯、值字典、取值類型、示例、更新周期、安全等級、表名、字段名、負責人、完成時間等。其中“標簽類目、標簽名、標簽加工類型、標簽邏輯、值字典、取值類型、示例、更新周期、安全等級”偏向業務方向,主要登記與業務所需相關的指標;“表名、字段名、負責人、完成時間”偏向技術方向,主要登記的技術開發實施過程相關的指標
7、數據服務
查詢服務、分析服務、檢索服務、圈人服務、推薦服務、風控服務等多種數據服務類型
總結
以上是生活随笔為你收集整理的《数据中台:让数据用起来》读书笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [Windows Server] 在 W
- 下一篇: 树莓派搭建minecraft服务器