数据产品经理修炼手册_数据产品经理需要了解的大数据平台架构
了解大數據平臺的基礎架構有助于我們清楚數據是怎么流轉與處理的,在每一層的結構中數據是以什么形式存儲的,當我們聽到工程師們談論到這些內容時,不至于一無所知。
本文內容偏基礎,適合像作為入門了解。
文不如表,表不如圖,先上一張大數據平臺架構圖:
大數據平臺架構圖按數據流向將大數據平臺分為3層。
第1層-原始數據層
在這一層中完成的是數據從業務數據系統傳輸到DOS操作型數據層的過程。業務數據通常是來源于各個業務系統(比如crm系統、訂單系統等)、用戶操作日志或其他第三方數據系統,這一過程的主要目的是將來自各方的數據在DOS操作型數據庫中實現數據集中。集中后的數據可以緩解業務系統的查詢壓力,同時方便地支持多維度分析等查詢功能。
這個過程中,我們要關注的是數據抽取的接口、數據量的大小、抽取方式。
DOS操作型數據層的數據特點:
- 通常是實時或分鐘級從業務數據層獲取數據
- 存儲的是當前的、不斷變化的數據,歷史數據通常保存3-6個月
第2層-數據倉庫層
數據倉庫不是一個獨立的個體,它是大數據平臺的一部分,是一個集成化的、面向主題的數據存儲集合,它既不生產數據,也不消費數據,它存儲的通常是歷史的、不再變化的數據。
數據倉庫的特點:
1)面向主題
數據倉庫的主要功能就是向數據應用層提供信息以作出決策,所以數據倉庫通過一個個主題域將多個業務系統的數據加載到一起,來支持對各個主題的分析。
2)集成性
數據倉庫中的數據來源于眾多不同數據源。數據倉庫系統將多處的數據源通過一定的規則進行etl處理,再聚合集成到數據倉庫。
3)穩定性
對數據倉庫中的數據一般僅執行查詢操作,很少會有刪除和更新。這些數據是為企業數據分析而建立,所以數據被加載后通常會被長期保留。
4)數據的切片存儲
數據倉庫的數據存儲是加了時間戳的,相當于是把數據按照快照的方式存了n個版本,從而避免業務數據被不斷覆蓋,使得歷史時間的數據可追溯、分析。
數據的分層存儲:
數據倉庫的數據存儲是分層級的,這個架構一方面跟數據拉取方式有關,一方面也是為了對數據進行層級的抽象處理。數據倉庫主要分為基礎層、主題層、數據集市層三層。
1)基礎層
ODS層的數據經過簡單的etl處理進入基礎層,通過建模的方式,經業務模型、領域模型、邏輯模型、物理模型一系列處理,來實現對數據的輕度匯總,產出輕度匯總明細表、維度表等。
這個過程中,對于數據的etl處理,會涉及到一些數據錯誤、遺漏、不規范、不統一等問題,產品經理需要和研發工程師做好溝通,提供數據清洗邏輯。
2)主題層
主題層的存儲的是高度綜合的數據,是由ODS層和基礎層的數據按照一定的維度和業務邏輯聚合而來,仍然覆蓋了所有的業務數據,只是它的數據存儲形式是面向主題的,比如訂單主題、商品主題、物流主題等,目的是可以滿足用戶分析某個主題的需求。
這一層的搭建規則要依賴于公司業務需求,所以產品經理需要對業務有深入的理解。
3)數據集市層
數據集市可以理解為是一種“小型數據倉庫”,一般面向部門、面向主題或特定應用,它最主要作用是將主題數據組合成數據分析模型,數據的結構通常是由事實表和維度表構成的星型結構或雪花結構。
星型模型是面向主題的常用模式,主要由一個事實表及多個維表構成,不存在二級維表。
雪花模型是在星型模型基礎上將維度表再次擴展,好處是耦合性低,冗余小。缺點是需要跨多表查詢時性能低。
第3層-數據應用層
數據倉庫的數據通常服務于數據可視化報表、數據分析(包含數據挖掘)、即席查詢。
數據報表幾乎是每個數據倉庫的必不可少的一類數據應用,將聚合數據和多維分析數據展示到報表,使數據更直觀、易理解。
數據分析是數據倉庫的主要應用,用戶可以提取到隱藏的、重要的信息,進而開展描述性、預測性、指導性的數據分析,為企業提供更大的商業價值。
即席查詢(Ad Hoc)是用戶根據自己的需求,靈活的選擇查詢條件,系統能夠根據用戶的選擇生成返回響應的結果,例如返回用戶自定義的統計報表。這需要數據庫內部實時自動優化,所以即席查詢也是評估數據倉庫的一個重要指標。在一個數據倉庫系統中,即席查詢使用的越多,對數據倉庫的要求就越高。
總結
針對大數據平臺,作為產品經理,我們首先應該做到:
1)了解大數據平臺的架構、數據的流轉與處理,方便與研發溝通交流
2)在數據清洗時,能夠提供保證數據質量的數據清洗規范
3)對業務要有深刻的理解,能更好地了解或參與主題構建、數據分析模型構建
參考資料
1.《數據產品經理修煉手冊》
2.數據倉庫學習筆記:修煉數據產品經理
http://www.woshipm.com/data-analysis/950578.html
3.數據倉庫的基本架構
http://www.woshipm.com/pd/676.html
4.大數據時代:數據倉庫搭建之路
http://www.woshipm.com/data-analysis/1932441.html
總結
以上是生活随笔為你收集整理的数据产品经理修炼手册_数据产品经理需要了解的大数据平台架构的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pyecharts官网使用说明书---保
- 下一篇: Gluster常见故障处理和HOWTO资