学习笔记-大数据之路-数据模型篇-建模综述
生活随笔
收集整理的這篇文章主要介紹了
学习笔记-大数据之路-数据模型篇-建模综述
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
第8章 大數據領域建模綜述
8.1,為什么需要數據建模
??數據爆發增長,如何將這些數據進行有序、有結構地分類組織和存儲
(數據太多了,怎么辦才能將數據放規矩點,方便后續查找,不要到處散亂)
??數據模型建立后好處:
- 性能 :良好的數據模型能幫助我們快速查詢所需要的數據,減少數據的I/O吞吐。 (查詢速度快)
- 成本:良好的數據模型能極大地減少不必要的數據冗余,也能實現計算結果復用,極大地降低大數據系統中的存儲和計算成本。 (降本增效)
- 效率 :良好的數據模型能極大地改善用戶使用數據的體驗,提高使用數據的效率。 (降本增效)
- 質量:良好的數據模型能改善數據統計口徑的不一致性,減少數據計算錯誤的可能性。(降低錯誤率)
8.2,關系數據庫系統和數據倉庫
??數據倉庫的關系模型來源自數據庫(本是同根生,你卻榜上富婆,一下子農轉非)
8.3,OLTP OLAP 系統的區別看模型方法論的選擇
8.4,典型的數據倉庫建模方法論
8.4.1,ER 模型
??采用ER模型建設數據倉庫模型的出發點是整合數據,將各個系統中的數據以整個企業角度按主題進行相似性組合和合并,并進行一致性處理,為數據分析決策服務,但是并不能直接用于分析決策。
8.4.2,維度模型(重點)
由Ralph Kimball倡導
設計步驟:
- 選擇業務過程
??業務過程可以是單個業務事件,比如交易的支付、退款等
??也可以是某個事件的狀態,比如當前的賬戶余額、物流信息等 - 選擇粒度
??在事件分析中,我們要預判所有分析需要細分的程度,從而決定選擇的粒度。粒度是維度的一個組合(個人理解如人的身份證號、人的姓名、人的性別是一對一,但是人的銀行卡賬號,手機號卻不是一對一,那么身份證號,姓名,性別是相同粒度,銀行卡和手機號卻不是相同粒度) - 識別維表
??選擇好粒度之后,就需要基于此粒度設計維表,包括維度屬性,用于分析時進行分組和篩選 - 選擇事實
??確定分析需要衡量的指標
8.4.3,Data Vault 模型
??不常用
8.4.4,Anchor 模型
??不常用
8.5 阿里巴巴數據模型實踐綜述
??OneData
??其包括一致性的指標定義體系 、模型設計方法體系以及配套工具。
我是dyson不只是吹風機,若是對大數據-數據倉庫技術感興趣的可以加我溝通交流,一起進步。VX:daijun1211
ps:若文章侵權、觸犯隱私請聯系作者刪除,謝謝~~
總結
以上是生活随笔為你收集整理的学习笔记-大数据之路-数据模型篇-建模综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Tomcat7安装(jdk 1.7环境)
- 下一篇: 智慧新泰时空大数据与云平台_智慧城市时空