基于阿里云数加MaxCompute的企业大数据仓库架构建设思路
摘要: 數(shù)加大數(shù)據(jù)直播系列課程主要以基于阿里云數(shù)加MaxCompute的企業(yè)大數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)建設(shè)思路為主題分享阿里巴巴的大數(shù)據(jù)是怎么演變以及怎樣利用大數(shù)據(jù)技術(shù)構(gòu)建企業(yè)級(jí)大數(shù)據(jù)平臺(tái)。 本次分享嘉賓是來(lái)自阿里云大數(shù)據(jù)的技術(shù)專家祎休 背景與總體思路 數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、非易失的、反映歷史變化的數(shù)據(jù)集合用于支持管理決策。
原文鏈接:http://click.aliyun.com/m/43803/
數(shù)加大數(shù)據(jù)直播系列課程,主要以基于阿里云數(shù)加MaxCompute的企業(yè)大數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)建設(shè)思路為主題,分享阿里巴巴的大數(shù)據(jù)是怎么演變以及怎樣利用大數(shù)據(jù)技術(shù)構(gòu)建企業(yè)級(jí)大數(shù)據(jù)平臺(tái)。
本次分享嘉賓是來(lái)自阿里云大數(shù)據(jù)的技術(shù)專家祎休!
背景與總體思路
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、非易失的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。其結(jié)構(gòu)圖如下所示:
隨著大數(shù)據(jù)、云計(jì)算等技術(shù)的應(yīng)用和普及,互聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)處理呈現(xiàn)出新的特征:業(yè)務(wù)變化快;數(shù)據(jù)來(lái)源多;系統(tǒng)耦合多;應(yīng)用深度深。業(yè)務(wù)變化加快導(dǎo)致數(shù)據(jù)來(lái)源增多,以前的數(shù)據(jù)大多來(lái)自于應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù),基本為結(jié)構(gòu)化數(shù)據(jù),比如Oracle、MySQL等數(shù)據(jù)?,F(xiàn)在的互聯(lián)網(wǎng)環(huán)境下有了更多的數(shù)據(jù),比如網(wǎng)站的點(diǎn)擊日志、視頻數(shù)據(jù)、語(yǔ)音數(shù)據(jù),這些數(shù)據(jù)都需要通過(guò)統(tǒng)一的計(jì)算來(lái)反映企業(yè)的經(jīng)營(yíng)狀況。在互聯(lián)網(wǎng)環(huán)境下,系統(tǒng)耦合也相對(duì)比較多,最重要的是要注重如何在這樣的環(huán)境下加深數(shù)據(jù)整合、提升應(yīng)用深度。從應(yīng)用深度上來(lái)說(shuō),之前更多專注于報(bào)表分析,在大數(shù)據(jù)環(huán)境下則更多地進(jìn)行算法分析,通過(guò)建立數(shù)據(jù)模型去預(yù)測(cè)和研判未來(lái)趨勢(shì)。所以在這種境況下,對(duì)于系統(tǒng)的需求也更高:
要求結(jié)果數(shù)據(jù)盡可能快的獲取;
實(shí)時(shí)性需求增多;
訪問(wèn)、獲取途徑多樣便捷;
安全要求高。
在高需求下,傳統(tǒng)倉(cāng)庫(kù)必然面臨著挑戰(zhàn):數(shù)據(jù)量增長(zhǎng)過(guò)快導(dǎo)致運(yùn)行效率下降;數(shù)據(jù)集成代價(jià)大;無(wú)法處理多樣性的數(shù)據(jù);數(shù)據(jù)挖掘等深度分析能力欠缺?;谶@些特征,用戶該如何構(gòu)建大數(shù)據(jù)倉(cāng)庫(kù)?在阿里云的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建過(guò)程中,總結(jié)出了以下四個(gè)衡量標(biāo)準(zhǔn):
穩(wěn)定——數(shù)據(jù)產(chǎn)出穩(wěn)定并有保障,維護(hù)系統(tǒng)的穩(wěn)定性;
可信——數(shù)據(jù)干凈,數(shù)據(jù)質(zhì)量足夠高,帶來(lái)更高效的應(yīng)用服務(wù);
豐富——數(shù)據(jù)涵蓋的業(yè)務(wù)面足夠廣泛;
透明——數(shù)據(jù)的構(gòu)成體系要足夠透明,使得用戶放心。
一個(gè)完備的大數(shù)據(jù)倉(cāng)庫(kù)應(yīng)該具備海量的數(shù)據(jù)存儲(chǔ)及處理能力、多樣的編程接口和計(jì)算框架、豐富的數(shù)據(jù)采集通道、多種安全防護(hù)措施及監(jiān)控等特征,所以在架構(gòu)構(gòu)建時(shí)需要遵循一定的設(shè)計(jì)準(zhǔn)則:
自上而下+自下而上地設(shè)計(jì),數(shù)據(jù)驅(qū)動(dòng)和應(yīng)用驅(qū)動(dòng)整合;
在技術(shù)選型上注重高容錯(cuò)性,保證系統(tǒng)穩(wěn)定;
數(shù)據(jù)質(zhì)量監(jiān)控貫穿整個(gè)數(shù)據(jù)處理流程;
不怕數(shù)據(jù)冗余,充分利用存儲(chǔ)交換易用,減少?gòu)?fù)雜度和計(jì)算量。
架構(gòu)及模型設(shè)計(jì)
一般來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建需要經(jīng)歷以上幾個(gè)過(guò)程。好的架構(gòu)設(shè)計(jì),在功能架構(gòu)、數(shù)據(jù)架構(gòu)、技術(shù)架構(gòu)上,都能夠很好滿足需求:
功能架構(gòu)示例:結(jié)構(gòu)層次清晰
數(shù)據(jù)架構(gòu)示例:注重?cái)?shù)據(jù)流向,數(shù)據(jù)質(zhì)量有保障
技術(shù)架構(gòu)示例:易擴(kuò)展、易用
構(gòu)建數(shù)倉(cāng)的首要任務(wù)就是模型設(shè)計(jì),業(yè)界一般采用的建模方法有兩種:
維度建模:結(jié)構(gòu)簡(jiǎn)單;便于事實(shí)數(shù)據(jù)分析;適合業(yè)務(wù)分析報(bào)表和BI。
實(shí)體建模:結(jié)構(gòu)復(fù)雜;便于主題數(shù)據(jù)打通;適合復(fù)雜數(shù)據(jù)內(nèi)容的深度挖掘。
用戶可以根據(jù)實(shí)際情況進(jìn)行區(qū)分,而在實(shí)際數(shù)據(jù)倉(cāng)庫(kù)中,星型模型和雪花模型是并存的,有利于數(shù)據(jù)應(yīng)用和減少計(jì)算資源消耗。
在數(shù)據(jù)處理分層上,一般采用較多的是上下三層結(jié)構(gòu):
這樣設(shè)計(jì)是為了壓縮整體數(shù)據(jù)處理流程的長(zhǎng)度,扁平化的數(shù)據(jù)處理流程有助于數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)運(yùn)維;把流式處理作為數(shù)據(jù)體系的一部分,能夠更加關(guān)注數(shù)據(jù)的時(shí)效性,使得數(shù)據(jù)價(jià)值更高。
基礎(chǔ)數(shù)據(jù)層
數(shù)據(jù)中間層
圍繞實(shí)體打通行為,能將數(shù)據(jù)源進(jìn)行整合;從行為抽象關(guān)系,則是未來(lái)上層應(yīng)用一個(gè)很重要的數(shù)據(jù)依賴。此外,冗余是個(gè)好手段,能夠保證主題的完整性,提高數(shù)據(jù)易用性。
數(shù)據(jù)集市層
需求場(chǎng)景驅(qū)動(dòng)的集市層建設(shè),各集市之間是垂直構(gòu)建的,需要能夠快速試錯(cuò),深度挖掘數(shù)據(jù)價(jià)值。
基于阿里云數(shù)加搭建大數(shù)據(jù)倉(cāng)庫(kù)
基于阿里云數(shù)加搭建大數(shù)據(jù)倉(cāng)庫(kù)的整個(gè)業(yè)務(wù)流程如下所示:
阿里云的數(shù)加架構(gòu)主要分為數(shù)據(jù)整合、數(shù)據(jù)體系、數(shù)據(jù)應(yīng)用三個(gè)層次,如下圖:
結(jié)構(gòu)化數(shù)據(jù)采集通常涉及到全量采集和增量采集。全量采集是整個(gè)數(shù)倉(cāng)的數(shù)據(jù)初始化,將歷史數(shù)據(jù)快速地同步到計(jì)算平臺(tái);增量采集是初始化之后的數(shù)據(jù)同步。但在數(shù)據(jù)量巨大、增量數(shù)據(jù)同步資源消耗嚴(yán)重,或者后續(xù)的數(shù)據(jù)應(yīng)用需要用到準(zhǔn)實(shí)時(shí)數(shù)據(jù)的情況下,還會(huì)采用實(shí)時(shí)采集的方法,這種方法對(duì)采集端系統(tǒng)有一定的要求,而且采集質(zhì)量最難控制。
事實(shí)上,日志原始結(jié)構(gòu)越規(guī)范,解析的成本越低。在日志采集到平臺(tái)之前,建議盡量不做結(jié)構(gòu)化,后續(xù)再通過(guò)UDF或MR計(jì)算框架實(shí)現(xiàn)日志結(jié)構(gòu)化。
數(shù)據(jù)倉(cāng)庫(kù)與阿里云數(shù)加產(chǎn)品的對(duì)應(yīng)關(guān)系
離線數(shù)倉(cāng):MaxCompute數(shù)據(jù)共享的安全性
數(shù)倉(cāng)的安全性是最為重要的話題?;贛axCompute的多租戶數(shù)據(jù)授權(quán)模型,是安全性非常之高的數(shù)據(jù)共享機(jī)制,在數(shù)據(jù)流、訪問(wèn)限制等方面能夠有效防治。
架構(gòu)設(shè)計(jì)中的一些最佳實(shí)踐
數(shù)據(jù)表命名規(guī)范
分區(qū)表、工作流設(shè)計(jì)
計(jì)算框架應(yīng)用、優(yōu)化關(guān)鍵路徑
實(shí)際開(kāi)發(fā)中的一些友好案例
用大數(shù)據(jù)治理大數(shù)據(jù)
數(shù)據(jù)治理分為保障機(jī)制、管理、內(nèi)容建設(shè)幾個(gè)方面,并且貫穿數(shù)據(jù)開(kāi)發(fā)的整個(gè)過(guò)程:
為了有效衡量數(shù)據(jù)治理的效果,阿里云使用的數(shù)據(jù)管理健康評(píng)估體系能夠正確認(rèn)識(shí)數(shù)據(jù)管理的健康性,給出數(shù)據(jù)管理健康分。
在數(shù)據(jù)治理過(guò)程中,比較重要的一點(diǎn)是重復(fù)數(shù)據(jù)治理。重復(fù)數(shù)據(jù)治理有多種表現(xiàn):
相同源頭:重復(fù)拖取同一張表;
計(jì)算相似:讀取表相同且處理特征相似;
簡(jiǎn)單加工:簡(jiǎn)單轉(zhuǎn)換、裁剪后保存至新表;
同表同分區(qū):數(shù)據(jù)保持不更新或業(yè)務(wù)已停止;
空跑表:運(yùn)算結(jié)果數(shù)據(jù)持續(xù)為空;
命名相似:表名或字段名相似度較高;
特殊規(guī)則:通過(guò)已知業(yè)務(wù)規(guī)則識(shí)別。
數(shù)據(jù)質(zhì)量管理體系
數(shù)據(jù)生命周期管理
總結(jié):阿里大數(shù)據(jù)實(shí)踐之路
識(shí)別以下二維碼,干貨
總結(jié)
以上是生活随笔為你收集整理的基于阿里云数加MaxCompute的企业大数据仓库架构建设思路的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 深入了解机器学习
- 下一篇: 谈谈社区、产品和新Dubbo | 从Du