《阿里巴巴数据中台实践》深入理解
?
4、以阿里云為支撐的大中臺小前臺戰(zhàn)略
這張圖很好的詮釋了阿里的商業(yè)操作系統(tǒng)引擎:阿里云平臺做支撐,做大中臺,做小前臺。這里要重點說一下業(yè)務(wù)數(shù)據(jù)化和數(shù)據(jù)業(yè)務(wù)化兩個概念。
業(yè)務(wù)數(shù)據(jù)化:就是所有的商業(yè)活動都應(yīng)該記錄下相關(guān)的數(shù)據(jù),這是業(yè)務(wù)中臺應(yīng)該承擔(dān)的使命。業(yè)務(wù)數(shù)據(jù)化挑戰(zhàn)其實很大,以前業(yè)務(wù)平臺在設(shè)計的時候,是以功能和流程為核心的,只記錄對于要實現(xiàn)功能和流程必需的數(shù)據(jù),其他的就可有可無了。比如運營商的一些信令日志記錄不全面導(dǎo)致可能影響后續(xù)的網(wǎng)絡(luò)分析或數(shù)據(jù)價值變現(xiàn),這就沒有做到業(yè)務(wù)數(shù)據(jù)化。但業(yè)務(wù)數(shù)據(jù)化有時意味著巨大的成本投入,說來容易執(zhí)行難,大多企業(yè)的數(shù)據(jù)不是業(yè)務(wù)數(shù)據(jù)化戰(zhàn)略執(zhí)行的結(jié)果,而僅僅是順便摘取的低垂的果實。數(shù)據(jù)團(tuán)隊的一個使命就是業(yè)務(wù)數(shù)據(jù)化,很多好的數(shù)據(jù)是你進(jìn)入前端爭取來的,這樣才能驅(qū)動業(yè)務(wù)記錄數(shù)據(jù)。
數(shù)據(jù)業(yè)務(wù)化:本質(zhì)就是從數(shù)據(jù)中發(fā)現(xiàn)價值,反過來賦能業(yè)務(wù),這是很好理解的。
6、阿里巴巴做數(shù)據(jù)中臺的緣起
做數(shù)據(jù)中臺的緣起跟一般數(shù)據(jù)倉庫融合模型是一樣的,共享復(fù)用的需要,比如原來基于淘寶數(shù)據(jù)的各種業(yè)務(wù)都自建一套中間層,而這些中間層很多是重復(fù)或類似的,比如螞蟻業(yè)務(wù)有交易主題,天貓也有交易主題,那能不能抽象出公共的交易主題為兩個業(yè)務(wù)都服務(wù)呢?因此你會看到阿里數(shù)據(jù)中臺抽象出了會員、商品、交易、瀏覽、廣告等公共核心主題層,從而為應(yīng)用層服務(wù),各個應(yīng)用層以前要做很多公共層的東西,現(xiàn)在也可以完全復(fù)用了,理論上可以提升應(yīng)用構(gòu)建的速度。
下面這頁片子從數(shù)據(jù)的依賴關(guān)系圖比對了前后的變化,一個是網(wǎng)狀的,代表了相互之間千絲萬縷的關(guān)系,冗余肯定是很多的,一個是放射狀的,一個節(jié)點可以為更多的后端節(jié)點服務(wù),代表了共享和簡潔。
7、阿里巴巴數(shù)據(jù)中臺全景圖
讀懂這張圖就理解了阿里的數(shù)據(jù)中臺具體到底干了些什么,有五大部分跟數(shù)據(jù)中臺直接相關(guān):數(shù)據(jù)中臺DaaS、數(shù)據(jù)資產(chǎn)管理IPaaS、數(shù)據(jù)研發(fā)平臺IPaaS及計算與存儲平臺IaaS(Daas的概念提的好,鼓掌鼓掌)。
1)計算與存儲平臺IaaS
流計算SteamCompute:類似于Spark或Flink的大數(shù)據(jù)流式處理框;
離線計算MaxCompute:阿里自研的EB級的數(shù)據(jù)倉庫(原來的ODPS)。
實時計算ADS:主要用于提供實時在線分析,是AnalyticDB的簡稱,可以認(rèn)為是阿里自研的OLAP版本。
2)數(shù)據(jù)中臺DaaS
垂直數(shù)據(jù)中心(OneClick):就是傳統(tǒng)數(shù)據(jù)架構(gòu)中的ETL,通過離線、實時等方式將各渠道的數(shù)據(jù)采集過來。
公共數(shù)據(jù)中心(OneData):就是數(shù)據(jù)倉庫建模需要達(dá)到的目的,保證數(shù)據(jù)口徑的規(guī)范和統(tǒng)一,沉淀共性的數(shù)據(jù),阿里采用的是維度建模,通過分析業(yè)務(wù)過程抽象出維度和指標(biāo),最后匯總成所需要的倉庫模型。
萃取數(shù)據(jù)中心(OneID):筆者的理解是阿里為了方便對外提供數(shù)據(jù),形成了一套以各種ID(業(yè)務(wù)核心對象)為唯一標(biāo)識的寬表,就好比運營商需要形成一套以用戶ID(手機(jī)號碼)、客戶ID、賬戶ID、家庭ID為核心的寬表體系一樣。
統(tǒng)一數(shù)據(jù)服務(wù)中間件(OneService):以數(shù)據(jù)倉庫整合計算好的數(shù)據(jù)作為數(shù)據(jù)源,對外通過接口的方式提供數(shù)據(jù)服務(wù)。
3)數(shù)據(jù)資產(chǎn)管理IPaaS
資產(chǎn)地圖:本質(zhì)上是數(shù)據(jù)字典的圖形化版本,阿里有多少數(shù)據(jù)、如何存儲、數(shù)據(jù)之間關(guān)系如何、如何找、如何用都可以從資產(chǎn)地圖找到答案,蠻形象的,從網(wǎng)上資料看,其設(shè)計還是值得借鑒,以下是一些界面截圖。
資產(chǎn)分析:你可以理解為針對元數(shù)據(jù)的BI分析,什么結(jié)構(gòu)分析,趨勢分析什么的,萬變不離其宗,你希望通過元數(shù)據(jù)分析理解現(xiàn)狀,發(fā)現(xiàn)異常,從而指導(dǎo)數(shù)據(jù)資產(chǎn)的治理,比如支付類別的數(shù)據(jù)增長情況如何。
資產(chǎn)應(yīng)用:你可以理解為利用元數(shù)據(jù)信息來提升數(shù)據(jù)資產(chǎn)的利用效率,比如通過影響分析挖掘出無效的數(shù)據(jù)資產(chǎn),從而降低數(shù)據(jù)冗余,這個工作做好,價值是很大的。
資產(chǎn)運營:運營這個詞被用爛了,運營其實不是一個功能,而是一個動作,希望通過各種舉措來讓數(shù)據(jù)被更多的人使用,從而產(chǎn)生更多的價值,比如新增數(shù)據(jù)資產(chǎn)的推薦等等。
數(shù)據(jù)資產(chǎn)使用的二八定律是非常明顯的,大多數(shù)據(jù)其實是沒人訪問或使用的,而存儲的成本可是很高的,只有通過運營才能讓沉默的數(shù)據(jù)被更多的人使用,無效的數(shù)據(jù)得到清除,從而實現(xiàn)降本增效。
4)數(shù)據(jù)研發(fā)平臺IPaaS
這個平臺跟筆者以前文章中提到的DACP是一個東西,就是負(fù)責(zé)數(shù)據(jù)的加工,需要一系列配套功能,包括數(shù)據(jù)規(guī)劃、交換、處理、開發(fā)、調(diào)度及監(jiān)控等等。
8、阿里巴巴數(shù)據(jù)中臺的沉淀與積累
1)OneData
數(shù)據(jù)標(biāo)準(zhǔn)化:實現(xiàn)數(shù)據(jù)資產(chǎn)各域、主題、模型、字段、指標(biāo)命名等的統(tǒng)一規(guī)范,筆者一直強(qiáng)調(diào)數(shù)據(jù)標(biāo)準(zhǔn)化一定要在源頭解決,如果阿里的業(yè)務(wù)系統(tǒng)數(shù)據(jù)資產(chǎn)都遵循這個原則,那是厲害的很。
技術(shù)內(nèi)核工具化:我的理解是規(guī)范的落地必須依托工具來強(qiáng)制控制,比如你只能按照規(guī)范模板的要求來建表,否則就執(zhí)行不了,阿里在這方面的管控?fù)?jù)說是比較給力的。
元數(shù)據(jù)驅(qū)動智能化:有了元數(shù)據(jù)分析就能科學(xué)的計算出對于資源的訴求,而且可以做得非??焖俸挽`活,擯棄每次規(guī)劃擴(kuò)容到處找依據(jù)的窘境,這跟前面的元數(shù)據(jù)應(yīng)用是類似的。
OneData是阿里數(shù)據(jù)中臺非常核心的內(nèi)容,其有一個Dataphin引擎,可以實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范定義、數(shù)據(jù)模型的自動化開發(fā)、主題式數(shù)據(jù)服務(wù)即時生成等功能。
具體如下面這個片子所示,其包括數(shù)據(jù)引入-規(guī)范定義-數(shù)據(jù)建模-數(shù)據(jù)外部關(guān)聯(lián)-數(shù)據(jù)資產(chǎn)沉淀-數(shù)據(jù)服務(wù)生成整個閉環(huán)鏈條,通過這一鏈條把數(shù)據(jù)管理的大多要素都實現(xiàn)了。
這種強(qiáng)規(guī)范性的開發(fā)模式在一定程度上也降低了靈活性,但其規(guī)模效益是非常好的,否則阿里這么龐大的數(shù)據(jù)資產(chǎn)是根本無法很好管理的,這個筆者深有體會,正如我們運營的DACP一樣,我們遭遇到的,他們也一定遭遇到了。
指標(biāo)標(biāo)準(zhǔn)化是筆者嘗試過的事情,因為當(dāng)初深感重復(fù)開發(fā)的報表太多了,而通過指標(biāo)標(biāo)準(zhǔn)化可以解決這類問題,這是報表做到一定程度后自然而然產(chǎn)生的想法,以下阿里的做法跟自己當(dāng)初做的如出一轍,所謂殊途同歸。
2)OneID
假設(shè)有一位用戶張三,在第一個手機(jī)上使用百度地圖, 在ipad上觀看百度愛奇藝視頻,在第二個手機(jī)上使用手機(jī)百度app, 在pc電腦上使用百度搜索,如何將同一個用戶在這些不同端的用戶信息聚合起來呢?跟運營商的天然的以手機(jī)號碼為唯一標(biāo)識不同,互聯(lián)網(wǎng)公司的各類賬號ID要打通的挑戰(zhàn)是非常高的,ID-MAPPING是互聯(lián)網(wǎng)公司的一個核心技術(shù),其需要確保各個領(lǐng)域搜集的數(shù)據(jù)是可以集成和關(guān)聯(lián)分析的,沒有統(tǒng)一ID的支持,多樣化的數(shù)據(jù)集中起來分析是沒有意義的,這是另一種形式的數(shù)據(jù)孤島。比如下面的四條用戶記錄實際上表明的是同一個人:
3)OneMeta
這里的“數(shù)據(jù)資產(chǎn)分析”和“數(shù)據(jù)血緣跟蹤”在前面的“數(shù)據(jù)資產(chǎn)管理IPaaS”都已經(jīng)提及,是數(shù)據(jù)管理里非常基本的東西,特別提下數(shù)據(jù)綜合治理。
安全:指的是諸如敏感數(shù)據(jù)分級和訪問控制定義。
質(zhì)量:指的是數(shù)據(jù)的質(zhì)量規(guī)則定義。
成本:指基于數(shù)據(jù)資產(chǎn)的調(diào)用情況和處理成本給出一個綜合評估。
人員:大概是數(shù)據(jù)資產(chǎn)指歸屬組織和個人的定義吧,比如我們的數(shù)據(jù)字典里就有一個屬性,必須標(biāo)識出這個資產(chǎn)的創(chuàng)建人、修改人以便跟蹤追責(zé)。
4)OneService
主題式數(shù)據(jù)服務(wù):應(yīng)該是基于元數(shù)據(jù)構(gòu)建的簡單數(shù)據(jù)服務(wù)查詢引擎,面向業(yè)務(wù)統(tǒng)一數(shù)據(jù)出口與數(shù)據(jù)查詢邏輯,屏蔽多數(shù)據(jù)源與多物理表,就是搞一套業(yè)務(wù)化的偽SQL方便取數(shù)。
統(tǒng)一而多樣化的服務(wù):一般查詢指普通SQL查詢,OLAP就是多維分析,在線服務(wù)比較抽象,筆者猜測是諸如數(shù)據(jù)推送、定時任務(wù)等定制化服務(wù)形式。
跨源數(shù)據(jù)服務(wù):大數(shù)據(jù)由于技術(shù)組件非常多,不同的數(shù)據(jù)往往存儲在不同的數(shù)據(jù)庫內(nèi),比如hadoop,gbase,oracle等等,如果要進(jìn)行跨異構(gòu)數(shù)據(jù)庫的即席查詢一般就要做先做數(shù)據(jù)匯聚,但一些輕量級的取數(shù)希望能直接進(jìn)行關(guān)聯(lián)分析得到結(jié)果,因此出現(xiàn)了這種服務(wù)訴求。
PPT就解讀到這里,筆者最大的感受就是阿里的數(shù)據(jù)中臺技術(shù)體系很龐大,但又非常關(guān)注細(xì)節(jié),幾個字看著簡單,但落地則需要付出巨大的代價,而且是個漸進(jìn)的過程,比如Dataphin。如要要了解阿里數(shù)據(jù)中臺的更多技術(shù)細(xì)節(jié),推薦一本書《阿里巴巴大數(shù)據(jù)實踐》。其實數(shù)據(jù)中臺要搞好不是簡單的引進(jìn)幾個工具就可以了,技術(shù)僅僅是技術(shù),你能COPY技術(shù)但COPY不了管理和文化,而這恰恰是數(shù)據(jù)中臺成功的關(guān)鍵。
數(shù)據(jù)中臺的更大挑戰(zhàn)是:你的企業(yè)對于數(shù)據(jù)的理解是否已經(jīng)達(dá)到了一定的階段,你是否能夠驅(qū)動公司去建立一套適合自己企業(yè)的數(shù)據(jù)管理機(jī)制和流程,而這個是最難的,你得走出自己的路。
總結(jié)
以上是生活随笔為你收集整理的《阿里巴巴数据中台实践》深入理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MAC 安装jenkins
- 下一篇: git安装、使用及常见报错