数据中台到底是什么?
阿里提出了“大中臺(tái),小前臺(tái)”,其中臺(tái)事業(yè)部包括搜索事業(yè)部、共享業(yè)務(wù)平臺(tái)、數(shù)據(jù)技術(shù)及產(chǎn)品部,數(shù)據(jù)技術(shù)及產(chǎn)品部應(yīng)是數(shù)據(jù)中臺(tái)建設(shè)的核心部門。
那么,數(shù)據(jù)中臺(tái)到底是什么?具體包含哪些內(nèi)容?跟大數(shù)據(jù)平臺(tái)是什么關(guān)系?在架構(gòu)層面是怎么體現(xiàn)的?數(shù)據(jù)中臺(tái)跟產(chǎn)品又有什么關(guān)系?
阿里數(shù)據(jù)技術(shù)及產(chǎn)品部的掌門提倒了數(shù)據(jù)中臺(tái)的具體含義,這里引用他說的話:
“很多人會(huì)把數(shù)據(jù)比作“石油”,馬老師(馬云)也說過,阿里巴巴要成為全球電子商務(wù)的“水電煤”。我們現(xiàn)在搭建的數(shù)據(jù)中臺(tái),就是希望扮演“發(fā)電廠”的角色。”
“我們知道,電力的發(fā)展可以分為幾個(gè)階段,最開始是一些有能力的企業(yè)自己發(fā)電,后來出現(xiàn)新的工業(yè)產(chǎn)能,有的企業(yè)電用不掉,有的卻不夠用,這時(shí)候國(guó)家機(jī)構(gòu)就出來了,會(huì)去搭建國(guó)家級(jí)的電網(wǎng),不管是核能發(fā)電,還是風(fēng)力發(fā)電、水力發(fā)電,最大程度地保障不同群體的用電需求。”
“我們數(shù)據(jù)中臺(tái)也是這樣一個(gè)運(yùn)轉(zhuǎn)思路,我們落到實(shí)處是一個(gè)倒三角形,從下往上分為四個(gè)部分——”
“第一是數(shù)據(jù)技術(shù)。沒有數(shù)據(jù)中臺(tái)的時(shí)候,不管是阿里內(nèi)部還是各商家,大家都有自己的數(shù)據(jù)中心、機(jī)房、小數(shù)據(jù)庫(kù)。但當(dāng)數(shù)據(jù)積累到一定體量后,這方面的成本會(huì)非常高,而且數(shù)據(jù)之間的質(zhì)量和標(biāo)準(zhǔn)不一樣,會(huì)導(dǎo)致效率不高等問題。因此,我們需要通過數(shù)據(jù)技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行采集、計(jì)算、存儲(chǔ)、加工,同時(shí)統(tǒng)一標(biāo)準(zhǔn)和口徑。”
“第二是數(shù)據(jù)資產(chǎn)。數(shù)據(jù)中臺(tái)把阿里系的數(shù)據(jù)統(tǒng)一之后,會(huì)形成標(biāo)準(zhǔn)數(shù)據(jù),再進(jìn)行存儲(chǔ),形成大數(shù)據(jù)資產(chǎn)層,進(jìn)而保證為集團(tuán)各業(yè)務(wù)和商家提供高效服務(wù)。”
“第三和第四都是數(shù)據(jù)服務(wù),包括服務(wù)商家和服務(wù)小二。例如生意參謀和阿里指數(shù),就是數(shù)據(jù)中臺(tái)中面向商家端提供的數(shù)據(jù)服務(wù)。”
“數(shù)據(jù)中臺(tái)服務(wù)阿里,說白了更多是在為各位商家服務(wù)。平臺(tái)會(huì)確保大家在使用數(shù)據(jù)的過程中,口徑、標(biāo)準(zhǔn)、時(shí)效性、效率都有保障,能有更高的可靠性和穩(wěn)定性。”
以上說得好像都對(duì),但邏輯上有些是無法自洽的,比如這里的數(shù)據(jù)技術(shù)跟阿里云的數(shù)據(jù)技術(shù)是什么關(guān)系?數(shù)據(jù)中臺(tái)要不要承擔(dān)hadoop/ETL這類平臺(tái)和工具的研發(fā)?生意參謀是個(gè)端到端的產(chǎn)品,似乎不能劃為數(shù)據(jù)中臺(tái)?
當(dāng)然,從職能看,作為中臺(tái)部門的確需要基于產(chǎn)品直接服務(wù)一線客戶,而不是往后退,這也是以前筆者對(duì)于數(shù)據(jù)中臺(tái)最大的困惑,一直在想這個(gè)數(shù)據(jù)中臺(tái)的部門績(jī)效該如何定呢?沒有業(yè)務(wù)的滋養(yǎng)中臺(tái)如何迭代優(yōu)化呢,阿里算是解惑了。
但如果把直接的產(chǎn)品當(dāng)成中臺(tái)顯然是不合理的,阿里提了數(shù)據(jù)中臺(tái),忙壞的倒可能是那些做數(shù)據(jù)架構(gòu)和數(shù)據(jù)管理的,因?yàn)榧軜?gòu)講究邏輯嚴(yán)密,本質(zhì)和邊界必須定義清楚,沒有歧義,否則做事就會(huì)很茫然,不知道該怎么入手。
比如哪天領(lǐng)導(dǎo)問你,我們企業(yè)的數(shù)據(jù)中臺(tái)有沒有,要向阿里學(xué)習(xí)啊,有了清晰的概念你就可以做映射了,否則就會(huì)顯得手足無措,這種事情其實(shí)很多。
筆者的企業(yè)最近在做IT規(guī)劃,很多人就對(duì)數(shù)據(jù)中臺(tái)要帶一些產(chǎn)品職能有異議,記得以前筆者還把營(yíng)銷平臺(tái)當(dāng)成中臺(tái),號(hào)稱也是賦能所有營(yíng)銷人員的,這就是概念不清造成的問題。
說來也奇怪,網(wǎng)上很難找到數(shù)據(jù)中臺(tái)的更科學(xué)解釋,能找到的大多也不夠清晰,與大數(shù)據(jù)平臺(tái)有千絲萬縷的關(guān)系,筆者最近正好在思考這個(gè)問題,特此分享于你,當(dāng)然仁者見仁,智者見智了。
所謂數(shù)據(jù)中臺(tái),即實(shí)現(xiàn)數(shù)據(jù)的分層與水平解耦,沉淀公共的數(shù)據(jù)能力,筆者認(rèn)為可分為三層,數(shù)據(jù)模型、數(shù)據(jù)服務(wù)與數(shù)據(jù)開發(fā),通過數(shù)據(jù)建模實(shí)現(xiàn)跨域數(shù)據(jù)整合和知識(shí)沉淀,通過數(shù)據(jù)服務(wù)實(shí)現(xiàn)對(duì)于數(shù)據(jù)的封裝和開放,快速、靈活滿足上層應(yīng)用的要求,通過數(shù)據(jù)開發(fā)工具滿足個(gè)性化數(shù)據(jù)和應(yīng)用的需要,見下圖(以某運(yùn)營(yíng)商為例):
1、數(shù)據(jù)模型
數(shù)據(jù)模型是分層次的,以前叫作數(shù)據(jù)倉(cāng)庫(kù)模型,筆者這里概括為三層,基礎(chǔ)模型一般是關(guān)系建模,主要實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化,我們叫作“書同文、車同軌”,融合模型一般是維度建模,主要實(shí)現(xiàn)跨越數(shù)據(jù)的整合,整合的形式可以是匯總、關(guān)聯(lián),也包括解析,挖掘模型其實(shí)是偏應(yīng)用的,但如果用的人多了,你也可以把挖掘模型作為企業(yè)的知識(shí)沉淀到中臺(tái),比如離網(wǎng)挽留的模型具有很大的共性,就應(yīng)該有人把它規(guī)整到中臺(tái)模型,以便開放給其它人使用,中臺(tái)的中是相對(duì)的,沒有絕對(duì)的標(biāo)準(zhǔn)。
2、數(shù)據(jù)服務(wù)
將數(shù)據(jù)模型按照應(yīng)用要求做了服務(wù)封裝,就構(gòu)成了數(shù)據(jù)服務(wù),這個(gè)跟業(yè)務(wù)中臺(tái)中的服務(wù)概念是完全相同的,只是數(shù)據(jù)封裝比一般的功能封裝要難一點(diǎn),畢竟OLTP功能的變化有限,而數(shù)據(jù)分析受市場(chǎng)因素的影響很大,變化更快,導(dǎo)致服務(wù)封裝的難度變大。
隨著企業(yè)大數(shù)據(jù)運(yùn)營(yíng)的深入,各類大數(shù)據(jù)應(yīng)用層出不窮,對(duì)于數(shù)據(jù)服務(wù)的需求非常迫切,大數(shù)據(jù)如果不服務(wù)化,就無法規(guī)模化,比如浙江移動(dòng)封裝了客戶洞察、位置洞察、營(yíng)銷管理、終端洞察、金融征信等各種服務(wù)共計(jì)幾百個(gè),每月調(diào)用量超過億次,靈活的滿足了內(nèi)外大數(shù)據(jù)服務(wù)的要求。
3、數(shù)據(jù)開發(fā)
但有數(shù)據(jù)模型和數(shù)據(jù)服務(wù)還是遠(yuǎn)遠(yuǎn)不夠的,因?yàn)樵俸玫默F(xiàn)成數(shù)據(jù)和服務(wù)也往往無法滿足前端個(gè)性化的要求,這時(shí)候就得授人以魚不如授人以漁了,數(shù)據(jù)中臺(tái)的最后一層就是數(shù)據(jù)開發(fā),其按照開發(fā)難度也分為三個(gè)層次,最簡(jiǎn)單的是提供標(biāo)簽庫(kù)(DMP),用戶可以基于標(biāo)簽的組裝快速形成營(yíng)銷客戶群,一般面向業(yè)務(wù)人員,其次是提供數(shù)據(jù)開發(fā)平臺(tái),用戶可以基于該平臺(tái)訪問到所有的數(shù)據(jù)并進(jìn)行可視化開發(fā),一般面向SQL開發(fā)人員,最后就是提供應(yīng)用環(huán)境和組件,讓技術(shù)人員可以自主打造個(gè)性化數(shù)據(jù)產(chǎn)品,以上層層遞進(jìn),滿足不同層次人員的要求。
對(duì)于標(biāo)簽庫(kù)(DMP)到底是屬于SaaS還是PaaS是有爭(zhēng)議的,但標(biāo)簽庫(kù)這類平臺(tái)顯然較生意參謀類產(chǎn)品更中臺(tái)一點(diǎn),因?yàn)槠渫ㄓ眯愿鼜?qiáng),專有業(yè)務(wù)的特性不是非常明顯,筆者還是認(rèn)為可以歸為中臺(tái)。
應(yīng)該來講,數(shù)據(jù)開發(fā)中的組件,比如頁(yè)面組件、可視化組件什么的,歸屬到業(yè)務(wù)中臺(tái)似乎更合理,但其實(shí)也要看企業(yè)的實(shí)際情況,哪里用的多就可以歸屬到哪里,沒有絕對(duì)的標(biāo)準(zhǔn)了。
以上劃分方式在邏輯上還是說得通的,但還有很多沒有考慮進(jìn)來,比如算法服務(wù)、機(jī)器學(xué)習(xí)引擎、hadoop、MPP等等,筆者覺得算法服務(wù)應(yīng)該屬于數(shù)據(jù)服務(wù)的一種類型,但h a d o o p、MPP、機(jī)器學(xué)習(xí)引擎更底層一點(diǎn),應(yīng)屬于私有云或公有云的范疇了,比如筆者看到阿里云就提供了MaxCompute這類機(jī)器學(xué)習(xí)服務(wù)。
關(guān)于數(shù)據(jù)中臺(tái)的分層看似簡(jiǎn)單,但筆者卻糾結(jié)了好久,很多邊界是模糊的,最近看的一本書提到,新的概念如果跟既有知識(shí)體系不相符,一定要努力搞清楚,不能人云亦云,只要能表達(dá)出自己的觀點(diǎn),即使還是錯(cuò)了,也有了被人家糾正的機(jī)會(huì),對(duì)于事物理解的不深入,大多是不求甚解導(dǎo)致的概念不清的結(jié)果。
總結(jié)
以上是生活随笔為你收集整理的数据中台到底是什么?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 教育部计算机考研大纲,2021考研计算机
- 下一篇: 哥德巴赫猜想c语言 思路,01-哥德巴赫