日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

建设数据中台之前,建议先看这份企业数据能力测评 | 大咖说中台

發(fā)布時(shí)間:2024/8/23 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 建设数据中台之前,建议先看这份企业数据能力测评 | 大咖说中台 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者 | 耿立超

來源 |?《大數(shù)據(jù)平臺(tái)架構(gòu)與原型實(shí)現(xiàn):數(shù)據(jù)中臺(tái)建設(shè)實(shí)戰(zhàn)》

“我的企業(yè)目前在數(shù)據(jù)應(yīng)用上處于什么水平?接下來應(yīng)該朝哪個(gè)方向努力?”本文試圖幫助企業(yè)決策者和IT負(fù)責(zé)人解答這一問題。

今天,數(shù)據(jù)之于企業(yè)的重要性已經(jīng)勿須多言,建設(shè)數(shù)據(jù)驅(qū)動(dòng)型企業(yè)已成為眾多企業(yè)的戰(zhàn)略目標(biāo)之一。在這一趨勢的引領(lǐng)下,很多企業(yè)開始了新一代數(shù)據(jù)平臺(tái)(例如數(shù)據(jù)中臺(tái))的建設(shè)工作,然而在啟動(dòng)這一具有挑戰(zhàn)性的工作之前,企業(yè)首先需要冷靜客觀地審視一下自己的數(shù)據(jù)生態(tài),弄清楚目前所處的能力水平,以及下一步努力的“方向”。

只有這樣才能確保后續(xù)工作沿著正確的方向展開,這可能也是企業(yè)在構(gòu)建全新的大數(shù)據(jù)平臺(tái)或數(shù)據(jù)中臺(tái)前最先需要弄清楚的問題。本文將就這一命題展開詳細(xì)論述。

本文核心觀點(diǎn)援引自作者所著的《大數(shù)據(jù)平臺(tái)架構(gòu)與原型實(shí)現(xiàn):數(shù)據(jù)中臺(tái)建設(shè)實(shí)戰(zhàn)》一書。

如何度量企業(yè)的數(shù)據(jù)應(yīng)用能力?

企業(yè)的數(shù)據(jù)應(yīng)用能力決定了企業(yè)在“數(shù)據(jù)”這座金礦中所能攫取的價(jià)值大小,既然是一種能力,就會(huì)有強(qiáng)有弱,有高有低,收集并統(tǒng)一存儲(chǔ)數(shù)據(jù)只是建立良好數(shù)據(jù)生態(tài)的第一步,數(shù)據(jù)背后的真正“價(jià)值”需要通過專業(yè)的手段進(jìn)行挖掘才能獲取。

“如果數(shù)據(jù)是燃料,那么分析就是引擎”,對于一家企業(yè)而言既要儲(chǔ)備燃料,也要裝配引擎,只有同時(shí)具備了數(shù)據(jù)和分析能力才能從數(shù)據(jù)中提煉出有價(jià)值的信息。為了清晰地度量企業(yè)在數(shù)據(jù)應(yīng)用上的能力水平,我們對數(shù)據(jù)應(yīng)用涉及的多個(gè)方面進(jìn)行了歸納和總結(jié),得到一個(gè)“企業(yè)數(shù)據(jù)應(yīng)用能力成熟度模型”:

圖1?企業(yè)數(shù)據(jù)應(yīng)用能力成熟度模型

在這個(gè)模型中,我們引入四個(gè)等級(jí)和兩個(gè)維度來度量企業(yè)的數(shù)據(jù)應(yīng)用能力:

1、第一層級(jí):數(shù)據(jù)流程自動(dòng)化?

數(shù)據(jù)流程自動(dòng)化指的是數(shù)據(jù)從產(chǎn)生的源頭到使用的末端是全自動(dòng)的流程,中間沒有手工操作,全部通過系統(tǒng)間的對接完成。可能有的讀者會(huì)認(rèn)為這一能力不足以成為一個(gè)獨(dú)立的等級(jí),因?yàn)榇蠖鄶?shù)高度信息化的企業(yè)都已實(shí)現(xiàn)了系統(tǒng)間的集成,即使是以最原始的文件形式交換數(shù)據(jù)也實(shí)現(xiàn)了流程自動(dòng)化,然而在很多企業(yè)中,實(shí)際的情況卻并非如大家想象中那樣理想。

現(xiàn)實(shí)中企業(yè)的數(shù)據(jù)來源豐富多樣,既有自身業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),也有外部系統(tǒng)和供應(yīng)商提供的數(shù)據(jù),還有業(yè)務(wù)人員日常手工維護(hù)的大量表格和純文本數(shù)據(jù),很多企業(yè)可能已經(jīng)完成了對自有應(yīng)用系統(tǒng)的自動(dòng)化數(shù)據(jù)采集與處理,但是對于大量的外部數(shù)據(jù)和業(yè)務(wù)人員手工維護(hù)的數(shù)據(jù)往往還沒有建立起有效的自動(dòng)化處理機(jī)制,這些數(shù)據(jù)往往有這樣一些特點(diǎn):

  • 格式不規(guī)范;

  • 經(jīng)常變動(dòng);

  • 缺乏基本的校驗(yàn),容易出現(xiàn)錯(cuò)誤數(shù)據(jù);

  • 數(shù)據(jù)供給周期不固定。

這些原因?qū)е铝诉@類數(shù)據(jù)很難被自動(dòng)化獲取和處理,而很多時(shí)候這些數(shù)據(jù)恰恰又是業(yè)務(wù)流程閉環(huán)中的重要組成部分,缺失這些數(shù)據(jù)會(huì)導(dǎo)致無法進(jìn)行分析或極大影響結(jié)果的準(zhǔn)確性。造成這類數(shù)據(jù)大量存在的原因有兩點(diǎn):

  • 企業(yè)的信息化程度依然不夠,在業(yè)務(wù)的某些局部環(huán)節(jié)或領(lǐng)域存在系統(tǒng)空白,從而需要業(yè)務(wù)人員手工介入,以文件和表格的方式維護(hù)數(shù)據(jù);

  • 企業(yè)的數(shù)據(jù)資產(chǎn)意識(shí)不足,對數(shù)據(jù)規(guī)范化的重視程度不夠,缺乏一些管控和約束機(jī)制。

相應(yīng)的,企業(yè)實(shí)現(xiàn)數(shù)據(jù)流程高度自動(dòng)化需要做好如下幾點(diǎn):

  • 持續(xù)進(jìn)行企業(yè)信息化改造和升級(jí),將IT系統(tǒng)覆蓋到企業(yè)的全部業(yè)務(wù)流程中,這可以在很大程度上避免手工維護(hù)數(shù)據(jù)的情況發(fā)生,因?yàn)楫?dāng)所有的業(yè)務(wù)流程都通過IT系統(tǒng)來驅(qū)動(dòng)時(shí),數(shù)據(jù)會(huì)自然沉淀到系統(tǒng)的后臺(tái)數(shù)據(jù)庫中,且這些數(shù)據(jù)都已經(jīng)過了系統(tǒng)的校驗(yàn)和規(guī)范化處理,質(zhì)量已得到大幅提升,同時(shí)也能方便地被提取出來放入數(shù)據(jù)平臺(tái);

  • 從企業(yè)管理層開始建立“數(shù)據(jù)資產(chǎn)”意識(shí),成立專門的數(shù)據(jù)治理組織,有計(jì)劃地規(guī)范和治理企業(yè)的數(shù)據(jù)生態(tài),對于重要的數(shù)據(jù)要制定統(tǒng)一而規(guī)范的格式,避免對數(shù)據(jù)格式進(jìn)行隨意改動(dòng)。

2、第二層級(jí):報(bào)表與數(shù)據(jù)可視化

在收集到足夠多的企業(yè)數(shù)據(jù)后,就可以開展常規(guī)報(bào)表和數(shù)據(jù)可視化的開發(fā)工作了,這是目前多數(shù)傳統(tǒng)企業(yè)所處的階段,它們通過傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)收集并整理了大部分的企業(yè)數(shù)據(jù),通過報(bào)表工具向業(yè)務(wù)和管理人員提供一些常規(guī)的報(bào)表,這些報(bào)表通常面向生產(chǎn)、供應(yīng)鏈、銷售、市場、財(cái)務(wù)等不同的業(yè)務(wù)環(huán)節(jié),在時(shí)間粒度上最細(xì)可達(dá)daily級(jí)別。數(shù)據(jù)的展示形式多以表格為主,同時(shí)也會(huì)借助報(bào)表工具進(jìn)行圖形化展示。

過去,報(bào)表大多在PC端展示,隨著移動(dòng)應(yīng)用的興起,開始出現(xiàn)越來越多面向企業(yè)用戶開發(fā)的手機(jī)APP和微信小程序,在這些終端上提供報(bào)表服務(wù)正越來越受企業(yè)業(yè)務(wù)用戶的歡迎。在這一層級(jí)上的企業(yè)對于數(shù)據(jù)處理和分析表現(xiàn)出如下一些特征:

  • 基本上完成了與各個(gè)業(yè)務(wù)系統(tǒng)的對接,數(shù)據(jù)能被自動(dòng)化采集;

  • 已經(jīng)建立了數(shù)據(jù)倉庫體系,企業(yè)數(shù)據(jù)可以被有效地統(tǒng)一管理;

  • 已經(jīng)開發(fā)了業(yè)務(wù)上迫切需要的一些核心報(bào)表,業(yè)務(wù)對數(shù)據(jù)系統(tǒng)的依賴度高;

  • 依托于成熟的數(shù)倉平臺(tái),新的報(bào)表和數(shù)據(jù)展示需求都可以較快地開發(fā)完成并投入使用。

第二層級(jí)是很多企業(yè)目前停留的階段,并且可能在這一層級(jí)上停留了很多年,因?yàn)楹芏嗥髽I(yè)都在這一層級(jí)上遇到了“瓶頸”,很難再發(fā)展到下一層級(jí),主要原因有以下三點(diǎn):

  • 傳統(tǒng)的單體數(shù)倉系統(tǒng)缺乏水平伸縮的能力,已經(jīng)無力應(yīng)對企業(yè)數(shù)據(jù)爆炸式的增長,不得不放棄或暫緩了對某些新業(yè)務(wù)數(shù)據(jù)的集成;

  • 傳統(tǒng)數(shù)倉只能處理關(guān)系型數(shù)據(jù),對于越來越多的圖片、視頻和其他非關(guān)系型數(shù)據(jù)無能為力,而這些數(shù)據(jù)往往是由新業(yè)務(wù)形態(tài)產(chǎn)生的,對于這類數(shù)據(jù)處理能力的缺失會(huì)讓企業(yè)錯(cuò)失新的市場機(jī)遇;

  • 傳統(tǒng)數(shù)倉只能進(jìn)行批量處理,缺乏實(shí)時(shí)數(shù)據(jù)處理和供給能力。

如果企業(yè)想突破這些瓶頸,就需要將自己的數(shù)據(jù)平臺(tái)升級(jí)到以大數(shù)據(jù)和AI為技術(shù)核心的新一代數(shù)據(jù)平臺(tái),然后重建數(shù)據(jù)版圖。

3、第三層級(jí):數(shù)據(jù)與業(yè)務(wù)融合

在第二層級(jí)時(shí),對于數(shù)據(jù)的應(yīng)用只局限在“描述”業(yè)務(wù)上,并沒有使數(shù)據(jù)參與到業(yè)務(wù)中,各種報(bào)表在業(yè)務(wù)用戶的工作中扮演的是一種輔助性角色,對于業(yè)務(wù)的影響是通過業(yè)務(wù)用戶和管理者在報(bào)表的支持下做出的判斷和決策,從成熟度模型上看,這是一種被動(dòng)和滯后的數(shù)據(jù)應(yīng)用方式,并沒有充分地發(fā)揮出數(shù)據(jù)蘊(yùn)含的潛能。

在進(jìn)入第三層級(jí)之后,這個(gè)狀況會(huì)逐漸被扭轉(zhuǎn),數(shù)據(jù)開始與業(yè)務(wù)進(jìn)行融合,數(shù)據(jù)以及數(shù)據(jù)處理能力將全面參與到業(yè)務(wù)流程的各個(gè)環(huán)節(jié)中去,從而產(chǎn)生更大的價(jià)值。這是一個(gè)全新的階段,是數(shù)據(jù)驅(qū)動(dòng)型企業(yè)在具備了大數(shù)據(jù)處理能力之后,借助AI和機(jī)器學(xué)習(xí)而達(dá)到的一種更加智能的企業(yè)信息化水平,在這一層級(jí)上企業(yè)將具備如下能力:

  • 數(shù)據(jù)直接賦能業(yè)務(wù),數(shù)據(jù)分析的結(jié)果將直接反饋回業(yè)務(wù)系統(tǒng),作為業(yè)務(wù)系統(tǒng)某些關(guān)鍵性操作的直接輸入;

  • 已對豐富的多維度數(shù)據(jù)進(jìn)行了融合,可以更加準(zhǔn)確地刻畫數(shù)據(jù)背后的“事實(shí)”;

  • 已具備實(shí)時(shí)的數(shù)據(jù)處理能力,可以讓業(yè)務(wù)用戶實(shí)時(shí)掌握業(yè)務(wù)動(dòng)向;

  • 大數(shù)據(jù)平臺(tái)已經(jīng)成熟且穩(wěn)定;

  • 已經(jīng)出現(xiàn)基于傳統(tǒng)的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的應(yīng)用,在某些局部領(lǐng)域開始出現(xiàn)小范圍的深度學(xué)習(xí)案例。

第三層級(jí)看上去有些抽象,我們可以通過一些案例來解讀。例如,會(huì)員體系是CRM系統(tǒng)中非常核心的一個(gè)功能,其中的會(huì)員積分計(jì)算是一個(gè)邏輯復(fù)雜且牽涉數(shù)據(jù)量巨大的操作,消費(fèi)者的每一筆交易和若干行為都會(huì)觸發(fā)積分的計(jì)算,傳統(tǒng)的CRM系統(tǒng)很難實(shí)現(xiàn)用戶積分的實(shí)時(shí)計(jì)算,基本都是按天進(jìn)行批量處理,這樣一來,用戶體驗(yàn)就會(huì)變差。

現(xiàn)在很多新的CRM系統(tǒng)都在積極地引入大數(shù)據(jù)的流式計(jì)算引擎,通過實(shí)時(shí)處理用戶交易和行為數(shù)據(jù),確保了用戶積分的及時(shí)累加與兌換,大大提升了用戶體驗(yàn)。這是數(shù)據(jù)與業(yè)務(wù)融合的一個(gè)非常好的案例,即借助大數(shù)據(jù)的計(jì)算能力來實(shí)現(xiàn)業(yè)務(wù)上的數(shù)據(jù)處理需求。

另一個(gè)案例是用戶畫像系統(tǒng),用戶畫像是基于用戶的基本信息,消費(fèi)記錄,社交行為等多種數(shù)據(jù)進(jìn)行數(shù)據(jù)建模之后,通過算法生成的關(guān)于用戶的一套標(biāo)簽體系,這些標(biāo)簽全面刻畫了用戶的特征和屬性,因此被稱為“用戶畫像”。用戶畫像系統(tǒng)在CRM、精準(zhǔn)營銷和以用戶為中心的產(chǎn)品與服務(wù)創(chuàng)新上發(fā)揮著重要作用,是很多2C端企業(yè)非常看重的一類系統(tǒng),同時(shí)它也是典型的大數(shù)據(jù)系統(tǒng),但功能和定位又是業(yè)務(wù)性極強(qiáng)的應(yīng)用系統(tǒng)。

從第二層躍升到第三層時(shí),企業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施會(huì)面臨一次脫胎換骨的革新,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)倉庫和BI等基礎(chǔ)設(shè)施已經(jīng)不能支撐第三層級(jí)的諸多需求了,這時(shí)需要企業(yè)構(gòu)建下一代的數(shù)據(jù)平臺(tái)。

業(yè)界對于“下一代數(shù)據(jù)平臺(tái)”的認(rèn)知經(jīng)歷過一些更迭,早期方案是使用大數(shù)據(jù)技術(shù)替換傳統(tǒng)的數(shù)倉系統(tǒng),后來出現(xiàn)了Data Lake——數(shù)據(jù)湖的理念,其方案還是以大數(shù)據(jù)作為主要的技術(shù)支撐,但是在理念上比傳統(tǒng)數(shù)倉又有創(chuàng)新,而現(xiàn)在業(yè)界特別是國內(nèi)最認(rèn)可也是呼聲最高的方案則非“數(shù)據(jù)中臺(tái)”莫屬了。

4、第四層級(jí):深度洞察與預(yù)測

現(xiàn)在人們的一個(gè)共識(shí)是:數(shù)據(jù)除了可以告訴我們現(xiàn)在,還可以“預(yù)知未來”,深度洞察與預(yù)測是數(shù)據(jù)金字塔最頂端的價(jià)值輸出,也是目前我們認(rèn)為的企業(yè)可以達(dá)到的數(shù)據(jù)應(yīng)用能力最高層級(jí),即運(yùn)用AI和深度學(xué)習(xí)對數(shù)據(jù)進(jìn)行深度洞察,揭示傳統(tǒng)分析方法無法發(fā)現(xiàn)的數(shù)據(jù)特征,并基于現(xiàn)有數(shù)據(jù)對未來趨勢進(jìn)行預(yù)測。

我們來看一下企業(yè)到達(dá)第四層級(jí)后會(huì)具備哪些能力。前面我們提到的智能門店選址的案例就是第四層級(jí)上的一個(gè)代表案例,對于零售行業(yè)來說,門店選址是非常重要的,會(huì)直接影響到零售商的銷售業(yè)績,傳統(tǒng)選址的做法是通過人工現(xiàn)場勘查,再經(jīng)過主觀判斷而確定下來的,這種方式選出的門店其實(shí)際效果難以量化,成功率無法保證,而如果能夠基于人口、消費(fèi)、競爭對手、環(huán)境業(yè)態(tài)和交通路網(wǎng)等豐富的多維度數(shù)據(jù)再配置適當(dāng)?shù)娜斯ぶ悄芩惴ㄟM(jìn)行綜合分析是可以得出更加精準(zhǔn)的選址方案的,并且不單單是門店位置,還可以給出門店的預(yù)計(jì)銷售額、門店產(chǎn)品的上貨策略等更加細(xì)致和完備的數(shù)據(jù)。

另一個(gè)示例是智能客服系統(tǒng),這類系統(tǒng)可以針對顧客提出的問題進(jìn)行語義識(shí)別,然后根據(jù)提出的問題在知識(shí)圖譜中進(jìn)行搜索,尋找匹配的答案或決策,人工智能客服可以7*24小時(shí)在線,隨時(shí)解答顧客的問題,既提高了客戶滿意度又能節(jié)省商家的人力成本。

以上四個(gè)層級(jí)并不一定非要自下而上逐層構(gòu)建,實(shí)際上很多企業(yè)的數(shù)據(jù)生態(tài)是在上層業(yè)務(wù)的驅(qū)動(dòng)下自然形成的,并不會(huì)像模型中描述的這樣層次分明,但是能力模型能給到企業(yè)管理者一個(gè)清晰的認(rèn)識(shí):即自身企業(yè)目前整體上停留在哪個(gè)層級(jí)上以及接下來應(yīng)該向哪個(gè)方向發(fā)展。

5、兩個(gè)縱深維度:決策支持與業(yè)務(wù)創(chuàng)新

最后,在成熟度模型圖的右側(cè),還有兩個(gè)貫穿始終的維度:決策支持與業(yè)務(wù)創(chuàng)新,它們既是企業(yè)構(gòu)建數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)分析的價(jià)值導(dǎo)向,也是企業(yè)數(shù)據(jù)應(yīng)用能力持續(xù)輸出的效果,企業(yè)達(dá)到的層級(jí)越高,對于決策支持與業(yè)務(wù)創(chuàng)新起到的支撐作用就越大越明顯。

在這兩個(gè)縱深維度上,企業(yè)需要做的是建立業(yè)務(wù)部門與技術(shù)團(tuán)隊(duì)的互信,以產(chǎn)出業(yè)務(wù)價(jià)值,進(jìn)行業(yè)務(wù)創(chuàng)新作為雙方共同追求的目標(biāo),同時(shí)潛移默化地培育企業(yè)的“數(shù)據(jù)文化”,在企業(yè)內(nèi)部形成“用數(shù)據(jù)說話”的氛圍。

所以這兩個(gè)縱深維度更多考察的是企業(yè)在數(shù)據(jù)方向上的管理、協(xié)作以及企業(yè)文化,是一個(gè)需要從管理者開始締造和推動(dòng),全員參與的良性互動(dòng)過程。在這一過程中,業(yè)務(wù)團(tuán)隊(duì)需要培養(yǎng)更好的數(shù)據(jù)素養(yǎng),善于通過數(shù)據(jù)分析業(yè)務(wù)現(xiàn)狀,并依靠數(shù)據(jù)進(jìn)行業(yè)務(wù)決策,而技術(shù)團(tuán)隊(duì)則應(yīng)不斷加強(qiáng)數(shù)據(jù)平臺(tái)的各項(xiàng)能力,確保更好的服務(wù)于業(yè)務(wù)分析,同時(shí)積極主動(dòng)地學(xué)習(xí)業(yè)務(wù)知識(shí),從IT視角為業(yè)務(wù)創(chuàng)新提供新鮮素材。

如何度量企業(yè)的數(shù)據(jù)技術(shù)水平?

前面我們是從數(shù)據(jù)應(yīng)用的“效果”上觀察企業(yè)的數(shù)據(jù)能力,當(dāng)落地到實(shí)現(xiàn)層面時(shí),“技術(shù)”就是不可或缺的了,構(gòu)建數(shù)據(jù)平臺(tái)通常是從基礎(chǔ)設(shè)施建設(shè)開始的,然后配合業(yè)務(wù)上的需求,逐步完善和打通各個(gè)技術(shù)環(huán)節(jié)。

在這里,我們不討論傳統(tǒng)技術(shù)框架下的構(gòu)建路線和方案,因?yàn)檎缜懊嫣岬降?#xff0c;如果企業(yè)想晉升到第三或更高的層級(jí),就需要以大數(shù)據(jù)技術(shù)作為基石構(gòu)建新的數(shù)據(jù)平臺(tái),所以我們下文討論的所有技術(shù)內(nèi)容都是以大數(shù)據(jù)作為背景展開的。

圖2? 企業(yè)數(shù)據(jù)技術(shù)成熟度模型

1、第一層級(jí):IT 基礎(chǔ)設(shè)施

首先,IT基礎(chǔ)設(shè)施是當(dāng)然的前置條件,構(gòu)建基礎(chǔ)設(shè)施包括硬件機(jī)器的安裝,組網(wǎng)和調(diào)試,操作系統(tǒng)和必要軟件工具的安裝,然后,在硬件資源之上安裝和維護(hù)一個(gè)大數(shù)據(jù)集群,這個(gè)集群將負(fù)責(zé)承載企業(yè)全部數(shù)據(jù)的存數(shù)和處理任務(wù)。如果再寬泛一些,用于支撐平臺(tái)運(yùn)行的基礎(chǔ)服務(wù),例如DevOps,數(shù)據(jù)和算法服務(wù)使用的容器和容器編排服務(wù)等也都算在基礎(chǔ)設(shè)施內(nèi)。

過去,企業(yè)的IT基礎(chǔ)設(shè)施大多建設(shè)在自有機(jī)房或是租用數(shù)據(jù)中心的服務(wù)器,隨著云計(jì)算的普及,越來越多的企業(yè)開始把部分的基礎(chǔ)設(shè)施遷移到云上,形成“混合云”架構(gòu)。

基于云平臺(tái)的基礎(chǔ)設(shè)施在運(yùn)維的便捷性、性能的可伸縮性和成本控制上都有顯著的優(yōu)勢,同時(shí),在PaaS層面上,云計(jì)算廠商也提供對標(biāo)on-premise的數(shù)據(jù)平臺(tái)服務(wù),如AWS的EMR等,這些因素促使越來越多的企業(yè)選擇將新一代數(shù)據(jù)平臺(tái)建設(shè)在云上。但是需要提醒的是,在云平臺(tái)上企業(yè)需要特別重視數(shù)據(jù)安全問題。

?2、第二層級(jí):數(shù)據(jù)采集/存儲(chǔ)/標(biāo)準(zhǔn)化

有了必要的基礎(chǔ)設(shè)施之后,就可以展開數(shù)據(jù)的采集、存儲(chǔ)和標(biāo)準(zhǔn)化工作了,這一工作也可以簡單地表述為數(shù)倉的建設(shè)過程。這一階段需要將分布在各個(gè)業(yè)務(wù)系統(tǒng)里的數(shù)據(jù)收集起來,在進(jìn)行一些必要的規(guī)范化處理之后,存儲(chǔ)到一個(gè)統(tǒng)一的大數(shù)據(jù)平臺(tái)上,這是一個(gè)長期的迭代過程,特別是在建設(shè)初期,上層對數(shù)據(jù)的廣泛需求和下層集成數(shù)據(jù)源的繁重工作之間會(huì)存在沖突,我們建議企業(yè)通過啟動(dòng)一到兩個(gè)大型項(xiàng)目來驅(qū)動(dòng)這一階段的建設(shè)工作,然后在中后期維持一個(gè)規(guī)模較小的團(tuán)隊(duì)持續(xù)跟進(jìn)其他數(shù)據(jù)源的接入工作,當(dāng)企業(yè)在這一層級(jí)積累一段時(shí)間后,就可以交付相應(yīng)的報(bào)表和數(shù)據(jù)可視化應(yīng)用了。

3、第三層級(jí):實(shí)時(shí)處理、AI/機(jī)器學(xué)習(xí)

再接下來,進(jìn)入第三層級(jí)就要將技術(shù)平臺(tái)推升到更高水平了,這里有兩項(xiàng)非常重要的技術(shù)拓展:實(shí)時(shí)處理和AI/機(jī)器學(xué)習(xí),這是現(xiàn)代大數(shù)據(jù)平臺(tái)兩項(xiàng)標(biāo)志性的技術(shù)能力。

實(shí)時(shí)處理是指通過流式計(jì)算、NoSQL數(shù)據(jù)庫等技術(shù)實(shí)現(xiàn)大體量數(shù)據(jù)的實(shí)時(shí)處理和讀寫,實(shí)時(shí)的數(shù)據(jù)處理能力對一些實(shí)時(shí)性要求很高的業(yè)務(wù)場景至關(guān)重要,這也是以往傳統(tǒng)數(shù)據(jù)平臺(tái)很難做到的。由于實(shí)時(shí)處理對技術(shù)和研發(fā)人員的要求都更高,因此大多數(shù)企業(yè)一般會(huì)先完善平臺(tái)的批量處理能力,然后再逐步拓展到實(shí)時(shí)處理領(lǐng)域。

另一個(gè)領(lǐng)域就是AI/機(jī)器學(xué)習(xí)方面的建設(shè)了,這一領(lǐng)域?qū)夹g(shù)能力的要求更高,且參與人員的角色和背景也與傳統(tǒng)的IT人員有所不同,進(jìn)入到該階段時(shí),IT團(tuán)隊(duì)需要引入數(shù)據(jù)科學(xué)家,算法工程師等AI領(lǐng)域的人才。

最后,實(shí)時(shí)處理和AI/機(jī)器學(xué)習(xí)這兩大領(lǐng)域的能力是可以同步培養(yǎng)的,彼此之間沒有太大的依存關(guān)系。當(dāng)企業(yè)具備了第三層級(jí)的技術(shù)能力之后就可以有力的支撐應(yīng)用能力模型中的最高層級(jí)“深度洞察與預(yù)測”了。

4、第四層級(jí):數(shù)據(jù)產(chǎn)品

最后,技術(shù)維度上,企業(yè)的數(shù)據(jù)能力還有一段上漲空間,那就是以業(yè)務(wù)領(lǐng)域?yàn)閯澐忠罁?jù),將現(xiàn)有各個(gè)層級(jí)上的技術(shù)能力進(jìn)行提煉并培育成“數(shù)據(jù)產(chǎn)品”,從功能、性能、靈活性和可擴(kuò)展性等多種維度上進(jìn)一步提升數(shù)據(jù)平臺(tái)的技術(shù)成熟度。甚至一些長期服務(wù)于某些行業(yè)的乙方公司,基于它們常年的積累,可以有能力將一些完善的內(nèi)部數(shù)據(jù)平臺(tái)進(jìn)行二次封裝與提煉,形成行業(yè)解決方案。

5、兩個(gè)縱深維度:數(shù)據(jù)服務(wù)和數(shù)據(jù)治理

與四個(gè)層級(jí)建設(shè)并行的還有兩項(xiàng)貫穿始終的工作:數(shù)據(jù)服務(wù)和數(shù)據(jù)治理。數(shù)據(jù)服務(wù)是指將數(shù)據(jù)平臺(tái)上的各種數(shù)據(jù)以服務(wù)的方式提供給其他系統(tǒng),這種“服務(wù)”可以通過Restful API,JDBC,ODBC,FTP等形式或協(xié)議體現(xiàn)出來,這是將數(shù)據(jù)應(yīng)用能力輻射到企業(yè)的各個(gè)系統(tǒng)與業(yè)務(wù)領(lǐng)域上的關(guān)鍵一步,沒有靈活而有效的數(shù)據(jù)接口,數(shù)據(jù)平臺(tái)在企業(yè)范圍內(nèi)發(fā)揮的作用就會(huì)受到限制。

與此同時(shí),數(shù)據(jù)治理也是一個(gè)長期的持續(xù)性的工作,數(shù)據(jù)治理就是對企業(yè)的數(shù)據(jù)資產(chǎn)進(jìn)行清晰的梳理,明確管理職責(zé),建立配套的標(biāo)準(zhǔn)規(guī)范,同時(shí)要確保所有策略和規(guī)范能落地執(zhí)行,數(shù)據(jù)治理的最終目的就是保障數(shù)據(jù)質(zhì)量。

應(yīng)用能力成熟度模型和技術(shù)成熟模型之間是有關(guān)聯(lián)的,根據(jù)我們的經(jīng)驗(yàn),當(dāng)企業(yè)的技術(shù)成熟度達(dá)到第二層級(jí)時(shí),可以支撐應(yīng)用能力成熟度的第二層級(jí)和部分的第三層級(jí),當(dāng)技術(shù)成熟度達(dá)到第三層級(jí)時(shí),就可以支撐應(yīng)用能力成熟度的第三和第四層級(jí)了,至于第四技術(shù)層級(jí)是一個(gè)技術(shù)上更加完備的等級(jí),通過將數(shù)據(jù)服務(wù)產(chǎn)品化為終端用戶提供更加高級(jí)和便利的服務(wù)。

關(guān)于作者:耿立超,架構(gòu)師,14年IT系統(tǒng)開發(fā)和架構(gòu)經(jīng)驗(yàn),對大數(shù)據(jù)、企業(yè)級(jí)應(yīng)用架構(gòu)、SaaS、分布式存儲(chǔ)和領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)有豐富的實(shí)踐經(jīng)驗(yàn),熱衷函數(shù)式編程。目前負(fù)責(zé)企業(yè)數(shù)據(jù)中臺(tái)的架構(gòu)設(shè)計(jì)和開發(fā)工作,對Hadoop/Spark 生態(tài)系統(tǒng)有深入和廣泛的了解,參與過Hadoop商業(yè)發(fā)行版的開發(fā),曾帶領(lǐng)團(tuán)隊(duì)建設(shè)過數(shù)個(gè)完備的企業(yè)數(shù)據(jù)平臺(tái)。

本文摘自《大數(shù)據(jù)平臺(tái)架構(gòu)與原型實(shí)現(xiàn):數(shù)據(jù)中臺(tái)建設(shè)實(shí)戰(zhàn)》,已在京東上架

推薦閱讀

  • 僅用2年過渡到自研ARM芯片,蘋果的底氣從何而來?

  • 開源巨頭 SUSE 收購 Rancher Labs,云原生時(shí)代來臨

  • 國內(nèi)廠商 Onyx 違反 GPL 協(xié)議,中國開源何去何從?

  • 天上地下,馬斯克和貝佐斯終有一戰(zhàn)?

  • 空間-角度信息交互用于光場圖像超分辨重構(gòu),性能達(dá)到最新SOTA | ECCV 2020

  • 贈(zèng)書 | DeFi沉思錄:歷史、中國與未來

點(diǎn)分享點(diǎn)點(diǎn)贊點(diǎn)在看

總結(jié)

以上是生活随笔為你收集整理的建设数据中台之前,建议先看这份企业数据能力测评 | 大咖说中台的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。