我该建数仓、大数据平台还是数据中台?看完脑子终于清醒了
一、層出不窮的新名詞
現(xiàn)在各種新名詞層出不窮:
-
頂層的有數(shù)字城市、智慧地球、智慧城市、城市大腦;
-
企業(yè)層面的有數(shù)字化轉(zhuǎn)型、互聯(lián)網(wǎng)經(jīng)濟,數(shù)字經(jīng)濟、數(shù)字平臺;
-
平臺層面的有物聯(lián)網(wǎng),云計算,大數(shù)據(jù),5G,人工智能,機器智能,深度學(xué)習(xí),知識圖譜;
-
技術(shù)層面的有數(shù)據(jù)倉庫、數(shù)據(jù)集市、大數(shù)據(jù)平臺、數(shù)據(jù)湖、數(shù)據(jù)中臺、業(yè)務(wù)中臺、技術(shù)中臺等等。
總之是你方唱罷他登場,各種概念滿天飛…
在比拼新經(jīng)濟的過程中,其實比拼的是流量也就是用戶,但流量不等于用戶,用戶也不完全等同于流量;有了流量和用戶,就等于比拼了對用戶的話語權(quán)。
各種互聯(lián)網(wǎng)概念也是如此,單純從傳統(tǒng)的數(shù)據(jù)倉庫或是大數(shù)據(jù)平臺而言,金融或通信運營商在數(shù)據(jù)治理、數(shù)據(jù)管理、企業(yè)模型、應(yīng)用效能、高可靠性上做的絕對不比BAT差的,但這些行業(yè)有著國企的內(nèi)斂、同時承擔(dān)了太多的安全、隱私、穩(wěn)定要求,空有用戶和數(shù)據(jù),卻很難對外發(fā)揮應(yīng)有的作用,導(dǎo)致在整個信息技術(shù)行業(yè)內(nèi)的話語權(quán)不高。
互聯(lián)網(wǎng)公司在對數(shù)據(jù)使用的靈活性、技術(shù)的前瞻性、經(jīng)濟效益的引導(dǎo)性、適度容錯方面做的遠(yuǎn)遠(yuǎn)超出其他行業(yè),所以行業(yè)之間的相互吸收和借鑒也是值得探討的。
新名詞的推出,要被大眾所能接受,在背后是要有話語權(quán)支撐的,而目的當(dāng)然只有利益了,也不排除個別技術(shù)人員自己美好的想法和初衷。
回到正文,不管怎么說,數(shù)據(jù)中臺這個概念已逐步火了起來,但數(shù)據(jù)中臺是什么?
二、數(shù)據(jù)中臺
1、普遍理解的概念
1)數(shù)據(jù)中臺是聚合和治理跨域數(shù)據(jù),將數(shù)據(jù)抽象封裝成服務(wù),提供給前臺以業(yè)務(wù)價值的邏輯概念。
2)數(shù)據(jù)中臺是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機制,一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過有形的產(chǎn)品和實施方法論支撐,構(gòu)建一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的機制。
3)數(shù)據(jù)中臺連接數(shù)據(jù)前臺和后臺,突破數(shù)據(jù)局限,為企業(yè)提供更靈活、高效、低成本的數(shù)據(jù)分析挖掘服務(wù),避免企業(yè)為滿足具體某部門某種數(shù)據(jù)分析需求而投放大量高成本、重復(fù)性的數(shù)據(jù)開發(fā)成本。
4)數(shù)據(jù)中臺是指通過數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行采集、計算、存儲、加工,同時統(tǒng)一標(biāo)準(zhǔn)和口徑。數(shù)據(jù)中臺把數(shù)據(jù)統(tǒng)一之后,會形成標(biāo)準(zhǔn)數(shù)據(jù),再進行存儲,形成大數(shù)據(jù)資產(chǎn)層,進而為客戶提供高效服務(wù)。
5)數(shù)據(jù)中臺,包括平臺、工具、數(shù)據(jù)、組織、流程、規(guī)范等一切與企業(yè)數(shù)據(jù)資產(chǎn)如何用起來所相關(guān)的。
以上概念是從互聯(lián)網(wǎng)上搜索并拷貝出來的,總的來說中臺也好,數(shù)據(jù)中臺也好,還缺乏一個標(biāo)準(zhǔn)的定義,僅從字面上理解,數(shù)據(jù)中臺是解決如何用好數(shù)據(jù)的問題。
既然是概念,數(shù)據(jù)中臺也被賦予了很多擴大的外延,也上升到了數(shù)據(jù)的采集、計算、存儲、加工和數(shù)據(jù)治理等方面,這就和傳統(tǒng)的大數(shù)據(jù)平臺在功能和作用上產(chǎn)生了很大的重疊;而大數(shù)據(jù)平臺又是從數(shù)據(jù)倉庫發(fā)展起來的。那到底這三者的關(guān)系是怎么樣的呢?
2、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)中臺
本人斷斷續(xù)續(xù)從事數(shù)據(jù)倉庫行業(yè)約有五六年經(jīng)驗,完整的負(fù)責(zé)大數(shù)據(jù)平臺的整體設(shè)計架構(gòu)和項目實施也有四五年經(jīng)驗,見證了從傳統(tǒng)數(shù)據(jù)倉庫轉(zhuǎn)型到大數(shù)據(jù)平臺的全歷程。
包括第一個MPP數(shù)據(jù)集市、第一個Hadoop集群項目、第一個流式數(shù)據(jù)處理項目,第一個完整的大數(shù)據(jù)平臺的融合和構(gòu)建,混搭式大數(shù)據(jù)平臺的融合構(gòu)建,大數(shù)據(jù)平臺的遷移等等。
我所經(jīng)歷的大數(shù)據(jù)平臺從規(guī)模說大不大說小不小,每天處理數(shù)據(jù)量將近20T(實時處理月10T左右),總集群約300臺(其中Hadoop節(jié)點約200臺),總?cè)萘考s8P,實際使用容量約5P;包括了從數(shù)據(jù)倉庫到大數(shù)據(jù)平臺數(shù)據(jù)模型的重構(gòu),數(shù)據(jù)模型的拓展;也包括了大數(shù)據(jù)平臺提供各種對內(nèi)應(yīng)用的規(guī)劃,和向外提供大數(shù)據(jù)應(yīng)用。
因此對數(shù)據(jù)倉庫和大數(shù)據(jù)平臺的優(yōu)缺點、各自存在的問題、疑惑、發(fā)展方向,也算有一定的認(rèn)知,包括對新生的數(shù)據(jù)中臺的發(fā)展方向,結(jié)合自己過往的經(jīng)驗,談?wù)勛约旱囊恍┫敕ā?/p>
1)數(shù)據(jù)倉庫
按照傳統(tǒng)的定義,數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
從數(shù)據(jù)角度,數(shù)據(jù)倉庫更適合傳統(tǒng)的數(shù)據(jù)庫,離線采集,數(shù)據(jù)一般為結(jié)構(gòu)化的,每天處理數(shù)據(jù)量不易超過TB集,數(shù)據(jù)倉庫一般在數(shù)十T到幾百T以內(nèi),數(shù)據(jù)倉庫一般為滿足內(nèi)生的應(yīng)用,滿足內(nèi)部決策支持分析需求。
當(dāng)然隨著數(shù)據(jù)倉庫數(shù)據(jù)采集的要求越來越高,數(shù)據(jù)倉庫本身也在不斷的改進,從單機的ETL到集群的ETL,從傳統(tǒng)的小機+DB,向PC服務(wù)器+分布式DB拓展,數(shù)據(jù)治理也逐漸增強,從元數(shù)據(jù)管理到數(shù)據(jù)質(zhì)量管理,再到數(shù)據(jù)運維管控和數(shù)據(jù)安全管控。
但其實數(shù)據(jù)倉庫給企業(yè)留下的最大財富是企業(yè)數(shù)據(jù)模型,這些模型隨著前端業(yè)務(wù)系統(tǒng)的發(fā)展變化,不斷變革,不斷追加,不斷豐富和完善,即使系統(tǒng)不再了,也可以在短期內(nèi)快速重建起來,這也是大數(shù)據(jù)平臺能夠快速建設(shè)起來的一個重要原因。
2)大數(shù)據(jù)平臺
大數(shù)據(jù)平臺則是指以處理海量數(shù)據(jù)存儲、計算及流數(shù)據(jù)實時計算等場景為主的一套基礎(chǔ)設(shè)施,包括了統(tǒng)一的數(shù)據(jù)采集中心、數(shù)據(jù)計算和存儲中心、數(shù)據(jù)治理中心、運維管控中心、開放共享中心和應(yīng)用中心。
大數(shù)據(jù)平臺之所以能夠建設(shè)起來,不外乎內(nèi)因和外因,外因是棱鏡門事件帶來的去IOE要求、外部硬件的變革和分布式開源技術(shù)的涌現(xiàn),另外一篇《去IOE or not》已有闡述,不再贅述;內(nèi)因是非結(jié)構(gòu)化、實時數(shù)據(jù)和海量數(shù)據(jù)的計算和存儲壓力,企業(yè)也寄希望從大數(shù)據(jù)平臺除了滿足對內(nèi)需求,也能夠?qū)崿F(xiàn)一定的對外收益。
大數(shù)據(jù)平臺的建設(shè)出發(fā)點是節(jié)約投資降低成本,但實際上無論從硬件投資還是從軟件開發(fā)上都遠(yuǎn)遠(yuǎn)超過數(shù)據(jù)倉庫的建設(shè),大量的硬件和各種開源技術(shù)的組合,增加了研發(fā)的難度、調(diào)測部署的周期、運維的復(fù)雜度,人力上的投入已是最初的幾倍;還有很多技術(shù)上的困難也非一朝一夕能夠突破,但無論如何大數(shù)據(jù)平臺還是建設(shè)起來了,人員能力也在不斷成長。
大數(shù)據(jù)平臺解決了海量數(shù)據(jù)、實時數(shù)據(jù)的計算和存儲,也基于原來的企業(yè)數(shù)據(jù)模型實現(xiàn)了重構(gòu),但也面臨著一系列的問題。
首先是數(shù)據(jù)的應(yīng)用問題,無論是數(shù)據(jù)倉庫還是大數(shù)據(jù)平臺,里面包含了接口層數(shù)據(jù)、存儲層數(shù)據(jù)、輕度匯總層、重度匯總層、模型層數(shù)據(jù)、報表層數(shù)據(jù)等等,各種各樣的表有成千上萬,這些表有的是中間處理過程,有些是一次性的報表,不同表之間的數(shù)據(jù)一致性和口徑也會不同,而且不同的表不同的字段對數(shù)據(jù)安全要求級別也不同。
此外還要考慮多租戶的資源安全管理,如何讓內(nèi)部開發(fā)者快速獲取所需的數(shù)據(jù)資產(chǎn)目錄,如何閱讀相關(guān)數(shù)據(jù)的來龍去脈,如何快速的實現(xiàn)開發(fā),這些在大數(shù)據(jù)平臺建設(shè)初期沒有考慮周全。
另外一個問題是對外應(yīng)用,隨著大數(shù)據(jù)平臺的應(yīng)用建設(shè),每一個對外應(yīng)用都采用單一的數(shù)據(jù)庫加單一應(yīng)用建設(shè)模式,獨立考慮網(wǎng)絡(luò)安全、數(shù)據(jù)安全、共享安全,逐漸又走向了煙囪似的開發(fā)道路。
3)數(shù)據(jù)中臺
數(shù)據(jù)倉庫實現(xiàn)了企業(yè)數(shù)據(jù)模型的構(gòu)建,大數(shù)據(jù)平臺解決了海量、實時數(shù)據(jù)的計算和存儲問題,數(shù)據(jù)中臺要解決什么呢?數(shù)據(jù)如何安全的、快速的、最小權(quán)限的、且能夠溯源的被探測和快速應(yīng)用的問題。
數(shù)據(jù)中臺不應(yīng)該被過度的承載平臺的計算、存儲、加工任務(wù),而是應(yīng)該放在解決企業(yè)邏輯模型的搭建和存儲、數(shù)據(jù)標(biāo)準(zhǔn)的建立、數(shù)據(jù)目錄的梳理、數(shù)據(jù)安全的界定、數(shù)據(jù)資產(chǎn)的開放,知識圖譜的構(gòu)建。
通過一系列工具、組織、流程、規(guī)范,實現(xiàn)數(shù)據(jù)前臺和后臺的連接,突破數(shù)據(jù)局限,為企業(yè)提供更靈活、高效、低成本的數(shù)據(jù)分析挖掘服務(wù),避免企業(yè)為滿足具體某部門某種數(shù)據(jù)分析需求而投放大量高成本、重復(fù)性的數(shù)據(jù)開發(fā)成本。
厚平臺,大中臺,小前臺;沒有基礎(chǔ)厚實笨重的大數(shù)據(jù)平臺,是不可能構(gòu)建數(shù)據(jù)能力強大、功能強大的數(shù)據(jù)中臺的;沒有大數(shù)據(jù)中臺,要迅速搭建小快靈的小前臺也只是理想化的。
我想這才是數(shù)據(jù)中臺的初衷。
三、總結(jié)性架構(gòu)圖
后文是對數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、數(shù)據(jù)中臺的一些總結(jié)性的架構(gòu)材料,也是對自己這些年來的一些匯總和思考吧,看懂了前面的文字,后面的各種架構(gòu)圖也就無需贅述了。
1、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫硬件架構(gòu)?
數(shù)據(jù)倉庫功能架構(gòu) 數(shù)據(jù)倉庫技術(shù)架構(gòu)?
下面的Hadoop平臺硬件架構(gòu),主要是為了解決海量離線數(shù)據(jù)的計算和存儲,在Hadoop集群中實現(xiàn)明細(xì)數(shù)據(jù)、匯總數(shù)據(jù)存儲,在mysql中實現(xiàn)報表數(shù)據(jù)存儲。
第一個Hadoop平臺硬件架構(gòu)主要是為了解決海量實時數(shù)據(jù)的流式采集和計算,在Hadoop集群中實現(xiàn)明細(xì)數(shù)據(jù)、匯總數(shù)據(jù)存儲,在mysql中實現(xiàn)報表數(shù)據(jù)存儲;并通過實時事件處理集群實現(xiàn)流式事件的匹配。
第一個流式處理平臺硬件架構(gòu)2、大數(shù)據(jù)平臺
對于大數(shù)據(jù)平臺各種軟硬件的各種組件的規(guī)劃:
大數(shù)據(jù)平臺系統(tǒng)規(guī)劃?
大數(shù)據(jù)平臺系統(tǒng)定位?
大數(shù)據(jù)平臺邏輯部署架構(gòu)?
大數(shù)據(jù)平臺功能視圖?
大數(shù)據(jù)平臺數(shù)據(jù)流向?
大數(shù)據(jù)平臺對內(nèi)硬件架構(gòu)?
大數(shù)據(jù)平臺整體硬件架構(gòu)?
3、數(shù)據(jù)中臺
數(shù)據(jù)中臺整體架構(gòu)?
作者丨不勝人生一場醉
來源丨公眾號:追夢IT人(ID:baoqiangwang2020)
dbaplus社群歡迎廣大技術(shù)人員投稿,投稿郵箱:editor@dbaplus.cn
總結(jié)
以上是生活随笔為你收集整理的我该建数仓、大数据平台还是数据中台?看完脑子终于清醒了的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么 wait/notify/noti
- 下一篇: Logback 配置文件这么写,TPS