追根溯源 - 数据中台概念的起源
彭鋒 宋文欣 孫浩峰
《云原生數據中臺》
讀完需要
7
分鐘速讀僅需 3 分鐘
1
? ?
數據中臺概念的起源
盡管大數據產生于硅谷,數據中臺與大數據關系密切,但硅谷卻沒有數據中臺這個名詞,因此,我們首先要來看看“數據中臺”的概念是如何在其倡議者阿里巴巴內部產生的。下面的故事想必很多人都聽說過。
2015 年年中,馬云帶領阿里巴巴集團高管拜訪了一家芬蘭的小型游戲公司 Supercell。讓馬云及其高管團隊感到驚訝的是,這家僅有不到 200 名員工的小型游戲公司竟創造了高達 15 億美元的年稅前利潤!該公司典型的開發模式是以小團隊為單位的單獨“作戰”,每個團隊不超過 7 名員工。每個團隊都可以自己決定開發什么樣的游戲產品,然后以最快的速度推出公測版,如果不受歡迎,就立刻放棄,尋找新的方向。這種開發模式使 Supercell 能非常快速和敏捷地找到玩家喜歡的方向,從而更容易開發出能夠迎合玩家需求的游戲產品。
而 Supercell 之所以能夠支持多個團隊快速、敏捷地推出高質量的游戲作品,其強大的中臺能力功不可沒。因此,在拜訪 Supercell 的旅程結束之后,馬云決定對阿里巴巴的組織和系統架構進行整體調整,建立阿里產品技術和數據能力的強大中臺,構建“大中臺,小前臺”的組織和業務體制。
當然,Supercell 的研發模式并不是什么革命性的創新,絕大部分硅谷公司也有類似的模式:本來就不大的公司被分成若干個小組。這樣做的好處是各小組可以快速決策、研發并將產品推向市場,而不需要重復開發游戲引擎、數據分析、服務器等后臺基礎設施和服務。這里,“游戲引擎”可以看作業務中臺,“數據分析”可以看作數據中臺,“服務器等后臺基礎設施”可以看作 PaaS/IaaS 平臺,也就是有些文章中所說的技術中臺。
實際上,雖然硅谷并沒有“數據中臺”這一叫法,但硅谷的公司早已自然形成了中臺的意識。從早期的中間件(Middleware)、面向服務的架構(SOA)到后來的 IaaS/PaaS/DaaS 平臺、微服務(Microservice),都有中臺思想的影子,都來源于避免重復造輪子、快速迭代、數據驅動、業務驅動這些硅谷工程師文化的核心理念。
國內類似的概念“技術中臺”就源于中間件、PaaS 平臺。但是這種中間件、平臺、中臺的功能一般并非由一個頂層設計得出,而是一步步建立起來的。
在硅谷的企業中有一個非常重要的理念就是不要做 “過早優化”(Premature Optimization),也就是說,不要在不需要的時候進行優化。一定要先完成功能再優化,因此不需要中臺的時候沒有必要刻意建一個大而全的中臺。當然,在建設數據中臺的不同階段可以使用不同的技術,只要保證中臺建設能夠平滑過渡即可。
下面就來簡單介紹筆者曾在硅谷負責建設的兩個典型大數據項目,看看它們和數據中臺的關系。
1.1
? ?
藝電的“數據中臺”改造
EA(藝電)是一家總部位于硅谷的知名跨國游戲公司,創造和發行了眾多深受游戲迷喜愛的游戲,例如《FIFA 足球》《Madden 橄欖球》《NHL 冰球》和《NBA 籃球》等體育游戲,令軍迷們狂熱的《戰地》及《星球大戰》系列游戲,以及經久不衰的《模擬城市》《模擬人生》《植物大戰僵尸》等游戲。
這些游戲都是由 EA 位于全球各地的游戲工作室開發的,但是游戲里所涉及的數據分析工具卻是由位于硅谷總部的大數據團隊提供的。在有統一的大數據平臺之前,EA 的每個工作室都需要開發自己的大數據平臺,編寫自己的大數據分析程序。各個工作室的數據能力參差不齊,數據質量得不到保證,有的產品甚至完全沒有數據分析。各個工作室之間無法共享數據和用戶資源,總部在匯總全集團的營業數據時也費時費力。這可以說是一個非常典型的數據孤島的情況。
2011 年,EA 開始逐步建立全局大數據平臺(類似于具有數據中臺功能的平臺),將各個工作室的數據逐漸匯聚到這個全局大數據平臺上,并為各個工作室提供統一的數據分析和數據服務工具。各個工作室不再需要自己維護大數據平臺,也無須自己雇用大數據平臺開發人員,它們既可以使用集團的數據分析系統得到自己需要的業務報表,又可以使用系統提供的反欺詐、產品推薦等服務,專注于業務使它們能夠快速推出新產品。同時,由于各個游戲的數據得以打通,用戶數據得到統一,EA 可以構建更全面的用戶畫像,幫助工作室更精準地為用戶提供個性化服務,提升用戶體驗。而且,集團總部能夠快速且自動地獲得全局的運營信息,而無須等到各個業務部門提交月度報表之后再手工合并和審核。
通過大數據平臺的建設,在 2012 年和 2013 年被評為最差勁體驗游戲公司、營收逐年下降的 EA,一舉華麗轉身,2014 年被評為最佳體驗游戲公司之一,2015 年更是創下 43 億美元的營收歷史新高。
本書作者之一宋文欣作為主要技術和團隊負責人帶領了 EA 大數據平臺團隊的組建以及該平臺的設計和建設。第 16 章將詳細描述其類似于 Supercell 的平臺的建設歷程。
1.2
? ?
Twitter 的數據驅動
Twitter 是硅谷社交三駕馬車之一,其陌生人/公開社交與 Facebook 的熟人/私有社交、LinkedIn 的職場社交都對互聯網產生了極大影響。這三駕馬車出現于 2006~2008 年,在時間上與此相耦合的一個現象是大數據的發展。Facebook 成立于 2004 年,Twitter 成立于 2006 年,LinkedIn 成立于 2002 年(但發展期是 2006~2010 年),而作為大數據的啟動項目,Hadoop 的首發時間是 2006 年。
熟悉大數據早期發展歷程的業內人士都知道,雖然 Hadoop 起源于 Google,由 Yahoo!開源,但是 Facebook、Twitter 和 LinkedIn 卻是硅谷早期推動大數據發展的核心力量,Hive、Pig、HBase、Mesos、Kafka、Spark、Storm、Thrift、Presto、Parquet 以及其他很多現在廣泛使用的大數據組件,都是由這三家公司開源或提供最早的企業級應用和支持的。究其原因,除了這幾家公司的工程師文化和對開源的推崇之外,更重要的是實際業務的數據驅動需求,因為它們都需要通過分析海量的數據來推動產品研發、用戶拓展和核心營收的增長。
以 Twitter 為例,整個公司的管理都基于數據驅動的理念,而其底層支撐是一個全局共享的大數據平臺。從 CEO 需要的 BI 部門實時業務報表、廣告部門的精準定位、產品部門的個性化推薦,到用戶拓展部門的增長黑客技術、反欺詐部門的異常監控、研發部門的實時產品反饋、運維部門的智能運維,相關的數據應用都通過統一的數據工具運行在同一個大數據平臺之上。
整個平臺中的數據能力共享和復用隨處可見:產品部門研發的用戶畫像可以被廣告部門用來精準定位目標客戶,社交圖譜被用來實現用戶拓展;反欺詐部門的機器人識別功能被廣告部門用來識別惡意點擊,被 BI 部門用來精確統計日活用戶;廣告部門開發的實時數據處理體系被產品部門用來提升推薦的實時性;諸如此類。
公司從 2011 年的 300 人發展到 2014 年的 4000 人,大數據平臺從 80 臺服務器的單純 Hadoop 集群擴展到 8000 臺服務器的核心數據處理平臺,都沒有出現數據孤島、應用孤島及重復造輪子的問題。
更為重要的是,因為有了強大的數據能力核心平臺,Twitter 的產品迭代速度得到大幅提升。在 2011 年以前,開發和發布產品的流程非常冗長,產品經理需要到各個部門調研可以使用的數據,并協調數據的生產化問題。在產品推出之后,需要專門的數據工程師支持,定制單獨的數據看板和報表才能拿到產品的反饋。在大數據平臺逐漸完善之后,產品經理可以直接在平臺上探索現有的數據和各種 API,與研發人員合作使用各種數據服務快速形成產品原型,然后通過數據平臺提供的測試框架快速發布測試,在發布后可以直接通過平臺提供的數據看板查看用戶反應,而無須自己編寫程序。整個產品的開發和迭代流程從以月計改為以周計,活躍用戶數也從 2011 年不到 1 億增長到 2014 年接近 3 億。
本書作者之一彭鋒作為 Twitter 架構師委員會中負責大數據體系的高級架構師,在大數據平臺的建設中負責架構設計和項目審計,經歷了從 80 臺機器的 Hadoop 集群到 8000 臺服務器集群的整個建設歷程。本書會穿插介紹 Twitter 大數據平臺建設的一些思路和經驗。
以上內容摘自《云原生數據中臺:架構、方法論與實踐》,經出版方授權發布。
2
? ?
《云原生數據中臺:架構、方法論與實踐》
前 Twitter 大數據平臺主任工程師撰寫,融合硅谷與國內經驗,全面講解云原生數據中臺架構、選型、方法論、實施路徑,國內外專家聯袂推薦
精彩文章推薦
微服務架構設計總結實踐
2021-05-10
萬字長文精華之數據中臺構建五步法
2021-05-07
從零開始搭建創業公司后臺技術棧
2021-04-29
代碼重構技巧寶典,學透本篇就足夠了!
2021-04-27
梁鑫:美股交易架構實踐
2021-04-26
王啟軍:云原生架構下如何拆分微服務?
2021-04-20
原創精華:剖析億級請求下的多級緩存
2021-04-19
梁鑫:重構 - 在美股行情系統的實踐
2021-04-09
淺談架構:架構的緣起與目標
2021-04-07
重構 - 美股行情系統APP推送改造
2021-05-11
點擊“閱讀原文”了解更多數字化轉型好書
總結
以上是生活随笔為你收集整理的追根溯源 - 数据中台概念的起源的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java Web中数据从前端输入到插入数
- 下一篇: 阿里高专王夕宁:Istio网关之南北向流