當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网易数据中台建设实践

發(fā)布時(shí)間：2024/2/28 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了网易数据中台建设实践小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

數(shù)據(jù)中臺(tái)是什么？

從 Hadoop 集群的開發(fā)運(yùn)維，到構(gòu)建大數(shù)據(jù)平臺(tái)，再到數(shù)據(jù)中臺(tái)建設(shè)，這是很多大型互聯(lián)網(wǎng)公司大數(shù)據(jù)的建設(shè)歷程。到底什么是數(shù)據(jù)中臺(tái)，數(shù)據(jù)中臺(tái)跟我們之前一直說的大數(shù)據(jù)平臺(tái)有什么區(qū)別，我想可以通過一個(gè)例子來說明。

如果我們把數(shù)據(jù)中臺(tái)看作是一個(gè)汽車工廠，那大數(shù)據(jù)平臺(tái)就是工廠中的設(shè)備，Hadoop 集群則是工廠運(yùn)作所必須的水、電、煤。Hadoop 提供的是大數(shù)據(jù)生產(chǎn)所必須的計(jì)算和存儲(chǔ)資源，大數(shù)據(jù)平臺(tái)使得數(shù)據(jù)開發(fā)人員具備了對(duì)數(shù)據(jù)的加工和處理能力，類比設(shè)備使得工人具備了對(duì)原材料的加工能力，但是大數(shù)據(jù)平臺(tái)還不能提供產(chǎn)品，這么多的原始數(shù)據(jù)，要按照一定的方法論，進(jìn)行良好的組織，加工，才能生成最終的指標(biāo)，就如只有切割機(jī)、油漆機(jī)還不能生產(chǎn)汽車，各個(gè)零部件要按照一定的規(guī)則，通過設(shè)備組裝在一起，才是一輛完整的汽車。

我們認(rèn)為數(shù)據(jù)中臺(tái)是企業(yè)級(jí)大數(shù)據(jù)通過系統(tǒng)化的方式實(shí)現(xiàn)統(tǒng)一、標(biāo)準(zhǔn)、安全、共享的數(shù)據(jù)組織，以服務(wù)化的方式賦能前臺(tái)數(shù)據(jù)應(yīng)用，提高數(shù)據(jù)的使用效率。

數(shù)據(jù)中臺(tái)與數(shù)據(jù)平臺(tái)最本質(zhì)的區(qū)別在于數(shù)據(jù)中臺(tái)是具備業(yè)務(wù)屬性的，輸入的是原始數(shù)據(jù)，輸出的是指標(biāo)。數(shù)據(jù)中臺(tái)包含了業(yè)務(wù)對(duì)數(shù)據(jù)的組織方法論，體現(xiàn)在主題域，業(yè)務(wù)過程的劃分，數(shù)據(jù)模型的設(shè)計(jì)，指標(biāo)、維度、度量的管理，如果我們想確定一個(gè)數(shù)據(jù)是指標(biāo)還是維度，就必須理解業(yè)務(wù)。大數(shù)據(jù)平臺(tái)提供的是與業(yè)務(wù)屬性無關(guān)的工具集合，是數(shù)據(jù)的加工能力，至于加工的什么數(shù)據(jù)，平臺(tái)并不關(guān)心。

數(shù)據(jù)中臺(tái)解決的三大問題

在明確了數(shù)據(jù)中臺(tái)與大數(shù)據(jù)平臺(tái)的區(qū)別之后，我們需要探討的是，數(shù)據(jù)中臺(tái)到底解決了什么問題。歸結(jié)起來，主要是三個(gè)：效率、質(zhì)量和成本。

效率問題可以分為數(shù)據(jù)研發(fā)的效率、數(shù)據(jù)發(fā)現(xiàn)的效率和數(shù)據(jù)分析的效率。

首先是數(shù)據(jù)研發(fā)的效率，在我所接觸的很多項(xiàng)目中，在項(xiàng)目初期，由于業(yè)務(wù)模式還不固定，變化比較快，往往缺少良好的主題域和分層的設(shè)計(jì)，煙囪式的開發(fā)模式占據(jù)了主導(dǎo)，隨著業(yè)務(wù)復(fù)雜度和規(guī)模的上升，大量重復(fù)性的數(shù)據(jù)開發(fā)，制約了數(shù)據(jù)需求交付效率。一個(gè)需求往往需要一個(gè)星期甚至更長的時(shí)間才能上線，需求響應(yīng)速度經(jīng)常被業(yè)務(wù)部門詬病。

其次是數(shù)據(jù)發(fā)現(xiàn)的效率，由于開發(fā)數(shù)據(jù)的和使用數(shù)據(jù)的往往是不同的人，面對(duì)動(dòng)輒數(shù)萬張表，每張表有數(shù)十個(gè)甚至上百個(gè)字段，準(zhǔn)確理解每張表的含義是一件非常困難的事。如果沒有一個(gè)好用的系統(tǒng)，往往需要大量的溝通成本，對(duì)于數(shù)據(jù)開發(fā)，經(jīng)常抱怨工作被打斷，每天都在回答重復(fù)性的問題；對(duì)于分析師而言，想要知道有哪些數(shù)據(jù)可以用，找到自己想要的數(shù)據(jù)，需要花費(fèi)大量的時(shí)間。在網(wǎng)易，建設(shè)數(shù)據(jù)中臺(tái)之前，很多業(yè)務(wù)都在用很原始的方法，每個(gè)分析師都自己維護(hù)了一個(gè) Excel，相當(dāng)于自己的知識(shí)庫，記錄著一些常用的表。一個(gè)新的分析師想要了解數(shù)據(jù)，需要花費(fèi)大量的時(shí)間。

最后是數(shù)據(jù)分析的效率，我們希望越來越多的人能夠基于數(shù)據(jù)進(jìn)行分析決策，但是數(shù)據(jù)分析本身確實(shí)存在門檻，取數(shù)對(duì)于大多數(shù)非技術(shù)專業(yè)的運(yùn)營和分析師就是一個(gè)大問題，經(jīng)?？吹揭粋€(gè)分析師的 SQL 把整個(gè)集群資源跑滿還跑不出來，經(jīng)?？吹椒治鰩熡龅揭粋€(gè) SQL 異常不知所措。另外，傳統(tǒng)的數(shù)據(jù)分析依賴的是分析師的經(jīng)驗(yàn)，一個(gè)指標(biāo)異常波動(dòng)，需要從哪些維度去分析，完全靠分析師的個(gè)人技能，如何將經(jīng)驗(yàn)變成一種知識(shí)，甚至是一種規(guī)范，沉淀到產(chǎn)品中，通過系統(tǒng)自動(dòng)地進(jìn)行全維度的鉆取分析，降低數(shù)據(jù)分析的門檻，這其實(shí)也是業(yè)務(wù)面臨的難題。

質(zhì)量是數(shù)據(jù)中臺(tái)需要解決的第二個(gè)問題，質(zhì)量包括數(shù)倉設(shè)計(jì)的質(zhì)量、指標(biāo)的一致性、數(shù)據(jù)研發(fā)的質(zhì)量。

數(shù)倉設(shè)計(jì)得好不好，主要體現(xiàn)在三個(gè)方面，完善度、復(fù)用性和規(guī)范性。數(shù)倉設(shè)計(jì)一般采用的是面向主題域的分層設(shè)計(jì)，對(duì)于 ODS 層保存的是業(yè)務(wù)原始數(shù)據(jù)，DWD 保存的是經(jīng)過清洗的明細(xì)數(shù)據(jù)，DWS 是經(jīng)過輕度聚合的匯總數(shù)據(jù)，ADS 或者 DM 是應(yīng)用層、集市層數(shù)據(jù)，這是一個(gè)常見的 4 層模型劃分。完善度的意思就是對(duì)于使用者而言，“要啥有啥”，對(duì)于不同分層，完善度的衡量方式也是有區(qū)別的，對(duì)于明細(xì)層，如果數(shù)倉中存在匯總層（DWS）數(shù)據(jù)直接引用 ODS 原始數(shù)據(jù)的情況，我們稱之為跨層引用，這就說明細(xì)層數(shù)據(jù)建設(shè)是有缺失的，如果其他匯總層也要使用相同的數(shù)據(jù)，都從 ODS 層去引用，就存在重復(fù)清洗的問題。對(duì)于匯總層數(shù)據(jù)而言，如果 Query 覆蓋率比較低，說明大量的查詢都是直接查詢明細(xì)數(shù)據(jù)，甚至是原始數(shù)據(jù)，這就說明匯總層數(shù)據(jù)建設(shè)完善度不夠，對(duì)于使用數(shù)據(jù)的人而言，查詢明細(xì)數(shù)據(jù)，不僅慢，而且查詢成本高，經(jīng)常出現(xiàn)一個(gè)查詢 hang 住整個(gè)集群的情況。復(fù)用性主要強(qiáng)調(diào)的是一個(gè)表被多個(gè)表使用的情況，復(fù)用性越高，說明數(shù)倉的設(shè)計(jì)越合理，更多的數(shù)據(jù)在數(shù)倉被復(fù)用。規(guī)范性主要是指數(shù)倉中的表、字段的命名規(guī)范統(tǒng)一，相同指標(biāo)、維度、度量的標(biāo)識(shí)是一致的。

指標(biāo)是數(shù)據(jù)加工的結(jié)果（也可能是中間結(jié)果），指標(biāo)管理的核心在于確保指標(biāo)的業(yè)務(wù)口徑、計(jì)算邏輯和數(shù)據(jù)來源的一致，消除指標(biāo)的二義性。數(shù)據(jù)開發(fā)經(jīng)常遇到的一個(gè)情況是，兩個(gè)數(shù)據(jù)產(chǎn)品，看到相同的一個(gè)指標(biāo)，結(jié)果不一致，這可能是口徑不一致導(dǎo)致的，當(dāng)然也有可能是數(shù)據(jù)來源不一致導(dǎo)致的。

質(zhì)量還包括數(shù)據(jù)的質(zhì)量，這里面包括數(shù)據(jù)的一致性、準(zhǔn)確性、及時(shí)性以及完整性。數(shù)據(jù)的一致性，具體表現(xiàn)在集市層相同的指標(biāo)數(shù)據(jù)是否一致，維度是否一致，相關(guān)指標(biāo)的趨勢是否一致，不同數(shù)據(jù)源對(duì)同一個(gè)實(shí)體的值是否一致。準(zhǔn)確性體現(xiàn)在數(shù)值計(jì)算的邏輯是否符合預(yù)期，數(shù)據(jù)格式是否正確。曾經(jīng)我們有過一個(gè)深刻的教訓(xùn)，在電商業(yè)務(wù)中，由于業(yè)務(wù)側(cè)更新上線后部分 IP 格式有問題，導(dǎo)致流量域、交易域部分指標(biāo)出現(xiàn)異常波動(dòng)。由于沒有對(duì)數(shù)據(jù)進(jìn)行質(zhì)量稽查，問題的排查和定位花費(fèi)了大量的時(shí)間。及時(shí)性主要體現(xiàn)在數(shù)據(jù)產(chǎn)出時(shí)延，我們一般通過數(shù)倉數(shù)據(jù)在指定時(shí)間（比如 5 點(diǎn)之前）產(chǎn)出完成率來衡量。另外對(duì)于實(shí)時(shí)數(shù)據(jù)，對(duì)時(shí)效性要求比較高，我們會(huì)拿數(shù)據(jù)計(jì)算延遲來衡量。完整性主要是表記錄是否完整，包括記錄數(shù)是否完整，字段是否完成。

成本是數(shù)據(jù)中臺(tái)需要解決的第三個(gè)問題，成本包括計(jì)算資源成本、存儲(chǔ)資源的成本以及人力研發(fā)成本。

數(shù)據(jù)就像手機(jī)里面的文件，如果不定時(shí)清理，手機(jī)存儲(chǔ)空間永遠(yuǎn)不夠用。我們經(jīng)常發(fā)現(xiàn)，大數(shù)據(jù)成本比業(yè)務(wù)增長還要快，這一方面是由于煙囪式的開發(fā)導(dǎo)致的數(shù)據(jù)重復(fù)加工，浪費(fèi)計(jì)算和存儲(chǔ)資源，另一方面也是由于沒有定時(shí)清理，及時(shí)將無用的數(shù)據(jù)和任務(wù)下線，導(dǎo)致已經(jīng)沒人看的報(bào)表，每天還從幾十億行的原始數(shù)據(jù)進(jìn)行計(jì)算加工，浪費(fèi)大量的資源。人力的成本其實(shí)跟效率有關(guān)系，如果效率得到提升，研發(fā)成本也會(huì)得到控制。

效率、質(zhì)量、成本，這三個(gè)方面相互聯(lián)系，我認(rèn)為這是數(shù)據(jù)中臺(tái)要解決的最重要的三個(gè)問題。

如何建設(shè)數(shù)據(jù)中臺(tái)

接下來我們要講講如何建設(shè)數(shù)據(jù)中臺(tái)。建設(shè)數(shù)據(jù)中臺(tái)，本質(zhì)上是要減少數(shù)據(jù)的重復(fù)建設(shè)，提高數(shù)據(jù)的共享能力，做好數(shù)據(jù)的連接，對(duì)應(yīng)的就是 OneData、OneService 和 OneEntity 三個(gè)方法論。OneData 要求數(shù)倉所有數(shù)據(jù)只加工一次，對(duì)應(yīng)到數(shù)倉的設(shè)計(jì)層面，要求有統(tǒng)一的維度，對(duì)于明細(xì)層數(shù)據(jù)，相同粒度的度量只加工一次，對(duì)于匯總層的數(shù)據(jù)，相同粒度的指標(biāo)只存在一份。OneService 是統(tǒng)一查詢服務(wù)，原先數(shù)據(jù)開發(fā)和應(yīng)用開發(fā)的邊界是比較模糊的，哪些邏輯應(yīng)該是由數(shù)據(jù)開發(fā)完成，哪些應(yīng)該是由應(yīng)用開發(fā)完成，我們甚至發(fā)現(xiàn)有些計(jì)算是在一個(gè)超大的 Redis 集群里面完成海量數(shù)據(jù)的加工計(jì)算，成本非常大，且不能共享。數(shù)據(jù)服務(wù)劃清了數(shù)據(jù)和應(yīng)用的邊界，數(shù)據(jù)服務(wù)提供的是加工好的指標(biāo)數(shù)據(jù)，應(yīng)用通過數(shù)據(jù)服務(wù)，直接獲取計(jì)算的結(jié)果，強(qiáng)制把公共計(jì)算邏輯下沉到數(shù)據(jù)層面，提高了數(shù)據(jù)的共享能力。OneEntity 主要是解決數(shù)據(jù)連接的問題，同一個(gè)用戶，由于用戶是否登錄，在同一個(gè)模型中，可能存在重復(fù)的記錄，如何識(shí)別兩個(gè) ID 是同一個(gè)用戶，做到所有用戶只有唯一的 ID 標(biāo)識(shí)，這個(gè)是 OneEntity 要解決的問題。

對(duì)于三個(gè)方法論，我們的經(jīng)驗(yàn)是必須通過系統(tǒng)化的方式，將規(guī)范沉淀到系統(tǒng)中，確保建設(shè)的效果。為了支撐數(shù)據(jù)中臺(tái)的建設(shè)，我們研發(fā)了一套全鏈路大數(shù)據(jù)產(chǎn)品，網(wǎng)易猛犸 6.0，其架構(gòu)圖如下：

全鏈路大數(shù)據(jù)產(chǎn)品網(wǎng)易猛犸 6.0 建立在 Hadoop 基礎(chǔ)之上，包括 16 個(gè)子產(chǎn)品（上圖中綠色模塊標(biāo)識(shí)部分），覆蓋了數(shù)據(jù)生產(chǎn)、治理的完整鏈路，本著“簡單易用，舉重若輕”的產(chǎn)品設(shè)計(jì)思想，我們采取了“組件式”的產(chǎn)品設(shè)計(jì)模式，每個(gè)產(chǎn)品都聚焦一個(gè)典型的場景，業(yè)務(wù)可以根據(jù)自身的需要，選擇性的搭配一些產(chǎn)品應(yīng)用，解決業(yè)務(wù)當(dāng)前面臨的問題。同時(shí)猛犸 6.0 具備可擴(kuò)展的產(chǎn)品架構(gòu)，業(yè)務(wù)方可以基于該產(chǎn)品提供的基礎(chǔ)能力，擴(kuò)展新的產(chǎn)品。

全鏈路大數(shù)據(jù)產(chǎn)品網(wǎng)易猛犸 6.0 在大數(shù)據(jù)開發(fā)、任務(wù)運(yùn)維、數(shù)據(jù)集成等大數(shù)據(jù)平臺(tái)的基礎(chǔ)上，主要增加了兩個(gè)板塊，一個(gè)是 OneData 體系，它是以元數(shù)據(jù)中心作為基礎(chǔ)的，在元數(shù)據(jù)中心之上提供了 5 個(gè)中臺(tái)相關(guān)的產(chǎn)品：數(shù)倉設(shè)計(jì)中心、數(shù)據(jù)資產(chǎn)中心、數(shù)據(jù)質(zhì)量中心、指標(biāo)系統(tǒng)和數(shù)據(jù)地圖。

數(shù)倉設(shè)計(jì)中心：按照主題域、業(yè)務(wù)過程，分層的設(shè)計(jì)方式，以維度建模作為基本理論依據(jù)，按照維度、度量設(shè)計(jì)模型，確保模型、字段有統(tǒng)一的命名規(guī)范。
數(shù)據(jù)資產(chǎn)中心：主要作用是梳理數(shù)據(jù)資產(chǎn)，基于數(shù)據(jù)血緣，數(shù)據(jù)的訪問熱度，做成本的治理。
數(shù)據(jù)質(zhì)量中心：主要是通過豐富的稽核監(jiān)控規(guī)則，對(duì)數(shù)據(jù)進(jìn)行事后校驗(yàn)，確保問題數(shù)據(jù)第一時(shí)間被發(fā)現(xiàn)，避免下游的無效計(jì)算，分析數(shù)據(jù)的影響范圍。
指標(biāo)系統(tǒng)：管理指標(biāo)的業(yè)務(wù)口徑、計(jì)算邏輯和數(shù)據(jù)來源，通過流程化的方式，建立從指標(biāo)需求、指標(biāo)開發(fā)、指標(biāo)發(fā)布的全套協(xié)作流程。
數(shù)據(jù)地圖：提供的是元數(shù)據(jù)的快速檢索，數(shù)據(jù)字典、數(shù)據(jù)血緣、數(shù)據(jù)特征信息的查詢，相當(dāng)于元數(shù)據(jù)中心的一個(gè)門戶。

另外一個(gè)板塊就是 OneService 體系，對(duì)應(yīng)的就是數(shù)據(jù)服務(wù)。數(shù)據(jù)服務(wù)對(duì)外提供 Restful API，屏蔽底層各種數(shù)據(jù)源，加工好的指標(biāo)，導(dǎo)出到 Greenplum、MySQL、Redis、HBase 里面進(jìn)行查詢，數(shù)據(jù)服務(wù)將用戶訪問的 Restful API 轉(zhuǎn)化為底層對(duì)各種數(shù)據(jù)源的訪問。數(shù)據(jù)服務(wù)可以認(rèn)為是數(shù)倉的網(wǎng)關(guān)。

在數(shù)據(jù)服務(wù)之上，就是應(yīng)用層，這里可以分為兩類，一類是通用性數(shù)據(jù)應(yīng)用，包括報(bào)表系統(tǒng)、大屏系統(tǒng)、自助分析系統(tǒng)，本身不具備行業(yè)屬性，任何業(yè)務(wù)都可以使用；另一類是行業(yè)性的數(shù)據(jù)應(yīng)用，比如電商的供應(yīng)鏈系統(tǒng)、傳媒的輿情系統(tǒng)。在我們的數(shù)據(jù)中臺(tái)劃分中，通用性的數(shù)據(jù)應(yīng)用也被劃入了中臺(tái)的范圍內(nèi)，因?yàn)橹信_(tái)本質(zhì)是提供共性能力，對(duì)于數(shù)據(jù)中臺(tái)，就是提供共享的數(shù)據(jù)。

數(shù)據(jù)中臺(tái)的價(jià)值

數(shù)據(jù)中臺(tái)是一個(gè)自上而下的工程，需要投入大量的人力和資源，很多企業(yè)想做數(shù)據(jù)中臺(tái)，卻又不知道如何去衡量數(shù)據(jù)中臺(tái)的價(jià)值，下面結(jié)合網(wǎng)易的實(shí)踐，給大家一些參考。

消除指標(biāo)的不一致：在做數(shù)據(jù)中臺(tái)之前，指標(biāo)業(yè)務(wù)口徑不一致，數(shù)據(jù)來源不一致，計(jì)算邏輯不一致，經(jīng)常是造成同個(gè)指標(biāo)結(jié)果不一樣的原因。通過指標(biāo)系統(tǒng)，我們對(duì)所有數(shù)據(jù)產(chǎn)品的指標(biāo)進(jìn)行了全面梳理，按照主題域、業(yè)務(wù)過程進(jìn)行劃分，對(duì)指標(biāo)按照原子指標(biāo)和派生指標(biāo)進(jìn)行拆分，消除冗余指標(biāo)、無效的指標(biāo)，明確所有指標(biāo)的業(yè)務(wù)口徑、計(jì)算邏輯和數(shù)據(jù)來源。通過指標(biāo)系統(tǒng)，我們可以快速的查詢，數(shù)據(jù)產(chǎn)品上直接引用指標(biāo)系統(tǒng)的業(yè)務(wù)口徑，在數(shù)據(jù)產(chǎn)品上，我們完全消除了指標(biāo)的二義性。
數(shù)倉設(shè)計(jì)水平提升：在做數(shù)據(jù)中臺(tái)之前，我們有大量的表沒有明確的主題域和業(yè)務(wù)過程劃分，大量匯總層數(shù)據(jù)直接引用原始數(shù)據(jù)，ODS 層有大量的任務(wù)直接引用，大量 Query 直接查詢原始數(shù)據(jù)。在數(shù)據(jù)中臺(tái)建設(shè)后，整個(gè)數(shù)倉水平上了一個(gè)臺(tái)階，不僅所有數(shù)倉維護(hù)的非中間表均有明確的主題域和分層，并且完全消除了匯總數(shù)據(jù)直接引用 ODS 層原始數(shù)據(jù)的情況，數(shù)倉表的復(fù)用性顯著提高，匯總層 Query 的覆蓋率明顯提升。
取數(shù)效率提升：在做數(shù)據(jù)中臺(tái)前，大量的數(shù)據(jù)發(fā)現(xiàn)都是通過人工協(xié)作交流的方式進(jìn)行的，數(shù)據(jù)理解的準(zhǔn)確性、效率都非常低?；跀?shù)據(jù)地圖，我們實(shí)現(xiàn) 100% 自助取數(shù)，取數(shù)效率提升 300%，分析師滿意度得到大幅提升。
數(shù)據(jù)質(zhì)量的提升：在做數(shù)據(jù)中臺(tái)前，數(shù)據(jù)經(jīng)常無法按時(shí)產(chǎn)出。我們規(guī)定每天 6 點(diǎn)前數(shù)倉的數(shù)據(jù)要產(chǎn)出完成，但是往往達(dá)不到這樣一個(gè)要求，出現(xiàn)一個(gè)異常，經(jīng)常被業(yè)務(wù)方投訴，而排查和定位一個(gè)故障，也需要大量的時(shí)間，有了數(shù)據(jù)質(zhì)量中心后，通過大量的稽核監(jiān)控規(guī)則，我們做到了先于使用數(shù)據(jù)的人發(fā)現(xiàn)數(shù)據(jù)的問題，并且基于全鏈路的監(jiān)控，我們可以知道某個(gè)任務(wù)異常，影響了哪些指標(biāo)，并且基于任務(wù)的歷史運(yùn)行數(shù)據(jù)，對(duì)故障恢復(fù)時(shí)間進(jìn)行預(yù)測。
數(shù)據(jù)成本減少：衡量這個(gè)其實(shí)是最簡單的，直接就看數(shù)倉消耗的資源，原先是多少，數(shù)據(jù)中臺(tái)建設(shè)之后又是多少，當(dāng)然這里面存在業(yè)務(wù)增長的情況，我們核算的方法是把單個(gè)任務(wù)的成本占優(yōu)化任務(wù)時(shí)，數(shù)倉消耗的當(dāng)日成本占比，作為衡量指標(biāo)，我們最終通過下架無用的、低價(jià)值的表和任務(wù)，為業(yè)務(wù)節(jié)省了 20% 的成本。

實(shí)施數(shù)據(jù)中臺(tái)的建議

在文章的最后，我想給即將做數(shù)據(jù)中臺(tái)，或者正在做數(shù)據(jù)中臺(tái)的同學(xué)一些建議。

首先要有目標(biāo)和度量，不管是做質(zhì)量，還是成本，還是效率，沒有目標(biāo)，沒有度量，就很難講的清楚效果。其次，要通過系統(tǒng)化的方式對(duì)規(guī)范和方法論進(jìn)行沉淀。數(shù)據(jù)中臺(tái)不是一次性的事情，做質(zhì)量，稽核監(jiān)控規(guī)則要不斷的完善，治理成本，任務(wù)和表的優(yōu)化要持續(xù)進(jìn)行。所以必須要有系統(tǒng)和產(chǎn)品做支撐。

最后，做數(shù)據(jù)中臺(tái)必須要實(shí)現(xiàn)全鏈路，各個(gè)子產(chǎn)品要相互打通，BI 產(chǎn)品可以引用指標(biāo)系統(tǒng)的口徑定義，任務(wù)運(yùn)維中心任務(wù)異?？梢宰粉櫟接绊懥四膫€(gè) BI 報(bào)表，數(shù)據(jù)資產(chǎn)必須要知道哪個(gè) BI 報(bào)表訪問了那個(gè)表，才能知道哪個(gè)報(bào)表的哪個(gè)指標(biāo)消耗了多少資源，計(jì)算指標(biāo)的 ROI。

感謝作者！以下為作者簡介

郭憶，網(wǎng)易杭州研究院大數(shù)據(jù)專家，網(wǎng)易大數(shù)據(jù)平臺(tái)網(wǎng)易猛犸、網(wǎng)易敏捷 BI 產(chǎn)品網(wǎng)易有數(shù)負(fù)責(zé)人。10 年互聯(lián)網(wǎng)數(shù)據(jù)研發(fā)經(jīng)驗(yàn)，曾經(jīng)做過數(shù)據(jù)庫，主導(dǎo)了網(wǎng)易關(guān)系數(shù)據(jù)庫服務(wù) RDS 建設(shè)；做過推薦工程，負(fù)責(zé)網(wǎng)易信息流推薦服務(wù)；目前主要從事企業(yè)級(jí)數(shù)據(jù)中臺(tái)支撐產(chǎn)品以及通用型數(shù)據(jù)應(yīng)用的研發(fā)，支撐網(wǎng)易電商、音樂、傳媒等業(yè)務(wù)的大數(shù)據(jù)建設(shè)。

超強(qiáng)干貨來襲云風(fēng)專訪：近40年碼齡，通宵達(dá)旦的技術(shù)人生

總結(jié)

以上是生活随笔為你收集整理的网易数据中台建设实践的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： npm ERR! code ELIFEC
下一篇：大数据架构如何做到流批一体？【对于Fli