大数据成败之“监”:美团数据质量监管平台这样搭建
http://www.sohu.com/a/227310642_411876
背景
數(shù)據(jù),已經(jīng)成為互聯(lián)網(wǎng)企業(yè)非常依賴的新型重要資產(chǎn)。數(shù)據(jù)質(zhì)量的好壞直接關(guān)系到信息的精準(zhǔn)度,也影響到企業(yè)的生存和競爭力。
Michael Hammer(《Reengineering the Corporation》一書的作者)曾說過,看起來不起眼的數(shù)據(jù)質(zhì)量問題,實(shí)際上是拆散業(yè)務(wù)流程的重要標(biāo)志。
數(shù)據(jù)質(zhì)量管理是測度、提高和驗(yàn)證質(zhì)量,以及整合組織數(shù)據(jù)的方法等一套處理準(zhǔn)則,而體量大、速度快和多樣性的特點(diǎn),決定了大數(shù)據(jù)質(zhì)量所需的處理,有別于傳統(tǒng)信息治理計(jì)劃的質(zhì)量管理方式。
本文基于美團(tuán)點(diǎn)評大數(shù)據(jù)平臺,通過對數(shù)據(jù)流轉(zhuǎn)過程中各階段數(shù)據(jù)質(zhì)量檢測結(jié)果的采集分析、規(guī)則引擎、評估反饋和再監(jiān)測的閉環(huán)管理過程出發(fā),從面臨挑戰(zhàn)、建設(shè)思路、技術(shù)方案、呈現(xiàn)效果及總結(jié)等方面,介紹美團(tuán)平臺酒旅事業(yè)群(以下簡稱美旅)數(shù)據(jù)質(zhì)量監(jiān)管平臺DataMan的搭建思路和建設(shè)實(shí)踐。
挑戰(zhàn)
美旅數(shù)據(jù)中心日均處理的離線和實(shí)時(shí)作業(yè)高達(dá)數(shù)萬量級, 如何更加合理、高效的監(jiān)控每類作業(yè)的運(yùn)行狀態(tài),并將原本分散、孤島式的監(jiān)控日志信息通過規(guī)則引擎集中共享、關(guān)聯(lián)、處理;洞察關(guān)鍵信息,形成事前預(yù)判、事中監(jiān)控、事后跟蹤的質(zhì)量管理閉環(huán)流程;沉淀故障問題,搭建解決方案的知識庫體系。
在數(shù)據(jù)質(zhì)量監(jiān)管平臺的規(guī)劃建設(shè)中,面臨如下挑戰(zhàn):
缺乏統(tǒng)一監(jiān)控視圖,離線和實(shí)時(shí)作業(yè)監(jiān)控分散,影響性、關(guān)聯(lián)性不足。
數(shù)據(jù)質(zhì)量的衡量標(biāo)準(zhǔn)缺失,數(shù)據(jù)校驗(yàn)滯后,數(shù)據(jù)口徑不統(tǒng)一。
問題故障處理流程未閉環(huán),“點(diǎn)”式解決現(xiàn)象常在;缺乏統(tǒng)一歸檔,沒有形成體系的知識庫。
數(shù)據(jù)模型質(zhì)量監(jiān)控缺失,模型重復(fù),基礎(chǔ)模型與應(yīng)用模型的關(guān)聯(lián)度不足,形成信息孤島。
數(shù)據(jù)存儲資源增長過快,不能監(jiān)控細(xì)粒度資源內(nèi)容。
DataMan質(zhì)量監(jiān)管平臺研發(fā)正基于此,以下為具體建設(shè)方案。
解決思路
整體框架
構(gòu)建美旅大數(shù)據(jù)質(zhì)量監(jiān)控平臺,從可實(shí)踐運(yùn)用的視角出發(fā),整合平臺資源、技術(shù)流程核心要點(diǎn),重點(diǎn)著力平臺支持、技術(shù)控制、流程制度、知識體系形成等方向建設(shè),確保質(zhì)量監(jiān)控平臺敏捷推進(jìn)落地的可行性。
數(shù)據(jù)質(zhì)量監(jiān)控平臺整體框架如圖1所示:
圖1 數(shù)據(jù)質(zhì)量監(jiān)控平臺整體框架圖
建設(shè)方法
以數(shù)據(jù)質(zhì)量檢核管理PDCA方法論,基于美團(tuán)大數(shù)據(jù)平臺,對數(shù)據(jù)質(zhì)量需求和問題進(jìn)行全質(zhì)量生命周期的管理,包括質(zhì)量問題的定義、檢核監(jiān)控、發(fā)現(xiàn)分析、跟蹤反饋及知識庫沉淀。
數(shù)據(jù)質(zhì)量PDCA流程圖如圖2所示:
圖2 數(shù)據(jù)質(zhì)量PDCA流程圖
關(guān)鍵流程
質(zhì)量監(jiān)管平臺建設(shè)實(shí)踐應(yīng)用及價(jià)值體現(xiàn),離不開管理流程、技術(shù)實(shí)現(xiàn)和組織人員的緊密結(jié)合,主要包含如下8大流程步驟:
質(zhì)量需求:發(fā)現(xiàn)數(shù)據(jù)問題;信息提報(bào)、收集需求;檢核規(guī)則的需求等;
提煉規(guī)則:梳理規(guī)則指標(biāo)、確定有效指標(biāo)、檢核指標(biāo)準(zhǔn)確度和衡量標(biāo)準(zhǔn);
規(guī)則庫構(gòu)建:檢核對象配置、調(diào)度配置、規(guī)則配置、檢核范圍確認(rèn)、檢核標(biāo)準(zhǔn)確定等;
執(zhí)行檢核:調(diào)度配置、調(diào)度執(zhí)行、檢核代碼;
問題檢核:檢核問題展示、分類、質(zhì)量分析、質(zhì)量嚴(yán)重等級分類等;
分析報(bào)告:數(shù)據(jù)質(zhì)量報(bào)告、質(zhì)量問題趨勢分析,影響度分析,解決方案達(dá)成共識;
落實(shí)處理:方案落實(shí)執(zhí)行、跟蹤管理、解決方案Review及標(biāo)準(zhǔn)化提煉;
知識庫體系形成:知識經(jīng)驗(yàn)總結(jié)、標(biāo)準(zhǔn)方案沉淀、知識庫體系建設(shè)。
質(zhì)量檢核標(biāo)準(zhǔn)
完整性:主要包括實(shí)體缺失、屬性缺失、記錄缺失和字段值缺失四個(gè)方面;
準(zhǔn)確性:一個(gè)數(shù)據(jù)值與設(shè)定為準(zhǔn)確的值之間的一致程度,或與可接受程度之間的差異;
合理性:主要包括格式、類型、值域和業(yè)務(wù)規(guī)則的合理有效;
一致性:系統(tǒng)之間的數(shù)據(jù)差異和相互矛盾的一致性,業(yè)務(wù)指標(biāo)統(tǒng)一定義,數(shù)據(jù)邏輯加工結(jié)果一致性;
及時(shí)性:數(shù)據(jù)倉庫ETL、應(yīng)用展現(xiàn)的及時(shí)和快速性,Jobs運(yùn)行耗時(shí)、運(yùn)行質(zhì)量、依賴運(yùn)行及時(shí)性。
大數(shù)據(jù)平臺下的質(zhì)量檢核標(biāo)準(zhǔn)更需考慮到大數(shù)據(jù)的快變化、多維度、定制化及資源量大等特性,如數(shù)倉及應(yīng)用BI系統(tǒng)的質(zhì)量故障等級分類、數(shù)據(jù)模型熱度標(biāo)準(zhǔn)定義、作業(yè)運(yùn)行耗時(shí)標(biāo)準(zhǔn)分類等和數(shù)倉模型邏輯分層及主題劃分組合如下圖3所示。
圖3 質(zhì)量檢核標(biāo)準(zhǔn)圖
美旅數(shù)倉劃分為客服、流量、運(yùn)營、訂單、門店、產(chǎn)品、參與人、風(fēng)控、結(jié)算和公用等十大主題,按Base、Fact、Topic、App邏輯分層,形成體系化的物理模型。從數(shù)據(jù)價(jià)值量化、存儲資源優(yōu)化等指標(biāo)評估,劃分物理模型為熱、溫、冷、冰等四類標(biāo)準(zhǔn),結(jié)合應(yīng)用自定義其具體標(biāo)準(zhǔn)范圍,實(shí)現(xiàn)其靈活性配置。
作業(yè)運(yùn)行耗時(shí)分為:優(yōu)、良、一般、關(guān)注、耗時(shí)等,每類耗時(shí)定義的標(biāo)準(zhǔn)范圍既符合大數(shù)據(jù)的特性又可滿足具體分析需要,且作業(yè)耗時(shí)與數(shù)倉主題和邏輯分層深度整合,實(shí)現(xiàn)多角度質(zhì)量洞察評估。
針對數(shù)萬的作業(yè)信息從數(shù)據(jù)時(shí)效性、作業(yè)運(yùn)行等級、服務(wù)對象范圍等視角,將其故障等級分為S1:嚴(yán)重度極高;S2:嚴(yán)重度高; S3:嚴(yán)重度中; S4:嚴(yán)重度低等四項(xiàng)標(biāo)準(zhǔn),各項(xiàng)均對應(yīng)具體的實(shí)施策略。整體數(shù)據(jù)質(zhì)量的檢核對象包括離線數(shù)倉和實(shí)時(shí)數(shù)據(jù)。
監(jiān)管核心點(diǎn)
圖4 數(shù)據(jù)質(zhì)量監(jiān)管功能圖
數(shù)據(jù)質(zhì)量功能模塊設(shè)計(jì)的主要功能如上圖4所示,包括:監(jiān)控對象管理、檢核指標(biāo)管理、數(shù)據(jù)質(zhì)量過程監(jiān)控、問題跟蹤管理、推薦優(yōu)化管理、知識庫管理及系統(tǒng)管理等。
其中過程監(jiān)控包括離線數(shù)據(jù)監(jiān)控、實(shí)時(shí)數(shù)據(jù)監(jiān)控;問題跟蹤處理由問題發(fā)現(xiàn)(支持自動檢核、人工錄入)、問題提報(bào)、任務(wù)推送、故障定級、故障處理、知識庫沉淀等形成閉環(huán)流程。
管理流程
流程化管理是推進(jìn)數(shù)據(jù)問題從發(fā)現(xiàn)、跟蹤、解決到總結(jié)提煉的合理有效工具。
質(zhì)量管理流程包括:數(shù)據(jù)質(zhì)量問題提報(bào)、數(shù)據(jù)質(zhì)量問題分析、故障跟蹤、解決驗(yàn)證、數(shù)據(jù)質(zhì)量評估分析等主要環(huán)節(jié)步驟;從干系人員的角度分析包括數(shù)據(jù)質(zhì)量管理人員、數(shù)據(jù)質(zhì)量檢查人員、數(shù)據(jù)平臺開發(fā)人員、業(yè)務(wù)及BI商分人員等,從流程步驟到管理人員形成職責(zé)和角色的矩陣圖。如圖5所示:
圖5 數(shù)據(jù)質(zhì)量流程圖
問題匯總:數(shù)據(jù)質(zhì)量提報(bào)、ETL處理及監(jiān)控過程上報(bào)、數(shù)據(jù)質(zhì)量檢查點(diǎn)等多方來源,其中ETL處理部分為程序自動化上報(bào),減少人為干預(yù)。
問題分析:通過規(guī)定的角色和崗位的人員對匯總問題分析和評估,由統(tǒng)一公共賬號自動推送提醒消息至責(zé)任人。
問題工單:對采集的問題經(jīng)過分析歸類,主要劃為信息提示和故障問題兩大類,信息提示無需工單生成,故障問題將產(chǎn)生對應(yīng)的工單,后推送至工單處理人。
故障定級:針對生成的問題工單判斷其故障級別,其級別分為:S1、S2、S3、S4等四類(如圖3所述),針對尤為嚴(yán)重的故障問題需Review機(jī)制并持續(xù)跟蹤C(jī)aseStudy總結(jié)。
知識庫體系:從由數(shù)據(jù)問題、解決方案、典型案例等內(nèi)容中,提煉總結(jié)形成標(biāo)準(zhǔn)化、完備知識庫體系,以質(zhì)量問題中提煉價(jià)值,形成標(biāo)準(zhǔn),更加有效的指導(dǎo)業(yè)務(wù)、規(guī)范業(yè)務(wù),提高源頭數(shù)據(jù)質(zhì)量,提升業(yè)務(wù)服務(wù)水平。
質(zhì)量流程管理:
流程原則:統(tǒng)一流程、步驟穩(wěn)定。
權(quán)限控制:流程節(jié)點(diǎn)與人員賬戶號綁定,若節(jié)點(diǎn)未設(shè)置人員賬戶即面向所有人員,否則為規(guī)定范圍的人員。
權(quán)限管理:可結(jié)合美團(tuán)平臺的UPM系統(tǒng)權(quán)限管理機(jī)制。
技術(shù)方案
總體架構(gòu)
DataMan系統(tǒng)建設(shè)總體方案基于美團(tuán)的大數(shù)據(jù)技術(shù)平臺。自底向上包括:檢測數(shù)據(jù)采集、質(zhì)量集市處理層;質(zhì)量規(guī)則引擎模型存儲層;系統(tǒng)功能層及系統(tǒng)應(yīng)用展示層等。
整個(gè)數(shù)據(jù)質(zhì)量檢核點(diǎn)基于技術(shù)性、業(yè)務(wù)性檢測,形成完整的數(shù)據(jù)質(zhì)量報(bào)告與問題跟蹤機(jī)制,創(chuàng)建質(zhì)量知識庫,確保數(shù)據(jù)質(zhì)量的完整性(Completeness)、正確性(Correctness)、當(dāng)前性(Currency)、一致性(Consistency)。
總體架構(gòu)圖如圖6所示:
圖6 質(zhì)量監(jiān)管DataMan總體架構(gòu)圖
數(shù)據(jù)源及集市層:首先采集數(shù)據(jù)平臺質(zhì)量相關(guān)的元數(shù)據(jù)信息、監(jiān)控日志信息、實(shí)時(shí)日志、檢測配置中心日志、作業(yè)日志及調(diào)度平臺日志等關(guān)鍵的質(zhì)量元數(shù)據(jù);經(jīng)數(shù)據(jù)質(zhì)量集市的模型設(shè)計(jì)、監(jiān)控對象的分類,加工形成完整、緊關(guān)聯(lián)、多維度、易分析的數(shù)據(jù)質(zhì)量基礎(chǔ)數(shù)據(jù)模型,為上層質(zhì)量應(yīng)用分析奠定數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)來源自大數(shù)據(jù)平臺、實(shí)時(shí)數(shù)倉、調(diào)度平臺等,涉及到Hive、 Spark、Storm、 Kafka、MySQL及BI應(yīng)用等相關(guān)平臺數(shù)據(jù)源;
存儲模型層:主要功能包括規(guī)則引擎數(shù)據(jù)配置、質(zhì)量模型結(jié)果存儲;以數(shù)據(jù)質(zhì)量監(jiān)控、影響關(guān)聯(lián)、全方位監(jiān)控等目標(biāo)規(guī)則引擎的推動方式,將加工結(jié)果數(shù)據(jù)存儲至關(guān)系型數(shù)據(jù)庫中,構(gòu)成精簡高質(zhì)數(shù)據(jù)層;
系統(tǒng)功能層:包括配置管理、過程監(jiān)控、問題跟蹤、故障流程管理、實(shí)時(shí)數(shù)據(jù)監(jiān)控、知識庫體系的創(chuàng)建等;處理的對象包括日志運(yùn)行作業(yè)、物理監(jiān)控模型、業(yè)務(wù)監(jiān)控模型等主要實(shí)體;
系統(tǒng)展示層:通過界面化方式管理、展示數(shù)據(jù)質(zhì)量狀態(tài),包括質(zhì)量監(jiān)控界面、推薦優(yōu)化模塊、質(zhì)量分析、信息展示、問題提報(bào)、故障跟蹤及測量定級、系統(tǒng)權(quán)限管理等功能。
技術(shù)框架
前后端技術(shù)
圖7 技術(shù)架構(gòu)圖
DataMan應(yīng)用系統(tǒng)其前端框架(如上圖7)基于Bootstrap開發(fā),模板引擎為FreeMarker,Tomcat(開發(fā)環(huán)境)作為默認(rèn)Web容器,通過MVC的方式實(shí)現(xiàn)與應(yīng)用服務(wù)層對接。
Bootstrap的優(yōu)勢基于jQuery,豐富的CSS、JS組件,兼容多種瀏覽器,界面風(fēng)格統(tǒng)一等;FreeMarker為基于模板用來生成輸出文本的引擎。
后臺基于開源框架Spring4,Spring Boot,Hibernate搭建,其集成了Druid,Apache系列和Zebra等數(shù)據(jù)庫訪問中間件等,為系統(tǒng)的功能開發(fā)帶來更多選擇和便利。
Zebra中間件
系統(tǒng)數(shù)據(jù)庫連接采用中間件Zebra,這是美團(tuán)點(diǎn)評DBA團(tuán)隊(duì)推薦的官方數(shù)據(jù)源組件,基于JDBC、API協(xié)議上開發(fā)出的高可用、高性能的數(shù)據(jù)庫訪問層解決方案;提供如動態(tài)配置、監(jiān)控、讀寫分離、分庫分表等功能。
Zebra整體架構(gòu)如圖8所示:
圖8 Zebra架構(gòu)圖
Zebra客戶端會據(jù)路由配置直連到MySQL數(shù)據(jù)庫進(jìn)行讀寫分離和負(fù)載均衡。RDS是一站式的數(shù)據(jù)庫管理平臺,提供Zebra的路由配置信息的維護(hù);MHA組件和從庫監(jiān)控服務(wù)分別負(fù)責(zé)主庫和從庫的高可用。Zebra支持豐富的底層連接池;統(tǒng)一源數(shù)據(jù)配置管理;讀寫分離和分庫分表;數(shù)據(jù)庫的高可用。
數(shù)據(jù)模型
整個(gè)質(zhì)量監(jiān)管平臺數(shù)據(jù)流向?yàn)閿?shù)據(jù)質(zhì)量元數(shù)據(jù)信息采集于美團(tuán)平臺,包括數(shù)據(jù)倉庫元數(shù)據(jù)信息、質(zhì)量檢測元數(shù)據(jù)、調(diào)度平臺日志信息、監(jiān)控日志及實(shí)時(shí)元數(shù)據(jù)信息等,加工形成獨(dú)立數(shù)據(jù)質(zhì)量的集市模型,以此支撐應(yīng)用層系統(tǒng)的數(shù)據(jù)需求。
應(yīng)用層系統(tǒng)數(shù)據(jù)庫采用關(guān)系型數(shù)據(jù)庫存儲的方式,主要包含了規(guī)則配置管理信息、數(shù)據(jù)質(zhì)量結(jié)果庫等信息內(nèi)容。數(shù)據(jù)流向?qū)蛹夑P(guān)系圖如下:
圖9 數(shù)據(jù)流向?qū)蛹増D
數(shù)據(jù)平臺層:基于美團(tuán)大數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量元數(shù)據(jù)是質(zhì)量分析和監(jiān)管的來源,是整個(gè)系統(tǒng)最基礎(chǔ)重要資源信息。
此數(shù)據(jù)主要包括:數(shù)倉元數(shù)據(jù)信息,如數(shù)倉模型表基本信息、表存儲空間資源信息、表分區(qū)信息、節(jié)點(diǎn)信息、數(shù)據(jù)庫meta信息、數(shù)據(jù)庫資源信息等;運(yùn)行作業(yè)調(diào)度日志信息,如作業(yè)基本信息、作業(yè)運(yùn)行資源信息、作業(yè)調(diào)度狀態(tài)信息、作業(yè)依賴關(guān)系信息及作業(yè)調(diào)度日志監(jiān)控信息等;質(zhì)量檢測元數(shù)據(jù)信息主要來源于SLA、DQC(美團(tuán)內(nèi)部系統(tǒng))檢測結(jié)果的信息。實(shí)時(shí)元數(shù)據(jù)采集于調(diào)度平臺實(shí)時(shí)作業(yè)運(yùn)行的API接口調(diào)用分析。
質(zhì)量集市層:DM數(shù)據(jù)質(zhì)量集市的獨(dú)立創(chuàng)建是依托基礎(chǔ)元數(shù)據(jù)信息,根據(jù)質(zhì)量監(jiān)管平臺配置的引擎規(guī)則ETL加工形成。
規(guī)則庫引擎如數(shù)倉應(yīng)用主題的劃分規(guī)則、數(shù)倉邏輯分層約束、數(shù)據(jù)庫引擎分類、模型使用熱度等級、模型存儲空間分類、資源增長等級、歷史周期分類、作業(yè)重要級別、作業(yè)運(yùn)行耗時(shí)等級、作業(yè)故障分類、及數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)化定義等。
在管理方向上,如模型或作業(yè)所屬的業(yè)務(wù)條線、組織架構(gòu)、開發(fā)人員等;在時(shí)效上分為離線監(jiān)控?cái)?shù)據(jù)、實(shí)時(shí)數(shù)據(jù)集市等。從多個(gè)維度交叉組合分析形成模型類、作業(yè)類、監(jiān)控日志類、實(shí)時(shí)類等主題的等易理解、簡單、快捷的數(shù)據(jù)質(zhì)量集市層,強(qiáng)有力的支撐上層應(yīng)用層功能的數(shù)據(jù)需求。
數(shù)據(jù)質(zhì)量集市DM主要模型如圖10所示:
圖10 數(shù)據(jù)質(zhì)量集市模型圖
模型設(shè)計(jì):“統(tǒng)一規(guī)范、簡單快捷、快速迭代、保障質(zhì)量”,基于美團(tuán)平臺元數(shù)據(jù)、平臺日志、實(shí)時(shí)數(shù)據(jù)接口等來源,通過制定的規(guī)則、標(biāo)準(zhǔn),形成可衡量、可評估的數(shù)據(jù)質(zhì)量集市層,主要包含公共維度類、模型分析類、作業(yè)監(jiān)控類、平臺監(jiān)控類等主要內(nèi)容;
實(shí)時(shí)數(shù)據(jù):針對實(shí)時(shí)作業(yè)的監(jiān)控通過API接口調(diào)用,后落地?cái)?shù)據(jù),實(shí)時(shí)監(jiān)控作業(yè)運(yùn)行日志狀態(tài);
數(shù)據(jù)加工:基于美團(tuán)平臺離線Hive、Spark引擎執(zhí)行調(diào)度,以數(shù)倉模型分層、數(shù)倉十大主題規(guī)則和數(shù)據(jù)質(zhì)量規(guī)則庫等為約束條件,加工形成獨(dú)立的數(shù)據(jù)集市層。
應(yīng)用分析層:應(yīng)用層系統(tǒng)數(shù)據(jù)采用關(guān)系型數(shù)據(jù)庫(MySQL)存儲的方式,主要包含了規(guī)則配置管理信息、數(shù)據(jù)質(zhì)量分析結(jié)果、實(shí)時(shí)API落地?cái)?shù)據(jù)、故障問題數(shù)據(jù)、知識庫信息、流程管理及系統(tǒng)管理類等信息內(nèi)容,直接面對前端界面的展示和管理。
系統(tǒng)展示
數(shù)據(jù)質(zhì)量DataMan監(jiān)控系統(tǒng)一期建設(shè)主要實(shí)現(xiàn)的功能包括:個(gè)人工作臺、信息監(jiān)控、推薦信息、信息提報(bào)、故障管理、配置管理及權(quán)限系統(tǒng)管理等。系統(tǒng)效果如圖11所示:
圖11 系統(tǒng)效果圖
個(gè)人工作臺
在系統(tǒng)中將個(gè)人待關(guān)注、待處理、待優(yōu)化、待總結(jié)等與個(gè)人相關(guān)的問題和任務(wù)形成統(tǒng)一的工作平臺入口,通過公共賬號推送的方式,第一時(shí)間提醒個(gè)人,通知反饋問題的提出者,保障問題可跟蹤,進(jìn)度可查詢,責(zé)任到人的工作流程機(jī)制。
離線監(jiān)控
系統(tǒng)可定時(shí)執(zhí)行模型監(jiān)控、作業(yè)監(jiān)控、平臺日志監(jiān)控等元數(shù)據(jù)質(zhì)量規(guī)則引擎,開展數(shù)據(jù)倉庫主題模型、邏輯層級作業(yè)、存儲資源空間、作業(yè)耗時(shí)、CPU及內(nèi)存資源等細(xì)化深度分析和洞察;按照質(zhì)量分析模型,以時(shí)間、增長趨勢、同環(huán)比、歷史基線點(diǎn)等多維度、全面整合打造統(tǒng)一監(jiān)控平臺。
實(shí)時(shí)監(jiān)控
從應(yīng)用角度將作業(yè)按照業(yè)務(wù)條線、數(shù)倉分層、數(shù)倉主題、組織結(jié)構(gòu)和人員等維度劃分,結(jié)合作業(yè)基線信息,實(shí)時(shí)監(jiān)控正在運(yùn)行的作業(yè)質(zhì)量,并與作業(yè)基線形成對比參照,預(yù)警不符合標(biāo)準(zhǔn)的指標(biāo)信息,第一時(shí)間通知責(zé)任人。
實(shí)時(shí)作業(yè)運(yùn)行與基線對比監(jiān)控效果如圖12所示:
圖12 實(shí)時(shí)作業(yè)運(yùn)行監(jiān)控圖
推薦信息
系統(tǒng)通過規(guī)則引擎的設(shè)置和自動調(diào)度的執(zhí)行,從存儲資源配置、數(shù)據(jù)模型優(yōu)化、作業(yè)優(yōu)化、日志錯(cuò)誤超時(shí)、預(yù)警通知等方面考慮,以制定的質(zhì)量標(biāo)準(zhǔn)為評估依據(jù),自動檢測評估,匯總問題,形成可靠的推薦優(yōu)化內(nèi)容,并在達(dá)到閾值條件后主動推送消息,觸發(fā)后續(xù)任務(wù)開展。
公共賬號
通過“數(shù)據(jù)治理公共賬號”機(jī)器人發(fā)送消息模式,將預(yù)判觸發(fā)的預(yù)警通知、任務(wù)分配、任務(wù)提醒和風(fēng)險(xiǎn)評估等信息第一時(shí)間通知相應(yīng)的負(fù)責(zé)人員,開啟工作流程。
故障處理
支持自動提報(bào)和人工填報(bào)兩種模式,以閉環(huán)工作流方式開展工作,確保問題故障可跟蹤、可查詢、可定級、可考核、可量化,以責(zé)任到人、落地可行的處理模式,嚴(yán)控?cái)?shù)據(jù)質(zhì)量,從根本上提高數(shù)據(jù)質(zhì)量,提升業(yè)務(wù)服務(wù)水平。
DataMan質(zhì)量監(jiān)管系統(tǒng)的投入運(yùn)營,優(yōu)化數(shù)據(jù)存儲資源、提高作業(yè)性能、降低任務(wù)耗時(shí)、推進(jìn)了管理工作的規(guī)范化和精細(xì)化。信息推薦功能以推送通知的形式將待優(yōu)化、存風(fēng)險(xiǎn)和超時(shí)故障信息第一時(shí)間發(fā)送個(gè)人工作臺,以工作流機(jī)制推動開展;模型監(jiān)控、作業(yè)監(jiān)控功能在數(shù)據(jù)存儲、模型建設(shè)、作業(yè)耗時(shí)等場景合理的控制資源,節(jié)省了投資成本。
問題提報(bào)和故障管理功能的有效結(jié)合,將問題發(fā)現(xiàn)、提報(bào)、任務(wù)分配、處理完成及Review總結(jié)沉淀等形成了責(zé)任到人、問題可詢的閉環(huán)流程。隨著系統(tǒng)的深入運(yùn)行,將在實(shí)時(shí)數(shù)據(jù)監(jiān)控、質(zhì)量故障統(tǒng)計(jì)管理、數(shù)據(jù)質(zhì)量考核機(jī)制、數(shù)據(jù)資產(chǎn)質(zhì)量權(quán)威報(bào)告、知識庫體系標(biāo)準(zhǔn)化及流程深化管理等功能方面持續(xù)推進(jìn)和發(fā)揮價(jià)值。
總結(jié)
數(shù)據(jù)質(zhì)量是數(shù)據(jù)治理建設(shè)的重要一環(huán),與元數(shù)據(jù)管理、數(shù)據(jù)標(biāo)準(zhǔn)化及數(shù)據(jù)服務(wù)管理等共同構(gòu)建了數(shù)據(jù)治理的體系框架。
建設(shè)一個(gè)完整DataMan質(zhì)量監(jiān)管平臺,將從監(jiān)控、標(biāo)準(zhǔn)、流程制度等方面提升信息管理能力,優(yōu)先解決所面臨的數(shù)據(jù)質(zhì)量和數(shù)據(jù)服務(wù)問題,其效果體現(xiàn)以下幾個(gè)方面:
監(jiān)控?cái)?shù)據(jù)資產(chǎn)質(zhì)量狀態(tài),為優(yōu)化數(shù)據(jù)平臺和數(shù)據(jù)倉庫性能、合理配置數(shù)據(jù)存儲資源提供決策支持;
持續(xù)推動數(shù)據(jù)質(zhì)量監(jiān)控優(yōu)化預(yù)警、實(shí)時(shí)監(jiān)控的機(jī)制;
重點(diǎn)優(yōu)先監(jiān)控關(guān)鍵核心數(shù)據(jù)資產(chǎn),管控優(yōu)化20%核心資源,可提升80%需求應(yīng)用性能;
規(guī)范了問題故障的跟蹤、Review、優(yōu)化方案。從數(shù)據(jù)中提煉價(jià)值,從方案中形成標(biāo)準(zhǔn)化的知識體系;
由技術(shù)檢測到業(yè)務(wù)監(jiān)督,形成閉環(huán)工作流機(jī)制,提高整體數(shù)據(jù)質(zhì)量,全面提升服務(wù)業(yè)務(wù)水平。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)應(yīng)用建設(shè)和決策支持的關(guān)鍵因素,可通過完善組織架構(gòu)和管理流程,加強(qiáng)部門間銜接和協(xié)調(diào),嚴(yán)格按照標(biāo)準(zhǔn)或考核指標(biāo)執(zhí)行落地,確保數(shù)據(jù)質(zhì)量方能將數(shù)據(jù)的商業(yè)價(jià)值最大化,進(jìn)而提升企業(yè)的核心競爭力和保持企業(yè)的可持續(xù)發(fā)展。
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/10754802.html
總結(jié)
以上是生活随笔為你收集整理的大数据成败之“监”:美团数据质量监管平台这样搭建的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你所忽略的DNS---DNS实战及深度解
- 下一篇: ARP协议揭密