看我如何用Dataphin实现自动化建模
前言:更多關(guān)于數(shù)智化轉(zhuǎn)型、數(shù)據(jù)中臺(tái)內(nèi)容可掃碼加群一起探討
阿里云數(shù)據(jù)中臺(tái)官網(wǎng)?https://dp.alibaba.com/index
作者:數(shù)據(jù)小海豚
?
隨著大數(shù)據(jù)趨勢(shì)的迅速增長(zhǎng),數(shù)據(jù)的重要性與日俱增,企業(yè)內(nèi)看數(shù)據(jù)、用數(shù)據(jù)的訴求越來(lái)越強(qiáng)烈,其中最常見(jiàn)的就是各種經(jīng)營(yíng)報(bào)表數(shù)據(jù):
老板早晨9點(diǎn)準(zhǔn)時(shí)需要看到企業(yè)核心的經(jīng)營(yíng)數(shù)據(jù),以便進(jìn)行企業(yè)戰(zhàn)略及方向決策
業(yè)務(wù)負(fù)責(zé)人不定期進(jìn)行個(gè)性化的項(xiàng)目籌劃,需要多維、及時(shí)效果數(shù)據(jù)以優(yōu)化項(xiàng)目安排
運(yùn)營(yíng)需要和高層一致但粒度不同的經(jīng)營(yíng)分析數(shù)據(jù),并進(jìn)行活動(dòng)策略調(diào)整
……
舉個(gè)經(jīng)營(yíng)報(bào)表的例子:
這個(gè)例子并不復(fù)雜,但是對(duì)于分析師或者業(yè)務(wù)開(kāi)發(fā)者,實(shí)際執(zhí)行的復(fù)雜度和工作量并不小,而且類似的工作每日都在重復(fù)……業(yè)務(wù)發(fā)展越快,帶來(lái)的問(wèn)題就越來(lái)越多:
? 加工時(shí)間長(zhǎng)、人工成本高,招再多的分析師也難以滿足需求
? 代碼可讀性差,數(shù)據(jù)可維護(hù)性差,類似需求需要反復(fù)、重復(fù)開(kāi)發(fā)
? 代碼開(kāi)發(fā)不規(guī)范,加工過(guò)程中難以避免的計(jì)算存儲(chǔ)浪費(fèi)
? 得到的數(shù)據(jù)指標(biāo),復(fù)用性差導(dǎo)致重復(fù)建設(shè),數(shù)據(jù)越來(lái)越不標(biāo)準(zhǔn)規(guī)范
這種情況下,對(duì)業(yè)務(wù)的直接影響就是:決策周期長(zhǎng)(數(shù)據(jù)需求滿足慢),決策易出錯(cuò)(數(shù)據(jù)指標(biāo)口徑不一致)。
既要保證數(shù)據(jù)生產(chǎn)時(shí)效性——及時(shí)產(chǎn)出數(shù)據(jù)并滿足需求,又要支持?jǐn)?shù)據(jù)多樣性——企業(yè)自下而上不同業(yè)務(wù)分析場(chǎng)景,最后還要保證數(shù)據(jù)準(zhǔn)確性——任何時(shí)間、不同崗位的人都能用同樣的數(shù)據(jù)解讀經(jīng)營(yíng)情況,怎么才能做到呢?
企業(yè)的發(fā)展加速,離不開(kāi)20世紀(jì)的文檔管理轉(zhuǎn)到21世紀(jì)的信息管理。同樣的,如果繁復(fù)的指標(biāo)代碼編寫工作,也可以如計(jì)算器一般,界面可視化點(diǎn)選,復(fù)雜的代碼研發(fā)過(guò)程由計(jì)算器自行處理完成就好了。
而Dataphin的自動(dòng)化建模功能,就可以很好實(shí)現(xiàn)這個(gè)能力。
1、選擇組合條件
如下圖,確定需要統(tǒng)計(jì)計(jì)算的值,Dataphin里稱為“原子指標(biāo)”——最小的數(shù)據(jù)值統(tǒng)計(jì)單元,比如用戶數(shù)這樣的統(tǒng)計(jì)值等,然后組合如下內(nèi)容:
- A. 統(tǒng)計(jì)計(jì)算值需要應(yīng)用的分析對(duì)象,Dataphin里稱為“統(tǒng)計(jì)粒度”——維度或維度的組合,比如用戶星級(jí)、用戶狀態(tài)等
- B. 數(shù)據(jù)統(tǒng)計(jì)計(jì)算的時(shí)間周期,Dataphin里稱為“統(tǒng)計(jì)周期”——統(tǒng)計(jì)數(shù)據(jù)需要跨越的時(shí)間長(zhǎng)度,比如最近1天、最近30天、自然周、自然月的等
- C. 數(shù)據(jù)統(tǒng)計(jì)的其他個(gè)性化限定條件,Dataphin里稱為“業(yè)務(wù)限定”——數(shù)據(jù)記錄的篩選過(guò)濾條件,比如生鮮業(yè)務(wù)類型、PC端、女性等
2 預(yù)覽指標(biāo)
選擇完畢組合條件后,可以預(yù)覽組合出來(lái)的派生指標(biāo):
1)組合的指標(biāo),默認(rèn)名取“原子指標(biāo)+時(shí)間周期+業(yè)務(wù)限定”組合名,保證命名標(biāo)準(zhǔn)規(guī)范。
2)歷史已生成的組合,不再生成,保證指標(biāo)建設(shè)統(tǒng)一,無(wú)重復(fù)
3 一鍵自動(dòng)化生成
確認(rèn)需要提交的指標(biāo)后,一鍵【提交】,分鐘級(jí)指標(biāo)生成:
1)自動(dòng)匯聚至以“統(tǒng)計(jì)粒度為主題”的匯總邏輯表表下,保證管理標(biāo)準(zhǔn)規(guī)范;
2)代碼和調(diào)度依賴關(guān)系,系統(tǒng)自動(dòng)生成;
3)派生指標(biāo)基于匯總邏輯表,可快速雪花模型查詢使用指標(biāo)、分析對(duì)象的屬性信息。
①派生指標(biāo)自動(dòng)匯聚至匯總邏輯表
②派生指標(biāo)所在匯總表節(jié)點(diǎn),代碼及調(diào)度關(guān)系自動(dòng)生成
③匯總表及派生指標(biāo)可查詢消費(fèi)
4 復(fù)雜需求實(shí)現(xiàn)
上面主要是基于簡(jiǎn)單統(tǒng)計(jì)指標(biāo)實(shí)現(xiàn),實(shí)際上,報(bào)表需求還有類似 比率型、乘積型等復(fù)合統(tǒng)計(jì)方式,比如“客單價(jià)=銷售額/客戶數(shù)”,這類也可以通過(guò)Dataphin的衍生原子指標(biāo)實(shí)現(xiàn):
1)衍生原子指標(biāo)是基于原子指標(biāo)的再組合;
2)基于衍生原子指標(biāo)新建派生指標(biāo)時(shí),需要保證拆解到最細(xì)粒度的原子指標(biāo),有相同的分析維度、時(shí)間周期,允許維度的計(jì)算路徑不同、設(shè)置的業(yè)務(wù)限定不同。
①新建衍生原子指標(biāo)
②基于衍生原子指標(biāo)新建派生指標(biāo)
總結(jié)
上面步驟可以看到,派生指標(biāo)的計(jì)算生成,離不開(kāi)原子指標(biāo)、業(yè)務(wù)限定、統(tǒng)計(jì)粒度的協(xié)助,這其中有什么奧秘呢?
其實(shí)很簡(jiǎn)單,用Dataphin高效創(chuàng)建派生指標(biāo),掌握這1張圖就夠了:
1)原子指標(biāo)為核心,原子指標(biāo)的來(lái)源表為中心
2)統(tǒng)計(jì)粒度取自來(lái)源表的關(guān)聯(lián)維度,以及關(guān)聯(lián)維度上的關(guān)聯(lián)維度
3)業(yè)務(wù)限定基于來(lái)源表為中心的雪花模型做定義
4)統(tǒng)計(jì)周期可任意搭配使用
?
數(shù)據(jù)中臺(tái)是企業(yè)數(shù)智化的新基建,阿里巴巴認(rèn)為數(shù)據(jù)中臺(tái)是集方法論、工具、組織于一體的,“快”、“準(zhǔn)”、“全”、“統(tǒng)”、“通”的智能大數(shù)據(jù)體系。目前正通過(guò)阿里云數(shù)據(jù)中臺(tái)解決方案對(duì)外輸出,包括零售、金融、互聯(lián)網(wǎng)、政務(wù)等領(lǐng)域,其中核心產(chǎn)品有:
- Dataphin,一站式、智能化的數(shù)據(jù)構(gòu)建及管理平臺(tái);
- Quick BI,隨時(shí)隨地 智能決策;
- Quick Audience,全方位洞察、全域營(yíng)銷、智能增長(zhǎng);
- Quick A+, 跨多端全域應(yīng)用體驗(yàn)分析及洞察的一站式數(shù)據(jù)化運(yùn)營(yíng)平臺(tái);
官方站點(diǎn):
數(shù)據(jù)中臺(tái)官網(wǎng)?https://dp.alibaba.com
原文鏈接
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的看我如何用Dataphin实现自动化建模的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 阿里云李飞飞:今年将帮1000家企业“去
- 下一篇: 可用性SLA还不懂?看完这个故事就懂了