如何基于大数据及AI平台实现业务系统实时化?
簡(jiǎn)介:?后疫情時(shí)代的新社會(huì)模式及經(jīng)濟(jì)形態(tài)必將催生出新的商業(yè)模式,在線(xiàn)業(yè)務(wù)及相關(guān)應(yīng)用場(chǎng)景的流量呈現(xiàn)井噴式發(fā)展,常規(guī)的離線(xiàn)系統(tǒng)及離線(xiàn)機(jī)器學(xué)習(xí)平臺(tái)已無(wú)法滿(mǎn)足業(yè)務(wù)發(fā)展要求。
作者:高旸(吾與),阿里巴巴高級(jí)技術(shù)專(zhuān)家
1. 前言
隨著互聯(lián)網(wǎng)“人口紅利”的“消耗殆盡”,基于“T+1”或者離線(xiàn)計(jì)算的機(jī)器學(xué)習(xí)平臺(tái)及推薦系統(tǒng)轉(zhuǎn)化率與效果日趨“平淡”。后疫情時(shí)代的新社會(huì)模式及經(jīng)濟(jì)形態(tài)必將催生出新的商業(yè)模式,在線(xiàn)業(yè)務(wù)及相關(guān)應(yīng)用場(chǎng)景的流量呈現(xiàn)井噴式發(fā)展,常規(guī)的離線(xiàn)系統(tǒng)及離線(xiàn)機(jī)器學(xué)習(xí)平臺(tái)已無(wú)法滿(mǎn)足業(yè)務(wù)發(fā)展要求。人口紅利吃盡之后,基于大數(shù)據(jù)及AI平臺(tái)的業(yè)務(wù)系統(tǒng)在時(shí)間維度上的思考將變得至關(guān)重要,通過(guò)業(yè)務(wù)系統(tǒng)實(shí)時(shí)化向時(shí)間要價(jià)值已經(jīng)成為主流趨勢(shì)。基于流式計(jì)算引擎的在線(xiàn)機(jī)器學(xué)習(xí)平臺(tái)將越來(lái)越被重視, 通過(guò)增量模型的準(zhǔn)實(shí)時(shí)或?qū)崟r(shí)推薦系統(tǒng)更能“因時(shí)而異” 充分捕捉目標(biāo)用戶(hù)瞬息萬(wàn)變的需求,從而進(jìn)行精準(zhǔn)推薦和變現(xiàn)。實(shí)時(shí)推薦系統(tǒng)也從最早的電商場(chǎng)景, 擴(kuò)展到社交場(chǎng)景, 在線(xiàn)教育場(chǎng)景, 游戲場(chǎng)景及更廣闊的在線(xiàn)場(chǎng)景。
本文介紹重點(diǎn)介紹基于阿里云大數(shù)據(jù)及AI產(chǎn)品家族的實(shí)時(shí)計(jì)算Flink及PAI Alink機(jī)器學(xué)習(xí)算法平臺(tái),以及該產(chǎn)品組合在實(shí)時(shí)推薦場(chǎng)景(適用于電商、游戲及在線(xiàn)教育解決方案)、實(shí)時(shí)評(píng)分卡場(chǎng)景(適用于金融、安全及營(yíng)銷(xiāo)風(fēng)控解決方案)以及異常檢測(cè)場(chǎng)景(適用于工業(yè)領(lǐng)域及其他產(chǎn)業(yè)互聯(lián)網(wǎng)領(lǐng)域)的場(chǎng)景應(yīng)用。
2. 實(shí)時(shí)計(jì)算引擎及機(jī)器學(xué)習(xí)算法平臺(tái)介紹
2.1 阿里云實(shí)時(shí)計(jì)算Flink
阿里云實(shí)時(shí)計(jì)算Flink作為Apache Flink創(chuàng)始團(tuán)隊(duì)的商業(yè)化產(chǎn)品,從極致(較傳統(tǒng)微批模式)的實(shí)時(shí)數(shù)據(jù)處理維度,為企業(yè)大數(shù)據(jù)處理及業(yè)務(wù)實(shí)時(shí)化提供了可能。商業(yè)化的統(tǒng)一開(kāi)發(fā)及管控平臺(tái),成熟、準(zhǔn)標(biāo)準(zhǔn)化的SQL及元數(shù)據(jù)管理能力,讓業(yè)務(wù)人員及數(shù)據(jù)分析師大幅度提升開(kāi)發(fā)效率, SQL配合UDF基本可以解決80%+的業(yè)務(wù)場(chǎng)景。企業(yè)級(jí)的State Backend – Gemini大幅度提升IO效率,整體執(zhí)行引擎較開(kāi)源3倍以上的性能提升。
基于阿里云Kubernetes的全新Serverless全托管云上實(shí)時(shí)計(jì)算Flink服務(wù),使用全新的硬多租技術(shù)方案,基于VPC提供網(wǎng)絡(luò)層隔離,阿里云安全容器提供計(jì)算層隔離,基于彈性云盤(pán)提供存儲(chǔ)級(jí)隔離,通過(guò)用戶(hù)級(jí)Master及超級(jí)Master實(shí)現(xiàn)極致資源彈性下的多租戶(hù)隔離。基于負(fù)載的細(xì)粒度彈性伸縮, 充分提高資源使用率, 降低整體TCO。新一代的Serverless實(shí)時(shí)計(jì)算Flink產(chǎn)品為在線(xiàn)機(jī)器學(xué)習(xí)算法平臺(tái)提供了堅(jiān)實(shí)(“時(shí)“)的基礎(chǔ)。
2.2 阿里云PAI Alink機(jī)器學(xué)習(xí)算法平臺(tái)
與SparkML算法相比,Alink算法更全面,性能更優(yōu)異,場(chǎng)景更豐富(同時(shí)支持流批),本地化更出色(支持中文分詞)是快速搭建在線(xiàn)機(jī)器學(xué)習(xí)系統(tǒng)的不二之選。
3. 基于實(shí)時(shí)計(jì)算Flink-機(jī)器學(xué)習(xí)場(chǎng)景介紹:
3.1實(shí)時(shí)推薦場(chǎng)景:
從根據(jù)用戶(hù)點(diǎn)擊和瀏覽的內(nèi)容實(shí)時(shí)推送的電商場(chǎng)景,到社交媒體根據(jù)用戶(hù)閱讀的內(nèi)容實(shí)時(shí)“喂送“的實(shí)時(shí)推薦系統(tǒng),再到游戲推送平臺(tái)根據(jù)用戶(hù)行為實(shí)時(shí)推送的游戲系統(tǒng),實(shí)時(shí)推薦系統(tǒng)儼然已經(jīng)成為了在線(xiàn)業(yè)務(wù)系統(tǒng)的核心。
阿里云PAI Alink算法平臺(tái)提供: 召回(例如:ALS、FM、Deep Walk等),特征編碼(OneHot、MultiHot及GBDT等) ,排序(LR及FFM等)以及Online算法(OnlineFM及Ftrl)流式和批式的算法能力全流程構(gòu)建能力。配合阿里云實(shí)時(shí)計(jì)算Flink海量樣本實(shí)時(shí)拼接能力,能夠快速端到端實(shí)現(xiàn)離在線(xiàn)一體化的推薦系統(tǒng)。
通過(guò)特征工程批式訓(xùn)練初始化模型,通過(guò)實(shí)時(shí)樣本拼接配合流式算法(OnlineFM及Ftrl) 生成增量的模型,最終提供統(tǒng)一模型的整體結(jié)果預(yù)測(cè),更實(shí)時(shí)更動(dòng)態(tài)的提升推薦效果。
3.2 評(píng)分卡場(chǎng)景介紹:
阿里云實(shí)時(shí)計(jì)算Flink及PAI Alink產(chǎn)品組合可以幫助客戶(hù)快速搭建實(shí)時(shí)金融風(fēng)控解決方案。評(píng)分卡在金融場(chǎng)景有廣泛的應(yīng)用,能否構(gòu)建準(zhǔn)確的評(píng)分卡模型關(guān)系到能否安全的開(kāi)展支付、貸款、保險(xiǎn)、理財(cái)、信用等業(yè)務(wù),評(píng)分卡常被用于信用評(píng)估領(lǐng)域,比如信用卡風(fēng)險(xiǎn)評(píng)估,貸款發(fā)放;評(píng)分卡也會(huì)用來(lái)作為分?jǐn)?shù)評(píng)估,比如客戶(hù)質(zhì)量打分,信用分。涉及金融的場(chǎng)景都需要:可追溯、可審計(jì)及可解釋,如下的評(píng)分卡模型就具備很好的可解釋性。例如:用戶(hù)年齡27歲,性別男,婚姻狀況已婚,學(xué)歷本科,月收入10000。根據(jù)如下評(píng)分卡,該用戶(hù)的評(píng)分為:評(píng)分 = 223(基準(zhǔn)分) + 8(年齡) + 4(性別評(píng)分)+ 8(婚姻狀況)+ 8(學(xué)歷評(píng)分)+ 13(月收入評(píng)分)= 264分。
阿里云實(shí)時(shí)計(jì)算Flink及PAI Alink產(chǎn)品組合提供最先進(jìn)的評(píng)分卡解決方案, 分箱將每個(gè)特征按照需求進(jìn)行分箱訓(xùn)練;評(píng)分卡訓(xùn)練生成評(píng)分模型;樣本穩(wěn)定性通過(guò)PSI等指標(biāo)衡量樣本穩(wěn)定性;模型評(píng)估,評(píng)估二分類(lèi)模型效果。該解決方案支持多特征維度模型訓(xùn)練,支持大規(guī)模樣本建模。
3.3 異常檢測(cè)場(chǎng)景
異常檢測(cè)及時(shí)序分析是一個(gè)較為常見(jiàn)并且應(yīng)用廣泛的場(chǎng)景,在工業(yè)界的應(yīng)用尤甚。利用阿里云實(shí)時(shí)計(jì)算Flink及PAI Alink產(chǎn)品組合可以幫助客戶(hù)快速搭建異常檢測(cè)解決方案。實(shí)時(shí)計(jì)算Flink強(qiáng)大的性能與Alink豐富的算法庫(kù)機(jī)相結(jié)合,可以幫助數(shù)據(jù)分析和應(yīng)用開(kāi)發(fā)人員實(shí)現(xiàn)數(shù)據(jù)處理、特征工程、模型訓(xùn)練、預(yù)測(cè)等多個(gè)環(huán)節(jié)端到端的處理。在異常檢測(cè)場(chǎng)景下,Alink支持時(shí)間序列異常檢測(cè)、異常集檢測(cè)兩個(gè)核心場(chǎng)景。
在時(shí)間序列異常檢測(cè)中,Alink具備種類(lèi)齊全、批流一體、性能優(yōu)異、并行計(jì)算、使用方便等優(yōu)勢(shì)。針對(duì)不同的使用場(chǎng)景,分為基于時(shí)序預(yù)測(cè)和時(shí)序分解兩種類(lèi)型:
- 時(shí)序預(yù)測(cè)算法適合流式數(shù)據(jù),即時(shí)響應(yīng)
- 時(shí)序分解算法適合全量數(shù)據(jù),能夠從全量數(shù)據(jù)中挖掘有效信息。
Alink也提供了時(shí)序預(yù)測(cè)和時(shí)序分解算法,用戶(hù)可以單獨(dú)使用。
異常集檢測(cè)是風(fēng)控場(chǎng)景的核心訴求之一。Alink 異常集檢測(cè)中具備如下優(yōu)勢(shì):
- 巨型圖支持 - 支持上億邊的圖數(shù)據(jù)
- 在線(xiàn)更新 - 隨時(shí)加上異常種子均可局部異常檢測(cè)
- 快速運(yùn)算 - 只對(duì)局部圖進(jìn)行運(yùn)算,節(jié)約計(jì)算資源
在盜用、欺詐、作弊、商戶(hù)、借貸套現(xiàn)等各風(fēng)險(xiǎn)域都有異常集檢測(cè)的需求存在。基于GraphRAD,Alink實(shí)現(xiàn)了半監(jiān)督的異常集檢測(cè),RiskCommunityDetector。算法輸入連接關(guān)系以及已知的黑點(diǎn),即可對(duì)全圖進(jìn)行分析,捕獲其它黑用戶(hù),降低業(yè)務(wù)運(yùn)行過(guò)程中的風(fēng)險(xiǎn),為業(yè)務(wù)安全保駕護(hù)航,避免可能發(fā)生的重大損失。
4. 后記
通過(guò)上文的介紹,想必大家已經(jīng)對(duì)阿里云實(shí)時(shí)計(jì)算Flink及PAI產(chǎn)品組合躍躍欲試了,可以快速開(kāi)通全托管實(shí)時(shí)計(jì)算Flink 體驗(yàn)最新的Serverless產(chǎn)品服務(wù)。實(shí)時(shí)計(jì)算Flink觸達(dá)直通車(chē):https://www.aliyun.com/product/bigdata/sc
通過(guò)開(kāi)通阿里云E-MapReduce Dataflow集群,快速搭建基于阿里云實(shí)時(shí)計(jì)算Flink的PAI Alink算法平臺(tái)。PAI Alink觸達(dá)直通車(chē):https://www.aliyun.com/product/emapreduce
?
原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
總結(jié)
以上是生活随笔為你收集整理的如何基于大数据及AI平台实现业务系统实时化?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 揭秘!信息检索技术高端玩法
- 下一篇: iOS Abort问题系统性解决方案