日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

持续定义Saas模式云数据仓库+实时分析

發(fā)布時間:2024/8/23 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 持续定义Saas模式云数据仓库+实时分析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

簡介:?從實時分析的價值、場景和數(shù)據(jù)流程,以及用戶對平臺能力要求展開,講述云數(shù)據(jù)倉庫MaxCompute的產(chǎn)品能力優(yōu)勢 ,面對實時分析場景的能力演進要求。進而以實時分析典型場景的全數(shù)據(jù)流程處理、建模和分析的最佳實踐,講解MaxCopute+Hologres的解決方案,展現(xiàn)強強組合應的能力優(yōu)勢。

一、云數(shù)據(jù)倉庫概述

數(shù)據(jù)倉庫的定義是面向主題、集成性、穩(wěn)定性和時變性,用于支持管理決策。 數(shù)據(jù)倉庫的意義在于對企業(yè)的所有數(shù)據(jù)進行歸集,為企業(yè)各個部門提供統(tǒng)一的, 規(guī)范的數(shù)據(jù)出口。
數(shù)據(jù)倉庫(模型)本質(zhì)是人收集和存儲數(shù)據(jù),認識數(shù)據(jù),組織和管理數(shù)據(jù),使用數(shù)據(jù)決策的最佳實踐形成的方法論。 模型本身與在哪、用什么技術(shù)無關(guān)。 但邏輯模型和物理模型在最終方案中又是緊密結(jié)合的。用戶需要的是數(shù)倉的業(yè)務能力和技術(shù)能力。

數(shù)據(jù)倉庫的核心能力和價值包括:采集同步、加工、存儲、建模、治理、查詢。但是為了實現(xiàn)數(shù)據(jù)倉庫的能力和價值必須要具備的基礎(chǔ)包括: IDC機房、部署、開通、高可用、安全、日常運 維、擴容。這些構(gòu)成了數(shù)倉總擁有成本。從各個角度看,總成本=核心能力成本+基礎(chǔ)成本 =產(chǎn)品成本+服務成本 =當前成本+長期成本+演進成本。
MaxCompute是SaaS模式企業(yè)級云數(shù)據(jù)倉庫。SaaS模式云數(shù)據(jù)倉庫具有如下特點:? 開箱即用 ? 大規(guī)模高性能 ? 免運維、專家優(yōu)化 ? 靈活擴展 ? 數(shù)據(jù)服務 ? 豐富完善的數(shù)倉能力 ? 高可用,容災備份 ? 極致安全 ? 低成本 ? 能力快速演進。能夠為企業(yè)免去擁有數(shù)據(jù)倉庫的基礎(chǔ)建設(shè)成本、維護成本、長期演進成本等非核心能力之外的投入。

SaaS模式云數(shù)據(jù)倉庫可能的應用場景舉例如下:
? 實時數(shù)據(jù)入倉和分析決策
? 業(yè)務運營場景-交互式業(yè)務指標計算、查詢
? 各行業(yè)搭建數(shù)據(jù)倉庫-流批一體、湖倉一體 ? 云上彈性擴展大數(shù)據(jù)計算和存儲。

SaaS模式云數(shù)據(jù)倉庫的產(chǎn)品優(yōu)勢包括:
? 云原生極致彈性:云原生設(shè)計,無服務器架構(gòu),支持秒級彈性伸縮, 快速實現(xiàn)大規(guī)模彈性負載需求
? 簡單易用多功能計算:預置多種計算模型和數(shù)據(jù)通道能力,開通即用
? 企業(yè)級平臺服務:支持開放生態(tài),提供企業(yè)級安全管理能力。與阿里 云眾多大數(shù)據(jù)服務無縫集成
? 安全:多租戶環(huán)境下安全控制能力強
? 大規(guī)模集群性能強、全鏈路穩(wěn)定性高,阿里巴巴雙11場景驗證。

SaaS模式云數(shù)據(jù)倉庫推薦場景和產(chǎn)品組合例如:
? 實時分析場景-MaxCompute+MC-Hologres+Flink+DataWorks+Quick BI
? 機器學習場景-MaxCompute+PAI+DataWorks。等。
今天重點講解實時分析場景。

云數(shù)據(jù)倉庫包含的面向用戶的功能和數(shù)據(jù)流程,如下圖所示。開通MaxCompute云數(shù)倉即可擁有如下全部功能和能力。

二、實時分析場景與價值
再提一遍大數(shù)據(jù)的5V能力

1 容量(Volume) 是指大規(guī)模的數(shù)據(jù)量,并且數(shù)據(jù)量呈持續(xù)增長趨勢。目前一般指超過10T規(guī)模的數(shù)據(jù)量,但未來隨著技術(shù)的進步,符合大數(shù)據(jù)標準的數(shù)據(jù)集大小也會變化。
2 速率(Velocity) 即數(shù)據(jù)生成、流動速率快。數(shù)據(jù)流動速率指指對數(shù)據(jù)采集、存儲以及分析具有價值信息的速度。因此也意味著數(shù)據(jù)的采集和分析等過程必須迅速及時。
3 多樣性(Variety) 指是大數(shù)據(jù)包括多種不同格式和不同類型的數(shù)據(jù)。數(shù)據(jù)來源包括人與系統(tǒng)交互時與機器自動生成,來源的多樣性導致數(shù)據(jù)類型的多樣性。根據(jù)數(shù)據(jù)是否具有一定的模式、 結(jié)構(gòu)和關(guān)系,數(shù)據(jù)可分為三種基本類型:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)。
4 真實性(Veracity) 指數(shù)據(jù)的質(zhì)量和保真性。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)最好具有較高的信噪比。
5 價值(Value) 即低價值密度。隨著數(shù)據(jù)量的增長,數(shù)據(jù)中有意義的信息卻沒有成相應比例增長。而價值同時與數(shù)據(jù)的真實性和數(shù)據(jù)處理時間相關(guān),見圖。
其中最關(guān)鍵的一點是:越接近數(shù)據(jù)源,越早進行分析和決策,越能發(fā)揮數(shù)據(jù)價值。

實時分析的場景可以用以下兩個類比演化出來:
類比1:大酒店同時具備其他綜合業(yè)務,發(fā)展出餐 飲(實時)業(yè)務,用以更好的發(fā)揮協(xié)同作用。
演化1:以數(shù)倉分析為主場景,根據(jù)業(yè)務實時性需 求進行實時分析,構(gòu)建實時通道和實時交互式分析, 形成Lambda架構(gòu)。

類比2:飯店從餐飲(實時)業(yè)務發(fā)展而來, 需要更好的外圍支持作用,并向綜合性發(fā)展。
演化2:以實時分析為主場景,形成流式架 構(gòu),又需要能從數(shù)倉快速提取數(shù)據(jù),和數(shù)據(jù) 源回放,形成kappa架構(gòu),后續(xù)還要考慮實 時數(shù)據(jù)和模型如何入倉。

詳細分析這兩種演化場景如下:
以數(shù)倉分析為主場景,根據(jù)業(yè)務實時性需求進 行實時分析,構(gòu)建實時通道和實時交互式分析, 形成Lambda架構(gòu) 例如IOT設(shè)備監(jiān)控分析,下發(fā)策略,設(shè)備接收 后上報新數(shù)據(jù)立即進行分析,對比之前的結(jié)果, 反復分析調(diào)優(yōu)。
以實時分析為主場景,形成流式架構(gòu),又需要能從 數(shù)倉快速提取數(shù)據(jù),和數(shù)據(jù)源回放,形成kappa 架構(gòu),后續(xù)還要考慮實時數(shù)據(jù)和模型如何入倉 例如欺詐監(jiān)控,必須第一時間獲取分析結(jié)論,并關(guān) 聯(lián)標簽精準識別,最后實時數(shù)據(jù)落入數(shù)倉與其他數(shù) 據(jù)融合形成知識。

進一步的,實時分析的主要能力要求如下:
1 應用生態(tài):
? 開發(fā)者生態(tài) ? 豐富的API、SDK ? BI工具無縫對接 ? 流式處理工具和分布 式消息隊列無縫對接。
2 極速查詢響應:
? 毫秒級響應速度,輕 松滿足客戶海量數(shù)據(jù) 復雜多維分析需求 ? 千萬QPS點查 ? 上千QPS簡單查詢。
3 實時存儲:
? 億級寫入TPS ? 寫入即可查詢。
4數(shù)倉查詢加速:
? 直接分析 ? 無數(shù)據(jù)搬遷 ? 無冗余存儲 ? 統(tǒng)一權(quán)限。
5 聯(lián)合計算:
? 統(tǒng)一建模方法 ? 統(tǒng)一元數(shù)據(jù) ? 統(tǒng)一的管控治理體系 ? 分層劃域架構(gòu)下的演 進和整合。

三、MaxCompute云數(shù)倉+實時分析

常見的Lambda架構(gòu)有三大問題。
首先,一致性難題: ? 兩套代碼,兩套邏輯 ? 流和批語義完全不同 ? 離線層和實時層數(shù)據(jù)存儲和變換方式完全不同。
第二,環(huán)環(huán)相扣、多套系統(tǒng)、運維復雜、成本高昂: ? 多個不同的系統(tǒng) ? 大量的同步任務 ? 資源消耗巨大 ? 不同系統(tǒng)標準規(guī)范不統(tǒng)一。
第三,開發(fā)周期長、業(yè)務不敏捷: ? 錯誤難以診斷和定位 ? 修訂、補數(shù)周期長 ? 無法自助實時分析 ? 無法響應變化 ? 分析到服務的轉(zhuǎn)化周期長。

以搜索推薦精細化運營的場景案例進行分析,開源方案的能力分散。如下圖所示,KVStore,MPP,實時數(shù)倉,數(shù)倉具有多種能力,最好能有一種技術(shù)方案將多種能力統(tǒng)一于一個引擎。將存儲、實時數(shù)倉、交互式分析、點查、OLAP分析等能力集于一身。MaxCompute Hologres即是這個產(chǎn)品和解決方案。

MaxCompute Hologres將實時分析的架構(gòu)變得簡單和高效。以實時分析為中心設(shè)計, Hologres能夠?qū)崿F(xiàn)實時寫入和實時分析、查詢。MaxCompute Hologres提出云原生HSAP架構(gòu)中,一份數(shù)據(jù)同時用于實時分析、在線服務和實時離線數(shù)據(jù)統(tǒng)一存儲,與SaaS模式云數(shù)據(jù)倉庫MaxCompute完美結(jié)合。

另一種場景,MaxCompute Hologres可以作為云數(shù)據(jù)倉庫MaxCompute分析加速能力模塊和ADS層建模能力模塊。無數(shù)據(jù)搬遷、數(shù)據(jù)分析效率高。ADS層建模+服務統(tǒng)一、OLAP增強,如下圖所示。

再看kappa架構(gòu),Kappa架構(gòu)是基于流式架構(gòu)的升級,需要回放和關(guān)聯(lián)數(shù)倉,后續(xù)還要考慮實時數(shù)據(jù)和模型如何入倉。開源方案實時數(shù)倉有以下問題:實時成本高、開發(fā)周期長、業(yè)務支持不靈活。
Kappa架構(gòu)的原理就是在Lambda 的基礎(chǔ)上進行了優(yōu)化,將實時分析和流部分進行了合并,將數(shù)據(jù) 存儲和通道以消息隊列進行替代。因此對于Kappa架構(gòu)來說,依舊以流處理為主,但是數(shù)據(jù)卻在數(shù)據(jù)湖 層面進行了存儲和簡單建模,當需要進行離線分析或者再次計算的時候,則將數(shù)據(jù)湖的數(shù)據(jù)再次經(jīng)過消息隊 列重播一次。Kappa架構(gòu)看起來簡潔,但是施難度相對較高,尤其是對于數(shù)據(jù)回放部分。

如下圖所示,MaxCompute Hologres可以將實時、離線、分析、服務一體化,做到了實時離線聯(lián)合分析,冷熱溫三類數(shù)據(jù)全洞察。

四、實時分析案例

針對實時分析的常用場景,Saas模式云數(shù)據(jù)倉庫MaxCompute在擁有了Hologres后提出了:實時、離線、分析、服務一體化方案。即前文描述的Lambda架構(gòu)簡化、交互查詢增強、kappa架構(gòu)增強,實時離線聯(lián)合分析,冷熱溫三類數(shù)據(jù)全洞察的方案能力。
此方案適用于電商、游戲、社交等互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)化運營,如智能推薦、日志采集分析、用戶畫像、數(shù)據(jù)治理、業(yè)務大屏、搜索等場景。
方案優(yōu)勢:阿里巴巴最佳實踐的大數(shù)據(jù)平臺,1)技術(shù)領(lǐng)先性;2)降本提效;3)高附加值業(yè)務收益;
涉及產(chǎn)品: 日志服務SLS、數(shù)據(jù)傳輸DTS、DataHub、實時計算Flink、交互式分析、云數(shù)倉MaxCompute、數(shù)據(jù)治理DataWorks、Quick BI 報表、 DataV大 屏、ES搜索、機器學習PAI。

小影是一款原創(chuàng)視頻、全能剪輯的短視頻社區(qū)APP,面向大眾提供短視頻創(chuàng)作工具,包括視頻剪輯、教 程玩法、視頻拍攝,谷歌應用商城收入榜前五,全球累計用戶突破8.9億。

用戶標簽數(shù)據(jù)開發(fā):客戶通過 MaxCompute 針對每 天APP產(chǎn)生的客戶基礎(chǔ)屬性數(shù)據(jù)、 行為日志數(shù)據(jù)、內(nèi)容數(shù)據(jù)等進行 計算,每天離線更新用戶標簽的 數(shù)據(jù),支持營銷業(yè)務的使用。

用戶畫像實時洞察:客戶基于MC離線計算好的用戶標 簽,通過MC-Hologres進行多標 簽、多維度的實時分析,了解用戶 屬性標簽與內(nèi)容標簽之間的關(guān)聯(lián)性, 洞察交叉銷售機會,并通過人群圈 選,進行APP消息PUSH。

實時視頻推薦:客戶通過Flink + MaxCompute +MC- Hologres +PAI搭建個性化 實時推薦系統(tǒng),基于用戶特征和實 時行為特征,實時推薦個性化的短 視頻內(nèi)容。

?

原文鏈接
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。

總結(jié)

以上是生活随笔為你收集整理的持续定义Saas模式云数据仓库+实时分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。