日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

持续定义Saas模式云数据仓库+实时搜索

發布時間:2024/8/23 编程问答 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 持续定义Saas模式云数据仓库+实时搜索 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介:?本文由阿里云計算平臺事業部 MaxCompute 產品經理孟碩為大家帶來《持續定義Saas模式云數據倉庫+實時搜索》的相關分享。以下是視頻內容精華整理,主要包括以下三個部分:1.Why:概述與價值;2.What:應用場景;3.How:最佳實踐。

一、Why:概述與價值
(一)MaxCompute
我們把MaxCompute定義為SaaS模式的企業級云數據倉庫。在之前,我們可能會認為MaxCompute是一個離線數據處理引擎,也就是一個傳統的數倉,但是MaxCompute所能做的事情要比傳統數倉多的多。因此,我們更傾向于把MaxCompute看成一個數據處理的平臺,在它上面我們可以做離線數據的處理,包括數據庫的應用,傳統數據倉庫的應用,以及近實時的數據采集和近實時的數據查詢,現在將其與MC-Holegres組件結合,我們還能做到實時數倉的應用場景。
MaxCompute是阿里云的一個托管服務,它依托于阿里云強大的基礎設施,為用戶提供優質、便捷的服務,其架構如下圖所示。

MaxCompute有著廣泛的應用場景,傳統數倉所能做的,MaxCompute都能做,主要包括:
1.廣告場景:用戶標簽計算、分析等;
2.業務運營場景:交互式業務指標計算、查詢等;
3.各行業搭建數據倉庫,比如流批一體、湖倉一體等;
4.云上彈性擴展大數據計算和存儲。
得益于可靠的架構和強大的技術實力,MaxCompute有著非常優秀的產品技術特性,主要包括:
(1)全托管的Serverless的在線服務
1.對外以API方式訪問的在線服務,開箱即用;
2.預鋪設的大規模集群資源,近乎無限資源,按需使用和付費;
3.無需平臺運維,最小化運維投入。
(2)彈性能力與擴展性
1.存儲和計算獨立擴展,支持TB到EB級別數據規模的擴展能力,可以讓企業將全部數據資產保存在一個平臺上進行聯動分析,消除數據孤島;
2.Serverless資源按需分配,實時根據業務峰谷變化帶來的需求變化分配資源,自動擴展;
3.單作業可根據需要秒級獲得成千上萬Core。
(3)數據湖探索分析
1.默認集成對數據湖(如OSS服務)的訪問分析,處理非結構化或開放格式數據;
2.支持外表映射、Spark直接訪問方式開展數據湖分析;
3.對用戶友好:在同一套數據倉庫服務和用戶接口下,實現數據湖分析和數據倉庫的關聯分析。
(4)集成AI能力
1.與阿里云機器學習平臺PAI無縫集成,提供強大的機器學習處理能力;
2.可使用用戶熟悉的Spark-ML開展智能分析;
3.提供SQLML可以直接使用標準SQL訓練機器學習模型,并對數據進行預測分析;
4.Mars:使用Python機器學習第三方庫。
(5)支持流式采集和近實時分析
1.支持流式數據的實時寫入(Tunnel),并在數據倉庫中開展分析;
2.與云上主要流式服務深度集成,輕松接入各種來源流式3.高性能秒級彈性并發查詢,滿足近實時分析場景。
(6)深度集成Spark引擎
1.內建Apache Spark引擎,提供完整的Spark功能;
2.與MaxCompute計算資源、數據和權限體系深度集成。
(7)統一而豐富的運算能力
1.離線計算(MR,DAG,SQL,ML,Graph);
2.實時計算(流式,內存計算,選代計算);
3.涵蓋通用關系型大數據,機器學習,非結構化數據處理,圖計算。
(8)提供統一的企業數據視圖
1.提供租戶級別的統一元數據,讓企業能夠輕松獲得完整的企業數據目錄;
2.對于更廣泛的數據源,通過外表建立數據倉庫與外部數據源的連接,Connect not Collect。
(9)企業級服務
1.SLA保證:99.9%服務可用性保障;
2.自助運維與自動化運維;
3.完善的故障容錯(軟件,硬件,網絡,人為)機制。

一般來講我們的大數據項目是需要很多個組件才能完成的,包括離線組件和實時組件。下圖一個常用的場景,它是集實時、離線、分析、服務于一體的一套方案,適用于數據化運營,如智能推薦、日志采集分析、用戶畫像、數據治理、業務大屏、搜索等場景。這套方案是阿里巴巴最佳實踐的大數據平臺,具有技術領先性,降本提效,高附加值業務收益等優勢。當然,整個方案涉及到的產品也非常多,包括日志服務SLS、數據傳輸DTS、DataHub、實時計算Flink等等,具體如下圖所示。

下圖是MaxCompute和Hologres兩個組件融合之后的實時分析簡單架構,即云原生HASP系統,通過該架構我們可以實現實時寫入和實時查詢。與其他的OLAP應用不同的是這種架構下Hologres和MaxCompute是一體的,可以共享存儲,也就是說Hologres可以直接讀取MaxCompute的數據,大大降低了存儲成本。通過這兩個組件,我們還可以解決離線加速、聯邦分析、交互式分析等問題。

(二)Elasticsearch
Elasticsearch是一個開源的分布式、RESTful 風格的搜索和數據分析引擎,它的底層是開源庫Apache Lucene。Elasticsearch解決了Lucene使用時的繁復性,功能強大,使用簡單,能夠提供實時搜索服務。Elasticsearch應用場景廣泛,比如打車的場景中(例如滴滴打車),使用查詢附近的車輛等功能時候,后臺就是Elasticsearch在為搜索做支撐,又比如在Github中,Elasticsearch可以幫助我們利用關鍵字等在站內進行檢索。當然,不只是網站應用,包括手機APP,只要用到站內搜索服務,都能夠用到Elasticsearch或者其他的搜索服務應用。
我們為什么需要搜索引擎呢?實時搜索為什么現在這么火呢?之前我們在做數據分析的時候,可以通過寫程序的方式,但是寫程序對于一些數據分析師來說是一個高門檻的任務,需要一定的學習成本,包括使用SQL也有一定的學習成本。但是有了搜索引擎之后,我們只需要按照一定的條件進行篩選就可以得到我們想要的信息,大大降低了學習成本。
當前,主流的搜索引擎有兩個:Solr和Elasticsearch,兩者都基于Lucene發展而來。Lucene是當今最先進,最高效的全功能開源搜索引擎框架,但是Lucene只是一個框架,且比較復雜,要充分利用它的功能,需要在其基礎上進行擴展開發,因此有了Solr和Elasticsearch。

下圖是Google Trend中兩個搜索應用的趨勢分析,可以看出在實時搜索領域,近幾年Elasticsearch的熱度已經超過了Solr,因為在實時搜索領域Elasticsearch的效果要好于Solr,但是不得不提的是Solr在現有數據的基礎上進行查詢搜索的速度會更快一些。

目前,Elastic 已經宣布與阿里云建立長期合作和戰略伙伴關系。未來阿里云Elasticsearch將會兼容開源 Elasticsearch 的功能,以及Security、Machine Learning、Graph、APM 等商業功能,致力于數據分析、數據搜索等場景服務,與Elastic合作,共同為客戶提供企業級權限管控、安全監控告警、自動報表生成等場景服務。

(三)為什么需要MaxCompute+實時搜索

二、What:應用場景
當前,實時搜索的主要應用場景有三個:
1.日志和指標分析(Log/Indicator Analysis);
2.安全(Security);
3.站內檢索(WebHosting)。
其場景的應用邏輯如下面三張圖所示。

三、How:最佳實踐
最佳實踐主要包括數據集成和數據監控兩部分,其中數據集成指的是MaxCompute和Elasticsearch兩個組件之間怎么做數據交互。
(一)數據集成
下圖是一個在線教育的案例,該案例大的背景是要監控企業內部包括用戶的C端產生的日志,還有內部的服務端產生的日志,它由MaxCompute做數據的預分析,然后交由Elasticsearch做數據監控,其痛點主要有如下三點:。
1.監控數據實時性要求高;
2.流量波動大,自建集群投入成本高;
3.數據權限粒度要求高。

對于以上痛點,一般通用的解決方案如上圖所示,包括數據采集和集中、數據ETL、數據分析和展現三部分,最后會得到如下圖所示的DashBoard。

MaxCompute和Elasticsearch之間的數據交互是非常重要的一部分,將MaxCompute的數據導入Elasticsearch主要分為如下五步:
1.準備工作
創建DataWorks工作空間并開通MaxCompute服務,準備MaxCompute數據源、創建阿里云Elasticsearch實例。
2.步驟一:購買并創建獨享資源組
購買并創建一個數據集成獨享資源組,并為該資源組綁定專有網絡和工作空間,獨享資源組可以保障數據快速、穩定地傳輸。
3.步驟二:添加數據源
將MaxCompute和Elasticsearch數據源接入DataWorks的數據集成服務中。
4.步驟三:配置并運行數據同步任務
配置一個數據同步的腳本,將數據集成系統同步成功的數據存儲到Elasticsearch中,然后將獨享資源組作為一個可以執行任務的資源,注冊到DataWorks的數據集成服務中,這個資源組將獲取數據源的數據,并執行將數據寫入Elasticsearch中的任務(該任務將有數據集成系統統一下發)。
5.步驟四:驗證數據同步結果
在Kibana控制臺中,查看同步成功的數據,并按條件查詢數據。
(二)數據監控
經過上面的步驟,數據已經導入了Elasticsearch,我們做數據監控主要有如下兩步:
1.使用Kibana的discover,view,dashboard和其他對象來查看這些數據。

2.通過導入預先準備好的Kibana對象,可以統一顯示直播數據。

?

原文鏈接
本文為阿里云原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的持续定义Saas模式云数据仓库+实时搜索的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。