當前位置：首頁 >

持续定义Saas模式云数据仓库+实时搜索

發布時間：2024/8/23 72 豆豆

生活随笔收集整理的這篇文章主要介紹了持续定义Saas模式云数据仓库+实时搜索小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介：?本文由阿里云計算平臺事業部 MaxCompute 產品經理孟碩為大家帶來《持續定義Saas模式云數據倉庫+實時搜索》的相關分享。以下是視頻內容精華整理，主要包括以下三個部分：1.Why：概述與價值；2.What：應用場景；3.How：最佳實踐。

一、Why：概述與價值
（一）MaxCompute
我們把MaxCompute定義為SaaS模式的企業級云數據倉庫。在之前，我們可能會認為MaxCompute是一個離線數據處理引擎，也就是一個傳統的數倉，但是MaxCompute所能做的事情要比傳統數倉多的多。因此，我們更傾向于把MaxCompute看成一個數據處理的平臺，在它上面我們可以做離線數據的處理，包括數據庫的應用，傳統數據倉庫的應用，以及近實時的數據采集和近實時的數據查詢，現在將其與MC-Holegres組件結合，我們還能做到實時數倉的應用場景。
MaxCompute是阿里云的一個托管服務，它依托于阿里云強大的基礎設施，為用戶提供優質、便捷的服務，其架構如下圖所示。

MaxCompute有著廣泛的應用場景，傳統數倉所能做的，MaxCompute都能做，主要包括：
1.廣告場景：用戶標簽計算、分析等；
2.業務運營場景：交互式業務指標計算、查詢等；
3.各行業搭建數據倉庫，比如流批一體、湖倉一體等；
4.云上彈性擴展大數據計算和存儲。
得益于可靠的架構和強大的技術實力，MaxCompute有著非常優秀的產品技術特性，主要包括：
（1）全托管的Serverless的在線服務
1.對外以API方式訪問的在線服務，開箱即用；
2.預鋪設的大規模集群資源，近乎無限資源，按需使用和付費；
3.無需平臺運維，最小化運維投入。
（2）彈性能力與擴展性
1.存儲和計算獨立擴展，支持TB到EB級別數據規模的擴展能力，可以讓企業將全部數據資產保存在一個平臺上進行聯動分析，消除數據孤島；
2.Serverless資源按需分配，實時根據業務峰谷變化帶來的需求變化分配資源，自動擴展；
3.單作業可根據需要秒級獲得成千上萬Core。
（3）數據湖探索分析
1.默認集成對數據湖（如OSS服務）的訪問分析，處理非結構化或開放格式數據；
2.支持外表映射、Spark直接訪問方式開展數據湖分析；
3.對用戶友好：在同一套數據倉庫服務和用戶接口下，實現數據湖分析和數據倉庫的關聯分析。
（4）集成AI能力
1.與阿里云機器學習平臺PAI無縫集成，提供強大的機器學習處理能力；
2.可使用用戶熟悉的Spark-ML開展智能分析；
3.提供SQLML可以直接使用標準SQL訓練機器學習模型，并對數據進行預測分析；
4.Mars：使用Python機器學習第三方庫。
（5）支持流式采集和近實時分析
1.支持流式數據的實時寫入（Tunnel），并在數據倉庫中開展分析；
2.與云上主要流式服務深度集成，輕松接入各種來源流式3.高性能秒級彈性并發查詢，滿足近實時分析場景。
（6）深度集成Spark引擎
1.內建Apache Spark引擎，提供完整的Spark功能；
2.與MaxCompute計算資源、數據和權限體系深度集成。
（7）統一而豐富的運算能力
1.離線計算(MR，DAG，SQL，ML，Graph)；
2.實時計算(流式，內存計算，選代計算)；
3.涵蓋通用關系型大數據，機器學習，非結構化數據處理，圖計算。
（8）提供統一的企業數據視圖
1.提供租戶級別的統一元數據,讓企業能夠輕松獲得完整的企業數據目錄；
2.對于更廣泛的數據源，通過外表建立數據倉庫與外部數據源的連接，Connect not Collect。
（9）企業級服務
1.SLA保證：99.9%服務可用性保障；
2.自助運維與自動化運維；
3.完善的故障容錯（軟件，硬件，網絡，人為）機制。

一般來講我們的大數據項目是需要很多個組件才能完成的，包括離線組件和實時組件。下圖一個常用的場景，它是集實時、離線、分析、服務于一體的一套方案，適用于數據化運營，如智能推薦、日志采集分析、用戶畫像、數據治理、業務大屏、搜索等場景。這套方案是阿里巴巴最佳實踐的大數據平臺，具有技術領先性，降本提效，高附加值業務收益等優勢。當然，整個方案涉及到的產品也非常多，包括日志服務SLS、數據傳輸DTS、DataHub、實時計算Flink等等，具體如下圖所示。

下圖是MaxCompute和Hologres兩個組件融合之后的實時分析簡單架構，即云原生HASP系統，通過該架構我們可以實現實時寫入和實時查詢。與其他的OLAP應用不同的是這種架構下Hologres和MaxCompute是一體的，可以共享存儲，也就是說Hologres可以直接讀取MaxCompute的數據，大大降低了存儲成本。通過這兩個組件，我們還可以解決離線加速、聯邦分析、交互式分析等問題。

（二）Elasticsearch
Elasticsearch是一個開源的分布式、RESTful 風格的搜索和數據分析引擎，它的底層是開源庫Apache Lucene。Elasticsearch解決了Lucene使用時的繁復性，功能強大，使用簡單，能夠提供實時搜索服務。Elasticsearch應用場景廣泛，比如打車的場景中（例如滴滴打車），使用查詢附近的車輛等功能時候，后臺就是Elasticsearch在為搜索做支撐，又比如在Github中，Elasticsearch可以幫助我們利用關鍵字等在站內進行檢索。當然，不只是網站應用，包括手機APP，只要用到站內搜索服務，都能夠用到Elasticsearch或者其他的搜索服務應用。
我們為什么需要搜索引擎呢？實時搜索為什么現在這么火呢？之前我們在做數據分析的時候，可以通過寫程序的方式，但是寫程序對于一些數據分析師來說是一個高門檻的任務，需要一定的學習成本，包括使用SQL也有一定的學習成本。但是有了搜索引擎之后，我們只需要按照一定的條件進行篩選就可以得到我們想要的信息，大大降低了學習成本。
當前，主流的搜索引擎有兩個：Solr和Elasticsearch，兩者都基于Lucene發展而來。Lucene是當今最先進，最高效的全功能開源搜索引擎框架，但是Lucene只是一個框架，且比較復雜，要充分利用它的功能，需要在其基礎上進行擴展開發，因此有了Solr和Elasticsearch。

下圖是Google Trend中兩個搜索應用的趨勢分析，可以看出在實時搜索領域，近幾年Elasticsearch的熱度已經超過了Solr，因為在實時搜索領域Elasticsearch的效果要好于Solr，但是不得不提的是Solr在現有數據的基礎上進行查詢搜索的速度會更快一些。

目前，Elastic 已經宣布與阿里云建立長期合作和戰略伙伴關系。未來阿里云Elasticsearch將會兼容開源 Elasticsearch 的功能，以及Security、Machine Learning、Graph、APM 等商業功能，致力于數據分析、數據搜索等場景服務，與Elastic合作，共同為客戶提供企業級權限管控、安全監控告警、自動報表生成等場景服務。

（三）為什么需要MaxCompute+實時搜索

二、What：應用場景
當前，實時搜索的主要應用場景有三個：
1.日志和指標分析（Log/Indicator Analysis）；
2.安全（Security）；
3.站內檢索（WebHosting）。
其場景的應用邏輯如下面三張圖所示。

三、How：最佳實踐
最佳實踐主要包括數據集成和數據監控兩部分，其中數據集成指的是MaxCompute和Elasticsearch兩個組件之間怎么做數據交互。
（一）數據集成
下圖是一個在線教育的案例，該案例大的背景是要監控企業內部包括用戶的C端產生的日志，還有內部的服務端產生的日志，它由MaxCompute做數據的預分析，然后交由Elasticsearch做數據監控，其痛點主要有如下三點：。
1.監控數據實時性要求高；
2.流量波動大，自建集群投入成本高；
3.數據權限粒度要求高。

對于以上痛點，一般通用的解決方案如上圖所示，包括數據采集和集中、數據ETL、數據分析和展現三部分，最后會得到如下圖所示的DashBoard。

MaxCompute和Elasticsearch之間的數據交互是非常重要的一部分，將MaxCompute的數據導入Elasticsearch主要分為如下五步：
1.準備工作
創建DataWorks工作空間并開通MaxCompute服務，準備MaxCompute數據源、創建阿里云Elasticsearch實例。
2.步驟一：購買并創建獨享資源組
購買并創建一個數據集成獨享資源組，并為該資源組綁定專有網絡和工作空間，獨享資源組可以保障數據快速、穩定地傳輸。
3.步驟二：添加數據源
將MaxCompute和Elasticsearch數據源接入DataWorks的數據集成服務中。
4.步驟三：配置并運行數據同步任務
配置一個數據同步的腳本，將數據集成系統同步成功的數據存儲到Elasticsearch中，然后將獨享資源組作為一個可以執行任務的資源，注冊到DataWorks的數據集成服務中，這個資源組將獲取數據源的數據，并執行將數據寫入Elasticsearch中的任務（該任務將有數據集成系統統一下發）。
5.步驟四：驗證數據同步結果
在Kibana控制臺中，查看同步成功的數據，并按條件查詢數據。
（二）數據監控
經過上面的步驟，數據已經導入了Elasticsearch，我們做數據監控主要有如下兩步：
1.使用Kibana的discover，view，dashboard和其他對象來查看這些數據。

2.通過導入預先準備好的Kibana對象，可以統一顯示直播數據。

原文鏈接
本文為阿里云原創內容，未經允許不得轉載。

總結

以上是生活随笔為你收集整理的持续定义Saas模式云数据仓库+实时搜索的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：独家下载 |《领军行业大数据及AI实战》
下一篇：一文读懂云上DevOps能力体系

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

持续定义Saas模式云数据仓库+实时搜索

總結