Data Lake Analytics-数据分析时代迎来新变革
前言
近期阿里云重磅推出新的數據分析引擎Data Lake Analytics,Data Lake Analytics是Serverless化的交互式聯邦查詢服務。無需ETL,使用標準SQL即可分析與集成對象存儲(OSS)、數據庫(PostgreSQL/MySQL/SQL Server等)、NoSQL(TableStore等)數據源的數據。本文將重點剖析Data Lake Analytics的出現,給傳統數據分析帶來了哪些變革。
傳統解決方案里,做數據分析,需要先購買一些分析節(jié)點實例(計算和存儲一體化),無論是計算還是存儲任何一方先到達瓶頸,都要線性的擴服務器資源,分析任務空閑的時候,計算資源的成本依舊需要承擔。Data Lake Analytics是基于serverless架構的數據分析引擎,意味著客戶使用分析服務無需購買或者管理服務器,升級透明,Data Lake Analytics基于ECS輕松做到彈性伸縮服務。能讓業(yè)務真正做到按需擴存儲,按使用量付費分析,不分析只需要擁有存儲成本,整個方案成本極低。
數據分析架構更加靈活無論是自建Hadoop、開源的Greenplum等方案,存儲和計算成本都是一體化的。選擇了某種大數據分析技術后,存儲和計算的方案都是固化的。而Data Lake Analytics的出現,則打破了這一架構局限性,使得數據分析方案更加靈活。客戶可以選擇將海量的KV查詢的數據存儲TableStore中,Data Lake Analytics可以告訴的查詢處理TableStore中的數據。可以將業(yè)務流水數據存儲在關系型數據庫(MySQL、SQL Server、PostgreSQL)中,Data Lake Analytics可以賦予上述數據庫復雜的查詢能力。用戶可以將日志或者歸檔數據存儲在OSS中,使用Data Lake Analytics快速的分析處理OSS中的數據。在對于云上中小企業(yè)來說,可以結合業(yè)務的特點選擇最廉價的存儲搭配最普惠靈活的的分析能力,同時Data Lake Analytics還可以很好的將上述眾多數據源做聯邦查詢。
ETL搬數據時代結束以往數據分析,需要將各路數據源(關系型數據庫、日志、NoSQL等),按照天或者小時級別做抽取,匯總到數據倉庫中做數據關聯處理。Data Lake Analytics設計之初天然具有聯邦分析能力,使得客戶的數據不再需要搬遷至數據倉庫匯總分析,而是就地分析。同時還能很好的跨異構數據源做關聯分析、回流至關系型數據庫或者OLAP引擎。
分析時效性大幅提升傳統數倉,無論是H+1 還是T+1方案,由于數據同步周期長,架構鏈路長,導致時效性很差。Data Lake Analytics的多數據源聯邦查詢處理能力,避免了數據搬遷的同時,大大提升了數據處理的時效性,同時由于縮短了采集、存儲、計算的鏈路,方案運行更加穩(wěn)定。
總結?
傳統數據分析的抽取-裝載-轉換-回流的架構支撐了數據倉庫多年的發(fā)展,而Data Lake Analytics的出現,給傳統數據分析架構帶來革新的同時,也賦予了云上目前OSS、TableStore、關系型數據庫(PostgreSQL/MySQL/SQL Server等)存儲強大的分析能力。對于云上中小企業(yè)來說,可以選擇用最廉價、最適合業(yè)務場景的存儲,來搭配最普惠靈活的的分析能力。阿里云Data Lake Analytics正是最普惠靈活的分析能力的實踐者,目前公測期間免費試用,歡迎大家前來體驗。
了解更多大數據家族產品詳情,歡迎點擊:
https://et.aliyun.com/bigdatarelease
點擊觀看大數據家族產品發(fā)布會:
https://yq.aliyun.com/webinar/play/508
【阿里云新品發(fā)布】開啟新一代數據智能開發(fā)之路:
https://yq.aliyun.com/roundtable/325525
?
原文鏈接
本文為云棲社區(qū)原創(chuàng)內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的Data Lake Analytics-数据分析时代迎来新变革的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为了让开发者写MaxCompute SQ
- 下一篇: 一份关于机器学习中线性代数学习资源的汇总