日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

云原生数据湖分析DLA 2020年年度总结

發(fā)布時間:2024/9/3 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 云原生数据湖分析DLA 2020年年度总结 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
簡介:主要講述阿里云數(shù)據(jù)湖分析DLA 2020年的進(jìn)展~

一、概述

2020年黑天鵝事件不斷出現(xiàn),疫情給人們的生活也帶來了改變。在后疫情時代,伴隨著云原生技術(shù)的發(fā)展,企業(yè)尋求更加敏捷、更加靈活的數(shù)據(jù)分析方案,數(shù)據(jù)湖剛好滿足這核心訴求。有不少同學(xué)問筆者,Hadoop與數(shù)據(jù)湖有啥區(qū)別?筆者認(rèn)為,其一:數(shù)據(jù)湖分析支持的數(shù)據(jù)格式包括非結(jié)構(gòu)化與半結(jié)構(gòu)化。雖然HDFS可以存圖片,但是一般還是有視頻&圖片的專門的服務(wù)器的,原因存儲計算不分離情況下,大數(shù)據(jù)硬件存圖片不經(jīng)濟(jì); 其二:數(shù)據(jù)湖往往跟云結(jié)合更加緊密,因為存儲計算分離以后,存儲與計算可以單獨發(fā)展。計算可以跟業(yè)務(wù)系統(tǒng)錯峰調(diào)度,再結(jié)合不同公司計算任務(wù)的差異,可以增強(qiáng)彈性能力。其三:數(shù)據(jù)湖的技術(shù)與數(shù)據(jù)倉庫進(jìn)一步融合,如Hudi支持?jǐn)?shù)據(jù)實時寫入、事務(wù)與更新。

阿里云云原生數(shù)據(jù)湖分析DLA,在這樣的背景下誕生,歷經(jīng)兩年的發(fā)展,充分結(jié)合 云、Presto、Spark、Hudi等優(yōu)勢,構(gòu)建出了新一代的大數(shù)據(jù)方案。目前DLA已經(jīng)服務(wù)了數(shù)千客戶,不少公司的核心數(shù)倉也是基于DLA;DLA也集成在友盟、CDN、DBS(數(shù)據(jù)庫備份)、IOT、QuickBI等產(chǎn)品中,間接服務(wù)了數(shù)萬客戶;

我們也重視開源與商業(yè)合作,目前,DLA是Apache PrestoDB基金會的代表;與Alluxio達(dá)成戰(zhàn)略合作,共同構(gòu)建緩存系統(tǒng);團(tuán)隊有數(shù)位Apache的Committer,一起參與貢獻(xiàn)開源社區(qū)。


本文主要概述講述下 阿里云云原生數(shù)據(jù)湖分析(簡稱DLA)為了應(yīng)變分析之大變局,在2020年主要實現(xiàn)的一些事情。數(shù)據(jù)湖分析DLA官網(wǎng)鏈接:https://www.aliyun.com/product/datalakeanalytics

云原生數(shù)據(jù)湖分析的基本架構(gòu)如下:

DLA分為DLA Meta、DLA Lakehouse、DLA Presto、DLA Spark 四大模塊。在20年我們重寫了元數(shù)據(jù)模塊,增加了元數(shù)據(jù)與數(shù)據(jù)源之間的同步模塊,針對OSS可以發(fā)現(xiàn)元數(shù)據(jù),簡化用戶的配置管理;在數(shù)據(jù)管理Lakehouse方向上支持了RDS MySQL實時同步到Hudi,目前正在產(chǎn)品化中;新增了DLA Serverless Spark模塊,支持按照J(rèn)ob計費,重寫了接入層,實現(xiàn)了多租戶的UI,并且針對OSS做Rename等內(nèi)核性能優(yōu)化;DLA Presto改進(jìn)了掃描版的穩(wěn)定性,增強(qiáng)內(nèi)核性能,實現(xiàn)了CU版本的產(chǎn)品形態(tài),并且保持掃描量版本與CU版本統(tǒng)一架構(gòu)。接下來分模塊講述:


二、DLA Meta

對比開源的Hive元數(shù)據(jù),DLA Meta是兼容Hive meta的,支持云上15+種數(shù)據(jù)數(shù)據(jù)源(OSS、HDFS、DB、DW)的統(tǒng)一視圖,引入多租戶、元數(shù)據(jù)發(fā)現(xiàn)等能力。DLA Meta追求邊際成本為0,免費提供使用的。

  • 企業(yè)級權(quán)限管理:支持多賬號的權(quán)限與隔離,可以簡單的GRANT&REVOKE對子賬號賦予權(quán)限,Meta會托管OSS與DB賦予的權(quán)限,DLA Presto與DLA Spark通過內(nèi)部的API拿到相應(yīng)的權(quán)限,訪問OSS與DB數(shù)據(jù)庫;
  • 開放訪問:通過OpenAPI可以直接拿到Meta的信息,客戶自建的Spark集群也可以使用DLA Meta;
  • 擴(kuò)展性強(qiáng):MetaServer是無狀態(tài)的服務(wù),可以擴(kuò)展多個集群;在元數(shù)據(jù)存儲采取的是多庫存儲,可以無限擴(kuò)展;
  • 元數(shù)據(jù)發(fā)現(xiàn):支持OSS 數(shù)倉模式發(fā)現(xiàn),SLS投遞到OSS數(shù)據(jù)發(fā)現(xiàn),OTS元數(shù)據(jù)自動同步。支持客戶一鍵發(fā)現(xiàn)元數(shù)據(jù),這些元數(shù)據(jù)也會自動維護(hù)。 典型的場景是:用戶的APP可以不斷往OSS寫新的Partition,元數(shù)據(jù)發(fā)現(xiàn)服務(wù)會自動同步Partition。


三、DLA Lakehouse

數(shù)據(jù)湖有著巨大的低成本、擴(kuò)展性的優(yōu)勢。但是在數(shù)據(jù)組織與維護(hù)方面,天然比數(shù)倉有著不足。不少客戶通過代碼維護(hù)一套數(shù)倉體系:基本流程為準(zhǔn)備數(shù)據(jù),再通過Spark&Hive清洗,構(gòu)建離線的數(shù)據(jù)倉庫。 DLA目前在基于Apache Hudi實現(xiàn)DLA Lakehouse,主要目標(biāo)是提供高效的湖倉,基本的架構(gòu)圖如下圖所示:

此模塊已經(jīng)有不少客戶使用,目前還缺乏產(chǎn)品化,是以方案提供。在接入層已經(jīng)支持RDS MySQL通過DTS實時寫數(shù)據(jù)到Lakehouse中,接入層全量&增量模塊均是直接調(diào)用DLA Serverless Spark服務(wù)。

  • 實時寫入:支持 MySQL數(shù)據(jù)延期10分鐘直接寫入到OSS的,寫入后,可以支持DLA Serverless Presto與DLA Serverless Spark訪問。
  • 自動合并小文件:支持小文件的自動合并,接入層對接的是DLA Serverless Spark服務(wù),目前也正在研發(fā)彈性的Compaction機(jī)制。
  • 支持多庫多表:相對于社區(qū)支持單庫單表,我們可以一次性把RDS MySQL實例內(nèi)所有的庫與表實時同步到OSS上,并一條鏈路支持超過5000+張表的同步;

目前Lakehouse發(fā)展比較快,內(nèi)核模塊Hudi我們也在跟社區(qū)保持緊密的合作,DLA也在加緊產(chǎn)品化中,提供在產(chǎn)品界面點按鈕就可以使用的體驗,并且不斷優(yōu)化數(shù)據(jù)源到鏈路到格式的性能;


四、DLA Serverless Presto

DLA Serverless Presto是基于Apache PrestoDB的研發(fā)的,主要是做聯(lián)邦交互式查詢與輕量級ETL,2020年改造后架構(gòu)如下:

  • 提供獨享集群:在掃描量情況下,客戶不好評估成本,需要財務(wù)固定成本;一些如Cache、訪問Hive、UDF等在掃描量無法實現(xiàn);DLA推出了Presto獨享集群版本。獨享版本的資源是獨享的,財務(wù)成本基本固定的(獨享集群也可以按時彈性),比較適合大客戶使用。掃描量版本比較實現(xiàn)查詢頻率比較低的客戶使用。在獨享集群版本中,我們核心提供了 如下能力:
    • DataCache:與Alluxio合作共同推出了DLA Presto的DataCache,具體機(jī)制參考:https://developer.aliyun.com/article/781291,在IO密集類型中,查詢性能可最高提升10倍;
    • 分時彈性:掃描量是按照Query計費的,在獨享集群下,也是可以彈性的。分時彈性就是用戶可以設(shè)置時間段來付費;
    • 特有的數(shù)據(jù)源:如支持Hive等數(shù)據(jù)源等、Cassandra等數(shù)據(jù)源;
    • 更快的性能提升:目前也在實現(xiàn)如Query Result Cache、Fragment Result cache、針對性算子下沉;
  • 支持更多的連接器:過去一年我們新增支持了Hive、HDFS、KUDU、OTS ParallelScan、Cassandra、ElasticSearch、ADB PG、Oracle、Druid等;
  • 穩(wěn)定性改進(jìn):接入層打通底層ACK彈性調(diào)度、DLA網(wǎng)絡(luò)管控、SLB管控等鏈路,實現(xiàn)被動宕機(jī)時從之前3分鐘到3秒內(nèi)快速恢復(fù),主動業(yè)務(wù)發(fā)布時只中斷1次連接、并在1s左右迅速實現(xiàn)連接切換等能力; Multi-Master實現(xiàn)Coordinator和Worker的優(yōu)雅關(guān)閉,關(guān)閉時會等待所有SQL執(zhí)行完,同時又不接受新SQL,使得我們在升級的時候從之前的用戶SQL全掛,到現(xiàn)在用戶的SQL可以不被影響,做到客戶無感升級;算力租戶隔離可以實時控制每個用戶的算力,算力過度使用時會實時懲罰的機(jī)制,解決了大SQL會導(dǎo)致整個集群過載的問題;
  • 易用性SQL診斷界面,我們也在不斷改進(jìn),也是接下來的重點改進(jìn)方向。

未來,我們將充分與社區(qū)結(jié)合互補(bǔ),不斷提升性能,支持更多的功能,提供更加方便的診斷工具,做到云上的第一的聯(lián)邦交互式查詢引擎;


五、DLA Serverless Spark

Spark是最流行的大數(shù)據(jù)計算引擎,DLA支持Spark主要是為在湖上做大規(guī)模的ETL,并支持流計算、機(jī)器學(xué)習(xí);比傳統(tǒng)自建Spark有著300%的性價比提升,從ECS自建Spark或者Hive批處理遷移到DLA Spark可以節(jié)約50%的成本;DLA Spark架構(gòu)如下圖所示:

  • 完全支持開源的Spark語法,獨享的運(yùn)行環(huán)境:DLA Serverless Spark完全兼容開源的Spark語法,支持Python專享的運(yùn)行環(huán)境,支持開源的算法框架;
  • 彈性,每Job每計費:傳統(tǒng)的Spark都需要用戶事先購買好集群,DLA支持無需購買任何的計算資源即可開箱使用Spark,兼容開源Spark所有的語法;
  • 重寫Serverless Spark接入層,保障Job的穩(wěn)定性:對比Livy接入層,Livy存在較多的穩(wěn)定性問題,比如:不能互相擴(kuò)展,有單點問題,無法在DLA多租戶環(huán)境應(yīng)用;為此,DLA Spark組完全重寫了Spark的接入層,力求保障長job的穩(wěn)定性,深度結(jié)合云原生的環(huán)境。
  • 實現(xiàn)多租戶的UI服務(wù):DLA Serverless Spark運(yùn)行完成后,其UI數(shù)據(jù)會存放在用戶OSS空間,DLA提供多租戶SparkUI服務(wù),開源查詢正在運(yùn)行中及運(yùn)行完成的Spark信息,此服務(wù)完全免費
  • 多數(shù)據(jù)源,針對OSS數(shù)據(jù)源優(yōu)化: 目前DLA Serverless Spark支持對接Kafka、LogHub等數(shù)據(jù)源,直接對接HDFS、HBase、OTS、PolarDB、ADB等幾乎所有的數(shù)據(jù)源的分析與回寫。并針對OSS數(shù)據(jù)源支持MetaCache與Rename等優(yōu)化,在小文件較多的情況,比開源版本提升50%的性能。

目前DLA Serverless Spark一直追求更加彈性的服務(wù),跟開源使用體驗盡量一致,接入層的服務(wù)會更加穩(wěn)定性,PS:得益于先進(jìn)的云原生架構(gòu),目前UI服務(wù)與接入層服務(wù)是免費的。用戶只需要為實際的資源消耗付費。


六、數(shù)據(jù)平臺的演進(jìn)

DLA致力于幫助客戶構(gòu)建低成本、簡單易用、彈性的數(shù)據(jù)平臺比傳統(tǒng)Hadoop至少節(jié)約50%的成本。具體到大數(shù)據(jù)架構(gòu),業(yè)內(nèi)大數(shù)據(jù)架構(gòu)有Lambda、Kappa等,目前在大公司應(yīng)用基本是混合體,大數(shù)據(jù)與業(yè)務(wù)是比較強(qiáng)相關(guān),隨著公司規(guī)模大小不一,適用的場景不近相同,且又隨著業(yè)務(wù)的發(fā)展需要不同的大數(shù)據(jù)的架構(gòu),目前還不存在包打天下的銀彈(不過每個組件都想擴(kuò)展場景,替換其它組件的地盤),如果規(guī)模不小的公司只有一個肯定會有損耗或者不是最佳的方案架構(gòu)。一般隨著公司規(guī)模發(fā)展,有如下趨勢(此圖挑選業(yè)內(nèi)比較流行的組件):

方案四,攤開細(xì)節(jié)一點如下,在結(jié)合阿里云OLAP團(tuán)隊的組件:

上圖中分為七塊,也是目前業(yè)內(nèi)主流的數(shù)據(jù)處理模式:

  • 數(shù)據(jù)源:一般是數(shù)據(jù)產(chǎn)生的系統(tǒng),比如事務(wù)性的數(shù)據(jù)會直接存入MySQL,物聯(lián)網(wǎng)一般直接寫入到HBase/Lindorm系統(tǒng)之中;
  • 實時數(shù)據(jù)處理:可以直接對接數(shù)據(jù)源,如DB CDC或者Kafka,經(jīng)過流ETL后,寫入到數(shù)據(jù)倉庫或者數(shù)據(jù)湖之中;
  • 離線數(shù)據(jù)湖:存離線的數(shù)據(jù),比如CSV\JSON上傳的數(shù)據(jù),或者離線數(shù)倉的數(shù)據(jù);
  • 專題數(shù)據(jù)倉庫:針對高并發(fā)的場景加速,一般為業(yè)務(wù)團(tuán)隊直接持有;
  • 聯(lián)邦交互式分析:可以跨數(shù)據(jù)源查詢,包括數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)庫的數(shù)據(jù);
  • 數(shù)據(jù)應(yīng)用:是數(shù)據(jù)的應(yīng)用,如BI、營銷系統(tǒng)等。
  • 數(shù)據(jù)開發(fā)平臺:如計算引擎的調(diào)度,數(shù)據(jù)血緣等;

特別注明的是,Lakehouse(Hudi)會把實時數(shù)據(jù)與離線數(shù)據(jù)湖結(jié)合起來,并且會融合部分?jǐn)?shù)據(jù)倉庫的能力。在實際的實踐中,Lakehouse也是作為數(shù)據(jù)湖的一部分,解決數(shù)據(jù)高效入湖,且支持高效分析。


七、鳴謝與展望2021年

DLA感謝廣大客戶的信任,目前已經(jīng)服務(wù)數(shù)千客戶。在2021年,DLA會聚焦在數(shù)據(jù)湖場景下,從DLA Meta、DLA Lakehouse、DLA Serverless Spark、DLA Serverless Presto方向發(fā)力,提供更加實惠,穩(wěn)定性,彈性,高性能的數(shù)據(jù)湖服務(wù)。DLA Lakehouse會不斷優(yōu)化支持Kafka、Loghub、DB CDC的實時入湖;DLA Presto主打通用格式的交互式查詢,會在多數(shù)據(jù)源算子下沉,Cache等方向發(fā)力;DLA Spark會完全兼容開源Spark的語法與體驗,并且在彈性層面不斷突破。



原文鏈接:https://developer.aliyun.com/article/782655?

版權(quán)聲明:本文內(nèi)容由阿里云實名注冊用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請查看《阿里云開發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開發(fā)者社區(qū)知識產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報,一經(jīng)查實,本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。

總結(jié)

以上是生活随笔為你收集整理的云原生数据湖分析DLA 2020年年度总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。