【Azure Data Platform】ETL工具(19)——Azure Databricks
本文屬于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(18)——ADF 迭代和條件活動(dòng)(2)
這次來聊聊Azure Databricks
前言
之所以突然停下ADF的介紹轉(zhuǎn)而向Azure Databricks, 是因?yàn)樽罱镜捻?xiàng)目已經(jīng)呈現(xiàn)出ADF與Databricks的組合趨勢(shì)。為了更好地運(yùn)維公司的項(xiàng)目,有必要了解一下Databricks。并且大概介紹一下Azure Data Factory和Azure Databricks的關(guān)系。
什么是Databricks
今時(shí)今日,大數(shù)據(jù)已經(jīng)不是新鮮事,也已經(jīng)被大范圍地使用。大數(shù)據(jù)中有一個(gè)開源引擎Spark用來支持大規(guī)模數(shù)據(jù)分析。主要通過集群,并行地進(jìn)行數(shù)據(jù)處理,從而提高數(shù)據(jù)處理性能。
Databricks簡(jiǎn)單來說,就是Azure上的Spark。 它可以很容易地與Blob storage, ADLS, SQL DB, PowerBI 等工具集成
- Databricks Workspace:一個(gè)交互式的工作區(qū),用戶(主要是數(shù)據(jù)的消費(fèi)者)可以通過這個(gè)工作區(qū)進(jìn)行合作。
- Databricks Runtime : 用于支持運(yùn)行,提高性能。
- Databricks File System (DBFS):類似于DataBricks的存儲(chǔ),但是對(duì)用戶來說是一個(gè)抽象層。
它與ADF的區(qū)別
ADF主要用于從多個(gè)大規(guī)模的數(shù)據(jù)源中進(jìn)行數(shù)據(jù)集成,Databricks則通過在單一平臺(tái)中統(tǒng)一數(shù)據(jù)、分析和 AI 工作負(fù)載從而簡(jiǎn)化數(shù)據(jù)架構(gòu)。
- ADF是一個(gè)PaaS,而Databricks偏向于SaaS。
- ADF 偏向于數(shù)據(jù)集成,Databricks則偏向于數(shù)據(jù)處理,機(jī)器學(xué)習(xí)等。
- ADF是一個(gè)低代碼平臺(tái),可以通過拖拽的方式來實(shí)現(xiàn)絕大部分功能,而Databricks則提供豐富的編程支持
什么時(shí)候使用ADF和Databricks
目的上:
ADF:數(shù)據(jù)集成和數(shù)據(jù)移動(dòng)。
Databricks:主要針對(duì)機(jī)器學(xué)習(xí)建模。
功能需求上:
ADF:低代碼帶來的功能并不如Databricks強(qiáng)大。
Databricks:通過編程方式擴(kuò)展所需功能。
數(shù)據(jù)處理時(shí)效性:
ADF:不適合實(shí)時(shí)數(shù)據(jù)流。適合定期抽取數(shù)據(jù)。
Databricks:通過Spark API,可以實(shí)現(xiàn)實(shí)時(shí)流處理。
綜上所述:如果并不需要實(shí)時(shí)的,過多定制需求的數(shù)集成,且希望學(xué)習(xí)成本不要太高,那么ADF是值得考慮的。否則,那么在ADF和Databricks之間選擇的話,Databricks更好。
接下來用一點(diǎn)點(diǎn)篇幅介紹如何創(chuàng)建和使用Azure Databricks。
總結(jié)
以上是生活随笔為你收集整理的【Azure Data Platform】ETL工具(19)——Azure Databricks的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NodeJs模块化(KPD)
- 下一篇: 使用Databricks作为分析平台