为什么Spark能成为最火的大数据计算引擎?它是怎样工作的?
導讀:零基礎(chǔ)入門Spark必讀。
作者:朱凱
來源:大數(shù)據(jù)DT(ID:hzdashuju)
01 概述
十年前我們只有Hadoop,大家首先通過HDFS實現(xiàn)海量數(shù)據(jù)的共享存儲,然后使用MapReduce以批處理的方式處理這些海量數(shù)據(jù),這一切看起來似乎十分完美。
但眾口難調(diào)啊,有人覺得MapReduce的編程模型太難使用了,為什么不能使用SQL來分析數(shù)據(jù)呢?我們數(shù)據(jù)庫領(lǐng)域已經(jīng)有非常成熟的數(shù)據(jù)倉庫模型了,為何不實現(xiàn)一個大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫呢?于是Hive類的框架便誕生了,人們開始使用Hive類的框架來構(gòu)建大數(shù)據(jù)技術(shù)的數(shù)據(jù)倉庫,使用SQL查詢數(shù)據(jù)。
接著人們又開始詬病MapReduce的執(zhí)行效率太慢,因為它本質(zhì)上是面向批處理場景的,難以支撐一些實時性要求很高的場景,我們需要一種能夠支撐流計算的架構(gòu),于是Storm類的框架誕生了。人們開始使用Storm這類框架處理流計算場景。
接著伴隨垃圾郵件分析、商品推薦、金融風控這類應(yīng)用場景需求的出現(xiàn),又迫使我們需要在大數(shù)據(jù)場景下具備機器學習的能力,于是乎Mahout類的框架出現(xiàn)了,人們使用它們來進行大數(shù)據(jù)下的機器學習。
隨著越來越多來自應(yīng)用領(lǐng)域的細分需求,人們從最初Hadoop的HDFS和MapReduce開始,一步步地構(gòu)造出了各種細分領(lǐng)域的技術(shù)框架。有專攻處理批處理場景的,有專攻數(shù)據(jù)倉庫場景的,有處理流計算場景的,也有專職機器學習的。
在我看來這有點像在給Hadoop打補丁,因為Hadoop在設(shè)計之初根本沒有考慮過這么多的場景,它只是為了支撐離線批處理。但是需求擺在這里,為了實現(xiàn)目標只得另起爐灶通過設(shè)計一個全新的系統(tǒng)滿足需求。這種現(xiàn)狀造成了很多問題。
重復工作:不同的系統(tǒng)之間都需要解決一些相同的共性問題,比如分布式執(zhí)行和容錯性。例如MapReduce、SQL查詢引擎和機器學習系統(tǒng)都會涉及聚合操作。
組合:不同系統(tǒng)之間的組合使用非常“昂貴”,因為不同系統(tǒng)之間無法有效的功效數(shù)。為了組合使用我們需要將數(shù)據(jù)在不同的系統(tǒng)之間頻繁的導出導入,數(shù)據(jù)用來移動的時間可能都會超過計算的時間。
維護成本:雖然這些系統(tǒng)從每個個體的角度來看都十分優(yōu)秀,但是它們都是在不同時期由不同的團隊設(shè)計實現(xiàn)的,其設(shè)計思路和實現(xiàn)方式也各不相同。這導致平臺在部署運維這些系統(tǒng)的時候十分痛苦,因為它們差異太大了。
學習成本:系統(tǒng)之間巨大的差異性對于開發(fā)人員來講更是如此,這些技術(shù)框架擁有不同的邏輯對象、專業(yè)術(shù)語、API和編程模型,每種框架都需要重新學習一遍才能使用。
Spark意識到了這個問題,作為一個后起之秀它擁有天然的優(yōu)勢。Spark誕生于2012年,那個時候Hadoop生態(tài)已經(jīng)經(jīng)過了6個年頭的發(fā)展,其生態(tài)格局已經(jīng)成型。Spark已經(jīng)能夠看清大數(shù)據(jù)有哪些細分領(lǐng)域,同時MapReduce、Hive、Storm等開源組件也已經(jīng)發(fā)展多年,Spark也能夠了解到它們的長處和不足。
于是Spark橫空出世,成為目前開源社區(qū)最為火爆的一款分布式內(nèi)存計算引擎。Spark使用DAG(有向無環(huán)圖)模型作為其執(zhí)行模型,并且主要使用內(nèi)存計算的方式進行任務(wù)計算。
Spark基于一套統(tǒng)一的數(shù)據(jù)模型(RDD)和編程模型(Trans-foration /Action)之上,構(gòu)建出了Spark SQL、Spark Streaming、Spark MLibs等多個分支,其功能涵蓋了大數(shù)據(jù)的多個領(lǐng)域,如圖2-14所示。
▲圖2-14 Spark涵蓋的領(lǐng)域
Spark通過統(tǒng)一的數(shù)據(jù)模型和編程模型,構(gòu)造出了SQL查詢、流計算、機器學習和圖計算等多個分支庫。
02 數(shù)據(jù)模型
RDD是彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets)的縮寫,它是MapReduce模型的擴展和延伸。Spark之所以能夠同時支撐大數(shù)據(jù)的多個領(lǐng)域,在很大程度上是依靠了RDD的能力。
雖然批處理、流計算、圖計算和機器學習這些計算場景之間初看起來風馬牛不相及,但是它們都存在一個共同的需求,那就是在并行計算階段能夠高效的共享數(shù)據(jù)。
RDD的設(shè)計者們洞穿了這一現(xiàn)象,于是通過高效的數(shù)據(jù)共享概念和類似MapReduce的操作設(shè)計了RDD,使得它能模擬迭代式算法、關(guān)系查詢、MapReduce和流式處理等多種編程模型。
同時它也是一個可容錯的、可并行的數(shù)據(jù)結(jié)構(gòu),可以讓用戶指定將數(shù)據(jù)存儲到磁盤和內(nèi)存中,并能控制數(shù)據(jù)的分區(qū)。同時它還提供了一些高效的編程接口操作數(shù)據(jù)集。
03 編程模型和作業(yè)調(diào)度
Spark將RDD的操作分為兩類:轉(zhuǎn)換(transformation)與行動(action)。
轉(zhuǎn)換操作是一種惰性操作,它只會定義新的RDD,而不會立即執(zhí)行。而行動操作則是立即執(zhí)行計算,它要么返回結(jié)果給Driver進程,或是將結(jié)果輸出到外部存儲。常見轉(zhuǎn)換操作如map、flatMap、filter等,常見行動操作如count、collect等。
當用戶對一個RDD執(zhí)行了行動操作之后,調(diào)度器會根據(jù)RDD的依賴關(guān)系生成一個DAG(有向無環(huán)圖)圖來執(zhí)行程序。DAG由若干個stage組成,每個stage內(nèi)都包含多個連續(xù)的窄依賴。而各個stage之間則是寬依賴。如圖2-15所示,實線方框代表的是RDD。方框內(nèi)的矩形代表分區(qū),若分區(qū)已在內(nèi)存中保存則用黑色表示。
▲圖2-15 Spark任務(wù)拆分示意
04 依賴
RDD作為數(shù)據(jù)結(jié)構(gòu),本質(zhì)上是一個只讀的分區(qū)記錄集合。一個RDD可以包含多個分區(qū),每個分區(qū)是一個數(shù)據(jù)片段。
RDD可以相互依賴。如果父RDD的每個分區(qū)最多被一個子RDD的分區(qū)使用,則稱之為窄依賴;若多個子RDD分區(qū)依賴一個父RDD的分區(qū),則稱之為寬依賴。不同的操作依據(jù)其特性,可能會產(chǎn)生不同的依賴。例如map操作會產(chǎn)生窄依賴,而join操作則產(chǎn)生寬依賴。
Spark之所以將依賴分為兩種,基于兩點原因。首先,窄依賴支持在同單個集群上以管道的形式式執(zhí),例如在執(zhí)行了map后,緊接著執(zhí)行filter。相反,寬依賴需要所有的父RDD數(shù)據(jù)都可用并通過shuffle動作才可繼續(xù)執(zhí)行。
其次,窄依賴的失敗恢復更加高效,因為它只需要重新計算丟失的父分區(qū),并且這些計算可以并行的在不同節(jié)點同時進行。與此相反,在寬依賴的繼承關(guān)系中,單個失敗的節(jié)點可能導致一個RDD的所有先祖RDD中的一些分區(qū)丟失,導致計算的重新執(zhí)行。如圖2-16所示,說明了窄依賴與寬依賴之間的區(qū)別。
▲圖2-16 SparkRDD寬依賴和窄依賴示意
05 容錯
傳統(tǒng)分布式系統(tǒng)的容錯方案有據(jù)復制和恢復日志兩種方案。對于以數(shù)據(jù)為中心的系統(tǒng)而言,這兩種方式都非常昂貴,因為它需要跨集群網(wǎng)絡(luò)復制大量數(shù)據(jù),而網(wǎng)絡(luò)帶寬的速度遠遠低于內(nèi)存訪問的速度。
RDD天生是支持容錯的。首先,它自身是一個不變的數(shù)據(jù)集,其次,Spark使用DAG作為其執(zhí)行模型,所以它能夠通過RDD的依賴特性記住一系列操作生成一張DAG圖。因此當執(zhí)行的任務(wù)失敗時,Spark只需根據(jù)DAG圖進行重新計算即可實現(xiàn)容錯機制。由于無須采用復制的方式支持容錯,Spark很好地降低了跨網(wǎng)絡(luò)的數(shù)據(jù)傳輸成本。
06 集群模式
Spark的應(yīng)用以一組獨立進程的形式運行在一個集群之上,由主程序中的SparkContext對象進行協(xié)調(diào)(也被稱為driver程序)。Spark目前支持三種集群運行方式。
具體來說,Spark既可以通過standlone模式獨立運行,也可以運行在Mesos或者YARN之上。
如圖2-17所示,一旦SparkContext連接到集群,Spark首先會從集群的節(jié)點中獲得一些executor進程,這些進程會用來執(zhí)行我們程序中的計算和存儲邏輯,接著它會通過jar包的形式分發(fā)我們的程序代碼到各個executor進程。最后,SparkContext會分派任務(wù)到各executor進程進行執(zhí)行。
▲圖2-17 Spark任務(wù)進程示意
每個應(yīng)用都擁有自己的executor進程,這些進程會在整個應(yīng)用生命周期內(nèi)持續(xù)運行并以多線程的方式執(zhí)行具體的任務(wù)。這種設(shè)計的好處是將各個應(yīng)用之間的資源消耗進行了隔離,每個應(yīng)用都運行在它們各自的JVM中。但是這也意味著不同應(yīng)用之間的SparkContext無法共享數(shù)據(jù),除非借助擴展的存儲媒介。
Spark對底層集群管理不可知。只要能夠獲取到executor進行,并且這些進程之間可以通信,它就能比較容易的運行在其他通用集群資源調(diào)度框架之上,如Mesos和YARN。
07 使用場景
Spark借助其RDD的出色設(shè)計,做到了橫跨多個領(lǐng)域的支撐。這意味著我們在一套程序邏輯之中可以集成多種操作。
例如使用SQL查詢過濾數(shù)據(jù),然后進行機器學習或是通過SQL的方式操作流數(shù)據(jù)。在提升便利的同時也降低了開發(fā)人員的學習曲線,基于Spark,只需要學習一套編程模型即可處理多個領(lǐng)域。
所以將Spark作為平臺的一站式計算解決方案是再合適不過了。
關(guān)于作者:朱凱,資深大數(shù)據(jù)專家和架構(gòu)師,擁有10年IT從業(yè)經(jīng)驗,精通大數(shù)據(jù)、Java、Node.JS等技術(shù)。對大數(shù)據(jù)領(lǐng)域的主流技術(shù)與解決方案有深入研究,擅長分布式系統(tǒng)的架構(gòu)設(shè)計與整合。曾主導過多款大數(shù)據(jù)平臺級產(chǎn)品的規(guī)劃設(shè)計與研發(fā)工作,一線實戰(zhàn)經(jīng)驗豐富。
本文摘編自《企業(yè)級大數(shù)據(jù)平臺構(gòu)建:架構(gòu)與實現(xiàn)》,經(jīng)出版方授權(quán)發(fā)布。
延伸閱讀《企業(yè)級大數(shù)據(jù)平臺構(gòu)建:架構(gòu)與實現(xiàn)》
點擊上圖了解及購買
轉(zhuǎn)載請聯(lián)系微信:DoctorData
推薦語:資深大數(shù)據(jù)專家/一線架構(gòu)師20000小時實際工作經(jīng)驗總結(jié)。以橫向視角出發(fā),拉通Hadoop體系技術(shù)棧,手把手教你快速構(gòu)建一個真實可用、安全可靠的企業(yè)級大數(shù)據(jù)平臺。
劃重點????
干貨直達????
吐血整理:盤點19種大數(shù)據(jù)處理的典型工具
10道題搞懂色彩搭配的6大準則,讓你的圖表開口說話!
學習Numpy,看這篇文章就夠啦
世界一流大學的計算機專業(yè),在用哪些書當教材?
更多精彩????
在公眾號對話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作
大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?可視化
AI?|?人工智能?|?機器學習?|?深度學習?|?NLP
5G?|?中臺?|?用戶畫像?|?1024?|?數(shù)學?|?算法?|?數(shù)字孿生
據(jù)統(tǒng)計,99%的大咖都完成了這個神操作
????
總結(jié)
以上是生活随笔為你收集整理的为什么Spark能成为最火的大数据计算引擎?它是怎样工作的?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 手把手教你用Python的NumPy包处
- 下一篇: 什么问题最让程序员头秃?我们分析了11