原理系列:Spark1.x 生态圈一览
生活随笔
收集整理的這篇文章主要介紹了
原理系列:Spark1.x 生态圈一览
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Spark生態(tài)圈,也就是BDAS(伯克利數(shù)據(jù)分析棧),是伯克利APMLab實驗室精心打造的,力圖在算法(Algorithms)、機器(Machines)、人(People)之間通過大規(guī)模集成,來展現(xiàn)大數(shù)據(jù)應用的一個平臺,其核心引擎就是Spark,其計算基礎是彈性分布式數(shù)據(jù)集,也就是RDD。通過Spark生態(tài)圈,AMPLab運用大數(shù)據(jù)、云計算、通信等各種資源,以及各種靈活的技術方案,對海量不透明的數(shù)據(jù)進行甄別并轉(zhuǎn)化為有用的信息,以供人們更好的理解世界。Spark生態(tài)圈已經(jīng)涉及到機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)庫、信息檢索、自然語言處理和語音識別等多個領域。 隨著spark的日趨完善,Spark以其優(yōu)異的性能正逐漸成為下一個業(yè)界和學術界的開源大數(shù)據(jù)處理平臺。隨著Spark1.0.0的發(fā)布和Spark生態(tài)圈的不斷擴大,可以預見在今后的一段時間內(nèi),Spark將越來越火熱。下面我們來看看最近的Spark1.0.0生態(tài)圈,也就是BDAS(伯克利數(shù)據(jù)分析棧),對Spark生態(tài)圈做一簡單的介紹。 如下圖所示,Spark生態(tài)圈以Spark為核心引擎,以HDFS、S3、Techyon為持久層讀寫原生數(shù)據(jù),以Mesos、YARN和自身攜帶的Standalone作為資源管理器調(diào)度job,來完成spark應用程序的計算;而這些spark應用程序可以來源于不同的組件,如Spark的批處理應用、SparkStreaming的實時處理應用、Spark SQL的即席查詢、BlinkDB的權衡查詢、MLlib或MLbase的機器學習、GraphX的圖處理、來自SparkR的數(shù)學計算等等。更多的新信息請參看伯克利APMLab實驗室的項目進展https://amplab.cs.berkeley.edu/projects/?或者 Spark峰會信息http://spark-summit.org/。
?
Scala語言的已經(jīng)出來很多年,但從未流行過,即一直是小眾型語言。雖然軟文做很牛逼,但與現(xiàn)實脫離。
http://spark.apache.org/
http://blog.csdn.net/book_mmicky/article/details/29362405
1:生態(tài)圈簡介
?
A:Spark
Spark是一個快速的通用大規(guī)模數(shù)據(jù)處理系統(tǒng):- 內(nèi)存計算并具有容錯性,決定大多數(shù)場景運算速度快于MapReduce
- 提供了支持DAG圖的分布式并行計算框架,減少多次計算之間中間結果IO開銷
- 提供Cache機制來支持多次迭代計算或者數(shù)據(jù)共享,減少IO開銷
- 使用多線程池模型來減少task啟動開稍
- 支持互動和迭代程序
B:Spark SQL
Spark SQL是一個即席查詢系統(tǒng),可以通過SQL表達式、HiveQL或者Scala DSL在Spark上執(zhí)行查詢。 Spark SQL的特點:- 引入了新的RDD類型SchemaRDD,可以象傳統(tǒng)數(shù)據(jù)庫定義表一樣來定義SchemaRDD,SchemaRDD由定義了列數(shù)據(jù)類型的行對象構成。
- SchemaRDD可以從RDD轉(zhuǎn)換過來,也可以從Parquet文件讀入,也可以使用HiveQL從Hive中獲取。
- 在應用程序中可以混合使用不同來源的數(shù)據(jù),如可以將來自HiveQL的數(shù)據(jù)和來自SQL的數(shù)據(jù)進行join操作。
- 內(nèi)嵌catalyst優(yōu)化器對用戶查詢語句進行自動優(yōu)化
C:SparkStreaming
SparkStreaming是一個對實時數(shù)據(jù)流進行高通量、容錯處理的流式處理系統(tǒng),可以對多種數(shù)據(jù)源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)進行類似map、reduce、join、window等復雜操作,并將結果保存到外部文件系統(tǒng)、數(shù)據(jù)庫或應用到實時儀表盤。 SparkStreaming流式處理系統(tǒng)特點有:- 將流式計算分解成一系列短小的批處理作業(yè)
- 將失敗或者執(zhí)行較慢的任務在其它節(jié)點上并行執(zhí)行
- 較強的容錯能力(基于RDD繼承關系Lineage)
- 使用和RDD一樣的語義
D:MLlib
MLlib是Spark實現(xiàn)一些常見的機器學習算法和實用程序,包括分類,回歸,聚類,協(xié)同過濾,降維,以及底層優(yōu)化。E:GraphX
GraphX是基于Spark的圖處理和圖并行計算API。GraphX定義了一個新的概念:彈性分布式屬性圖,一個每個頂點和邊都帶有屬性的定向多重圖;并引入了三種核心RDD:Vertices、Edges、Triplets;還開放了一組基本操作(如subgraph, joinVertices, and mapReduceTriplets),并且在不斷的擴展圖形算法和圖形構建工具來簡化圖分析工作。2:生態(tài)圈的應用
Spark生態(tài)圈以Spark為核心、以RDD為基礎,打造了一個基于內(nèi)存計算的大數(shù)據(jù)平臺,為人們提供了all-in-one的數(shù)據(jù)處理方案。人們可以根據(jù)不同的場景使用spark生態(tài)圈的多個產(chǎn)品來解決應用,而不是使用多個隔離的系統(tǒng)來滿足場景需求。下面是幾個典型的例子:A:場景1:歷史數(shù)據(jù)和實時數(shù)據(jù)分析查詢
通過Spark進行歷史數(shù)據(jù)分析、Spark Streaming進行實時數(shù)據(jù)分析,最后通過Spark SQL或BlinkDB給用戶交互查詢。B:場景2:欺詐檢測、異常行為的發(fā)現(xiàn)
通過Spark進行歷史數(shù)據(jù)分析,用MLlib建立數(shù)據(jù)模型,對Spark Streaming實時數(shù)據(jù)進行評估,檢測并發(fā)現(xiàn)異常數(shù)據(jù)。C:場景3:社交網(wǎng)絡洞察
通過Spark和GraphX計算社交關系,給出建議。?3、與Hadoop生態(tài)環(huán)境比較
優(yōu)勢:
支持DAG運算,減少中間數(shù)據(jù)的傳輸。
所謂DAG,就是有向不循環(huán)圖。數(shù)據(jù)進入第一個計算,得到的結果進入第二個計算;第二個計算得到的結果進入第三個計算……依此類推。提供了全棧(all-in-one)式,減少中間數(shù)據(jù)的傳輸。
即運算框架(Spark)、流式計算(Streaming)、機器學習(MLlib)、圖形計算(GraphX)為一體。在其中一個框架中可以調(diào)用另一個框架,如:在Streaing中接收數(shù)據(jù),使用Spark的運行進行清洗,通過MLlib或GraphX運算得到最終結果。框架無縫轉(zhuǎn)換,無需傳遞中間數(shù)據(jù)。 而Hadoop中,通過YARN來集成所有的如MapReduce、Storm、Mahout、Hive、Pig等,這樣無法在一個框架中調(diào)用另一個,只能順序執(zhí)行傳遞中間數(shù)據(jù)。劣勢
使用Scala語言
好吧,官方一直聲稱這是優(yōu)勢。Scala語言的已經(jīng)出來很多年,但從未流行過,即一直是小眾型語言。雖然軟文做很牛逼,但與現(xiàn)實脫離。
不是很成熟
Spark SQL還是是beta版,但軟文滿天飛 MLlib支持的算法有限 生產(chǎn)環(huán)境敢/能用不?框架本身復雜,想寫出性能卓越的程序需要下大功夫
job拆分,task的拆分等,會導致代碼的 ?參考:http://spark.apache.org/
http://blog.csdn.net/book_mmicky/article/details/29362405
轉(zhuǎn)載于:https://www.cnblogs.com/chanxiu/p/3967786.html
總結
以上是生活随笔為你收集整理的原理系列:Spark1.x 生态圈一览的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 常用工具类总结
- 下一篇: ZXing二维码扫描添加个人总结