當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

原理系列：Spark1.x 生态圈一览

發(fā)布時間：2023/12/18 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了原理系列：Spark1.x 生态圈一览小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Spark生態(tài)圈，也就是BDAS（伯克利數(shù)據(jù)分析棧），是伯克利APMLab實驗室精心打造的，力圖在算法（Algorithms）、機器（Machines）、人（People）之間通過大規(guī)模集成，來展現(xiàn)大數(shù)據(jù)應用的一個平臺，其核心引擎就是Spark，其計算基礎是彈性分布式數(shù)據(jù)集，也就是RDD。通過Spark生態(tài)圈，AMPLab運用大數(shù)據(jù)、云計算、通信等各種資源，以及各種靈活的技術方案，對海量不透明的數(shù)據(jù)進行甄別并轉(zhuǎn)化為有用的信息，以供人們更好的理解世界。Spark生態(tài)圈已經(jīng)涉及到機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)庫、信息檢索、自然語言處理和語音識別等多個領域。隨著spark的日趨完善，Spark以其優(yōu)異的性能正逐漸成為下一個業(yè)界和學術界的開源大數(shù)據(jù)處理平臺。隨著Spark1.0.0的發(fā)布和Spark生態(tài)圈的不斷擴大，可以預見在今后的一段時間內(nèi)，Spark將越來越火熱。下面我們來看看最近的Spark1.0.0生態(tài)圈，也就是BDAS（伯克利數(shù)據(jù)分析棧），對Spark生態(tài)圈做一簡單的介紹。如下圖所示，Spark生態(tài)圈以Spark為核心引擎，以HDFS、S3、Techyon為持久層讀寫原生數(shù)據(jù)，以Mesos、YARN和自身攜帶的Standalone作為資源管理器調(diào)度job，來完成spark應用程序的計算；而這些spark應用程序可以來源于不同的組件，如Spark的批處理應用、SparkStreaming的實時處理應用、Spark SQL的即席查詢、BlinkDB的權衡查詢、MLlib或MLbase的機器學習、GraphX的圖處理、來自SparkR的數(shù)學計算等等。更多的新信息請參看伯克利APMLab實驗室的項目進展https://amplab.cs.berkeley.edu/projects/?或者 Spark峰會信息http://spark-summit.org/。

1：生態(tài)圈簡介

A：Spark

Spark是一個快速的通用大規(guī)模數(shù)據(jù)處理系統(tǒng)：

內(nèi)存計算并具有容錯性，決定大多數(shù)場景運算速度快于MapReduce
提供了支持DAG圖的分布式并行計算框架，減少多次計算之間中間結果IO開銷
提供Cache機制來支持多次迭代計算或者數(shù)據(jù)共享，減少IO開銷
使用多線程池模型來減少task啟動開稍
支持互動和迭代程序

B：Spark SQL

Spark SQL是一個即席查詢系統(tǒng)，可以通過SQL表達式、HiveQL或者Scala DSL在Spark上執(zhí)行查詢。 Spark SQL的特點:

引入了新的RDD類型SchemaRDD，可以象傳統(tǒng)數(shù)據(jù)庫定義表一樣來定義SchemaRDD，SchemaRDD由定義了列數(shù)據(jù)類型的行對象構成。
SchemaRDD可以從RDD轉(zhuǎn)換過來，也可以從Parquet文件讀入，也可以使用HiveQL從Hive中獲取。
在應用程序中可以混合使用不同來源的數(shù)據(jù)，如可以將來自HiveQL的數(shù)據(jù)和來自SQL的數(shù)據(jù)進行join操作。
內(nèi)嵌catalyst優(yōu)化器對用戶查詢語句進行自動優(yōu)化

C：SparkStreaming

SparkStreaming是一個對實時數(shù)據(jù)流進行高通量、容錯處理的流式處理系統(tǒng)，可以對多種數(shù)據(jù)源（如Kdfka、Flume、Twitter、Zero和TCP 套接字）進行類似map、reduce、join、window等復雜操作，并將結果保存到外部文件系統(tǒng)、數(shù)據(jù)庫或應用到實時儀表盤。 SparkStreaming流式處理系統(tǒng)特點有：

將流式計算分解成一系列短小的批處理作業(yè)
將失敗或者執(zhí)行較慢的任務在其它節(jié)點上并行執(zhí)行
較強的容錯能力(基于RDD繼承關系Lineage)
使用和RDD一樣的語義

D：MLlib

MLlib是Spark實現(xiàn)一些常見的機器學習算法和實用程序，包括分類，回歸，聚類，協(xié)同過濾，降維，以及底層優(yōu)化。

E：GraphX

GraphX是基于Spark的圖處理和圖并行計算API。GraphX定義了一個新的概念：彈性分布式屬性圖，一個每個頂點和邊都帶有屬性的定向多重圖；并引入了三種核心RDD：Vertices、Edges、Triplets；還開放了一組基本操作（如subgraph, joinVertices, and mapReduceTriplets），并且在不斷的擴展圖形算法和圖形構建工具來簡化圖分析工作。

2：生態(tài)圈的應用

Spark生態(tài)圈以Spark為核心、以RDD為基礎，打造了一個基于內(nèi)存計算的大數(shù)據(jù)平臺，為人們提供了all-in-one的數(shù)據(jù)處理方案。人們可以根據(jù)不同的場景使用spark生態(tài)圈的多個產(chǎn)品來解決應用，而不是使用多個隔離的系統(tǒng)來滿足場景需求。下面是幾個典型的例子：

A：場景1：歷史數(shù)據(jù)和實時數(shù)據(jù)分析查詢

通過Spark進行歷史數(shù)據(jù)分析、Spark Streaming進行實時數(shù)據(jù)分析，最后通過Spark SQL或BlinkDB給用戶交互查詢。

B：場景2：欺詐檢測、異常行為的發(fā)現(xiàn)

通過Spark進行歷史數(shù)據(jù)分析，用MLlib建立數(shù)據(jù)模型，對Spark Streaming實時數(shù)據(jù)進行評估，檢測并發(fā)現(xiàn)異常數(shù)據(jù)。

C：場景3：社交網(wǎng)絡洞察

通過Spark和GraphX計算社交關系，給出建議。

?3、與Hadoop生態(tài)環(huán)境比較

優(yōu)勢：

支持DAG運算，減少中間數(shù)據(jù)的傳輸。

所謂DAG，就是有向不循環(huán)圖。數(shù)據(jù)進入第一個計算，得到的結果進入第二個計算；第二個計算得到的結果進入第三個計算……依此類推。

提供了全棧（all-in-one）式，減少中間數(shù)據(jù)的傳輸。

即運算框架（Spark）、流式計算（Streaming）、機器學習（MLlib）、圖形計算（GraphX）為一體。在其中一個框架中可以調(diào)用另一個框架，如：在Streaing中接收數(shù)據(jù)，使用Spark的運行進行清洗，通過MLlib或GraphX運算得到最終結果。框架無縫轉(zhuǎn)換，無需傳遞中間數(shù)據(jù)。而Hadoop中，通過YARN來集成所有的如MapReduce、Storm、Mahout、Hive、Pig等，這樣無法在一個框架中調(diào)用另一個，只能順序執(zhí)行傳遞中間數(shù)據(jù)。

劣勢

使用Scala語言

好吧，官方一直聲稱這是優(yōu)勢。
Scala語言的已經(jīng)出來很多年，但從未流行過，即一直是小眾型語言。雖然軟文做很牛逼，但與現(xiàn)實脫離。

不是很成熟

Spark SQL還是是beta版，但軟文滿天飛 MLlib支持的算法有限生產(chǎn)環(huán)境敢/能用不？

框架本身復雜，想寫出性能卓越的程序需要下大功夫

job拆分，task的拆分等，會導致代碼的 ?參考：
http://spark.apache.org/
http://blog.csdn.net/book_mmicky/article/details/29362405

轉(zhuǎn)載于:https://www.cnblogs.com/chanxiu/p/3967786.html

總結

以上是生活随笔為你收集整理的原理系列：Spark1.x 生态圈一览的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：常用工具类总结
下一篇： ZXing二维码扫描添加个人总结