Spark精华问答 | Spark的计算方法是什么?
戳藍字“CSDN云計算”關注我們哦!
Spark是一個針對超大數(shù)據(jù)集合的低延遲的集群分布式計算系統(tǒng),比MapReducer快40倍左右,是hadoop的升級版本,Hadoop作為第一代產(chǎn)品使用HDFS,第二代加入了Cache來保存中間計算結(jié)果,并能適時主動推Map/Reduce任務,第三代就是Spark倡導的流Streaming。今天,就讓我們一起來看看關于它的更加深度精華問答吧!
1
Q:Spark生態(tài)圈介紹
A:Spark力圖整合機器學習(MLib)、圖算法(GraphX)、流式計算(Spark Streaming)和數(shù)據(jù)倉庫(Spark SQL)等領域,通過計算引擎Spark,彈性分布式數(shù)據(jù)集(RDD),架構(gòu)出一個新的大數(shù)據(jù)應用平臺。
Spark生態(tài)圈以HDFS、S3、Techyon為底層存儲引擎,以Yarn、Mesos和Standlone作為資源調(diào)度引擎;使用Spark,可以實現(xiàn)MapReduce應用;基于Spark,Spark SQL可以實現(xiàn)即席查詢,Spark Streaming可以處理實時應用,MLib可以實現(xiàn)機器學習算法,GraphX可以實現(xiàn)圖計算,SparkR可以實現(xiàn)復雜數(shù)學計算。
Q:Spark的組成部分。
A:Spark組成(BDAS):全稱伯克利數(shù)據(jù)分析棧,通過大規(guī)模集成算法、機器、人之間展現(xiàn)大數(shù)據(jù)應用的一個平臺。也是處理大數(shù)據(jù)、云計算、通信的技術解決方案。
它的主要組件有:
SparkCore:將分布式數(shù)據(jù)抽象為彈性分布式數(shù)據(jù)集(RDD),實現(xiàn)了應用任務調(diào)度、RPC、序列化和壓縮,并為運行在其上的上層組件提供API。
SparkSQL:Spark Sql 是Spark來操作結(jié)構(gòu)化數(shù)據(jù)的程序包,可以讓我使用SQL語句的方式來查詢數(shù)據(jù),Spark支持 多種數(shù)據(jù)源,包含Hive表,parquest以及JSON等內(nèi)容。
SparkStreaming: 是Spark提供的實時數(shù)據(jù)進行流式計算的組件。
MLlib:提供常用機器學習算法的實現(xiàn)庫。
GraphX:提供一個分布式圖計算框架,能高效進行圖計算。
BlinkDB:用于在海量數(shù)據(jù)上進行交互式SQL的近似查詢引擎。
Tachyon:以內(nèi)存為中心高容錯的的分布式文件系統(tǒng)。
Q:Spark的應用場景是什么?
A:Yahoo將Spark用在Audience Expansion中的應用,進行點擊預測和即席查詢等
淘寶技術團隊使用了Spark來解決多次迭代的機器學習算法、高計算復雜度的算法等。應用于內(nèi)容推薦、社區(qū)發(fā)現(xiàn)等。
騰訊大數(shù)據(jù)精準推薦借助Spark快速迭代的優(yōu)勢,實現(xiàn)了在“數(shù)據(jù)實時采集、算法實時訓練、系統(tǒng)實時預測”的全流程實時并行高維算法,最終成功應用于廣點通pCTR投放系統(tǒng)上。優(yōu)酷土豆將Spark應用于視頻推薦(圖計算)、廣告業(yè)務,主要實現(xiàn)機器學習、圖計算等迭代計算。
Q:在其他機器上部署了HDFS、HBase、Spark,請問怎么在本地調(diào)試Java Spark來操作遠程的HBase,就像操作遠程數(shù)據(jù)庫一樣?
A:1. HBase是一個數(shù)據(jù)庫(分布式),有自己的JDBC,可以根據(jù)HBase的JDBC開發(fā)自己應用, 只要能連接上,本地遠程都可以。
2. Spark集群部署好了,寫好Spark作業(yè)提交給Spark集群,Spark cluster計算完成后,可以參看結(jié)果。
3. Spark相關的rest server是livy,然而并不是很好用有一定的版本和環(huán)境要求,很多開發(fā)者會選擇避開這個坑,所以你會看到網(wǎng)上的大部分博客。
4. 推薦Linux環(huán)境下開發(fā),少爬很多坑,Windows不適合大數(shù)據(jù)相關的開發(fā)。
Q:Spark的計算方法是什么?
A:Bagel: Pregel on Spark,可以用Spark進行圖計算,這是個非常有用的小項目。Bagel自帶了一個例子,實現(xiàn)了Google的PageRank算法。
當下Spark已不止步于實時計算,目標直指通用大數(shù)據(jù)處理平臺,而終止Shark,開啟SparkSQL或許已經(jīng)初見端倪。
近幾年來,大數(shù)據(jù)機器學習和數(shù)據(jù)挖掘的并行化算法研究成為大數(shù)據(jù)領域一個較為重要的研究熱點。早幾年國內(nèi)外研究者和業(yè)界比較關注的是在 Hadoop 平臺上的并行化算法設計。然而, HadoopMapReduce 平臺由于網(wǎng)絡和磁盤讀寫開銷大,難以高效地實現(xiàn)需要大量迭代計算的機器學習并行化算法。
隨著 UC Berkeley AMPLab 推出的新一代大數(shù)據(jù)平臺 Spark 系統(tǒng)的出現(xiàn)和逐步發(fā)展成熟,近年來國內(nèi)外開始關注在 Spark 平臺上如何實現(xiàn)各種機器學習和數(shù)據(jù)挖掘并行化算法設計。為了方便一般應用領域的數(shù)據(jù)分析人員使用所熟悉的 R 語言在 Spark 平臺上完成數(shù)據(jù)分析,Spark 提供了一個稱為 SparkR 的編程接口,使得一般應用領域的數(shù)據(jù)分析人員可以在 R 語言的環(huán)境里方便地使用 Spark 的并行化編程接口和強大計算能力。
小伙伴們沖鴨,后臺留言區(qū)等著你!
關于Spark,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區(qū)打卡啦!留言方式:打開第XX天,答:……
同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區(qū)里等你~
福利
掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!
推薦閱讀:
Elastic Jeff Yoshimura:開源正在開啟新一輪的創(chuàng)新 | 人物志
深入淺出Docker 鏡像 | 技術頭條
19歲當老板, 20歲ICO失敗, 21歲將項目掛到了eBay, 為何初創(chuàng)公司如此艱難?
碼二代的出路是什么?
機器學習萌新必備的三種優(yōu)化算法 | 選型指南
小程序的侵權(quán)“生死局”
@996 程序員,ICU 你真的去不起!
真香,朕在看了!
總結(jié)
以上是生活随笔為你收集整理的Spark精华问答 | Spark的计算方法是什么?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嘉必优是国企吗
- 下一篇: Boost:align对齐的测试程序