當前位置：首頁 >

Spark精华问答 | Spark的计算方法是什么？

發(fā)布時間：2024/9/27 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark精华问答 | Spark的计算方法是什么？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

戳藍字“CSDN云計算”關注我們哦！

Spark是一個針對超大數(shù)據(jù)集合的低延遲的集群分布式計算系統(tǒng)，比MapReducer快40倍左右，是hadoop的升級版本，Hadoop作為第一代產(chǎn)品使用HDFS，第二代加入了Cache來保存中間計算結(jié)果，并能適時主動推Map/Reduce任務，第三代就是Spark倡導的流Streaming。今天，就讓我們一起來看看關于它的更加深度精華問答吧！

Q：Spark生態(tài)圈介紹

A：Spark力圖整合機器學習（MLib）、圖算法（GraphX）、流式計算（Spark Streaming）和數(shù)據(jù)倉庫（Spark SQL）等領域，通過計算引擎Spark，彈性分布式數(shù)據(jù)集（RDD），架構(gòu)出一個新的大數(shù)據(jù)應用平臺。

Spark生態(tài)圈以HDFS、S3、Techyon為底層存儲引擎，以Yarn、Mesos和Standlone作為資源調(diào)度引擎；使用Spark，可以實現(xiàn)MapReduce應用；基于Spark，Spark SQL可以實現(xiàn)即席查詢，Spark Streaming可以處理實時應用，MLib可以實現(xiàn)機器學習算法，GraphX可以實現(xiàn)圖計算，SparkR可以實現(xiàn)復雜數(shù)學計算。

Q：Spark的組成部分。

A：Spark組成(BDAS)：全稱伯克利數(shù)據(jù)分析棧，通過大規(guī)模集成算法、機器、人之間展現(xiàn)大數(shù)據(jù)應用的一個平臺。也是處理大數(shù)據(jù)、云計算、通信的技術解決方案。

它的主要組件有：

SparkCore：將分布式數(shù)據(jù)抽象為彈性分布式數(shù)據(jù)集（RDD），實現(xiàn)了應用任務調(diào)度、RPC、序列化和壓縮，并為運行在其上的上層組件提供API。

SparkSQL：Spark Sql 是Spark來操作結(jié)構(gòu)化數(shù)據(jù)的程序包，可以讓我使用SQL語句的方式來查詢數(shù)據(jù)，Spark支持多種數(shù)據(jù)源，包含Hive表，parquest以及JSON等內(nèi)容。

SparkStreaming：是Spark提供的實時數(shù)據(jù)進行流式計算的組件。

MLlib：提供常用機器學習算法的實現(xiàn)庫。

GraphX：提供一個分布式圖計算框架，能高效進行圖計算。

BlinkDB：用于在海量數(shù)據(jù)上進行交互式SQL的近似查詢引擎。

Tachyon：以內(nèi)存為中心高容錯的的分布式文件系統(tǒng)。

Q：Spark的應用場景是什么？

A：Yahoo將Spark用在Audience Expansion中的應用，進行點擊預測和即席查詢等

淘寶技術團隊使用了Spark來解決多次迭代的機器學習算法、高計算復雜度的算法等。應用于內(nèi)容推薦、社區(qū)發(fā)現(xiàn)等。

騰訊大數(shù)據(jù)精準推薦借助Spark快速迭代的優(yōu)勢，實現(xiàn)了在“數(shù)據(jù)實時采集、算法實時訓練、系統(tǒng)實時預測”的全流程實時并行高維算法，最終成功應用于廣點通pCTR投放系統(tǒng)上。優(yōu)酷土豆將Spark應用于視頻推薦(圖計算)、廣告業(yè)務，主要實現(xiàn)機器學習、圖計算等迭代計算。

Q：在其他機器上部署了HDFS、HBase、Spark，請問怎么在本地調(diào)試Java Spark來操作遠程的HBase，就像操作遠程數(shù)據(jù)庫一樣？

A：1. HBase是一個數(shù)據(jù)庫(分布式)，有自己的JDBC，可以根據(jù)HBase的JDBC開發(fā)自己應用，只要能連接上，本地遠程都可以。

2. Spark集群部署好了，寫好Spark作業(yè)提交給Spark集群，Spark cluster計算完成后，可以參看結(jié)果。

3. Spark相關的rest server是livy，然而并不是很好用有一定的版本和環(huán)境要求，很多開發(fā)者會選擇避開這個坑，所以你會看到網(wǎng)上的大部分博客。

4. 推薦Linux環(huán)境下開發(fā)，少爬很多坑，Windows不適合大數(shù)據(jù)相關的開發(fā)。

Q：Spark的計算方法是什么？

A：Bagel: Pregel on Spark，可以用Spark進行圖計算，這是個非常有用的小項目。Bagel自帶了一個例子，實現(xiàn)了Google的PageRank算法。

當下Spark已不止步于實時計算，目標直指通用大數(shù)據(jù)處理平臺，而終止Shark，開啟SparkSQL或許已經(jīng)初見端倪。

近幾年來，大數(shù)據(jù)機器學習和數(shù)據(jù)挖掘的并行化算法研究成為大數(shù)據(jù)領域一個較為重要的研究熱點。早幾年國內(nèi)外研究者和業(yè)界比較關注的是在 Hadoop 平臺上的并行化算法設計。然而， HadoopMapReduce 平臺由于網(wǎng)絡和磁盤讀寫開銷大，難以高效地實現(xiàn)需要大量迭代計算的機器學習并行化算法。

隨著 UC Berkeley AMPLab 推出的新一代大數(shù)據(jù)平臺 Spark 系統(tǒng)的出現(xiàn)和逐步發(fā)展成熟，近年來國內(nèi)外開始關注在 Spark 平臺上如何實現(xiàn)各種機器學習和數(shù)據(jù)挖掘并行化算法設計。為了方便一般應用領域的數(shù)據(jù)分析人員使用所熟悉的 R 語言在 Spark 平臺上完成數(shù)據(jù)分析，Spark 提供了一個稱為 SparkR 的編程接口，使得一般應用領域的數(shù)據(jù)分析人員可以在 R 語言的環(huán)境里方便地使用 Spark 的并行化編程接口和強大計算能力。

小伙伴們沖鴨，后臺留言區(qū)等著你！

關于Spark，今天你學到了什么？還有哪些不懂的？除此還對哪些話題感興趣？快來留言區(qū)打卡啦！留言方式：打開第XX天，答：……

同時歡迎大家搜集更多問題，投稿給我們！風里雨里留言區(qū)里等你~

福利

掃描添加小編微信，備注“姓名+公司職位”，加入【云計算學習交流群】，和志同道合的朋友們共同打卡學習！

推薦閱讀：

Elastic Jeff Yoshimura：開源正在開啟新一輪的創(chuàng)新 | 人物志
深入淺出Docker 鏡像 | 技術頭條
19歲當老板, 20歲ICO失敗, 21歲將項目掛到了eBay, 為何初創(chuàng)公司如此艱難?
碼二代的出路是什么？
機器學習萌新必備的三種優(yōu)化算法 | 選型指南
小程序的侵權(quán)“生死局”
@996 程序員，ICU 你真的去不起！

真香，朕在看了！

總結(jié)

以上是生活随笔為你收集整理的Spark精华问答 | Spark的计算方法是什么？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：嘉必优是国企吗
下一篇： Boost：align对齐的测试程序

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Spark精华问答 | Spark的计算方法是什么？

戳藍字“CSDN云計算”關注我們哦！

Elastic Jeff Yoshimura：開源正在開啟新一輪的創(chuàng)新 | 人物志

深入淺出Docker 鏡像 | 技術頭條

19歲當老板, 20歲ICO失敗, 21歲將項目掛到了eBay, 為何初創(chuàng)公司如此艱難?

碼二代的出路是什么？

機器學習萌新必備的三種優(yōu)化算法 | 選型指南

小程序的侵權(quán)“生死局”

@996 程序員，ICU 你真的去不起！

總結(jié)