當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark（1）——spark基本原理与启动

發(fā)布時間：2024/4/18 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark（1）——spark基本原理与启动小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

spark在離線計算方面可以類比于mapreduce，它完美的運用內(nèi)存來進行計算，效率比mapreduce要高得多。
在spark這個大框架下，spark-core和sparksql都是處理離線數(shù)據(jù)的，但是明顯要比mapreduce要快得多。而sparkstreaming是一個準實時（不是立刻處理，而是有一個batch，間隔一段時間后再獲取數(shù)據(jù)）的對數(shù)據(jù)流處理框架，僅僅比storm和flink這樣來一條就立刻處理一條的框架慢一些。
RDD（彈性分布式數(shù)據(jù)集）
spark中操作的數(shù)據(jù)最終都會轉(zhuǎn)成對RDD的操作，RDD會在多個節(jié)點上進行保存，RDD也像HDFS那樣，會切分成幾個partition，就像hdfs里的數(shù)據(jù)被切分成block那樣。
ps：RDD是不可變的，如果要對RDD進行修改，RDD會保存出一個新的RDD，而不會在原來的RDD上直接進行修改，這樣在新的RDD丟失時，可以回退到上一個RDD重新進行數(shù)據(jù)處理。
在啟動之前，一定要開啟hdfs服務(wù)和yarn服務(wù)，啟動Spark，先加入到環(huán)境變量中，隨后輸入pyspark即可啟動：

總結(jié)

以上是生活随笔為你收集整理的Spark（1）——spark基本原理与启动的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Hbase（5）——python用hap
下一篇： Spark（2）——小用RDD