第一章 Spark系统概述
生活随笔
收集整理的這篇文章主要介紹了
第一章 Spark系统概述
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
第一章 Spark系統概述
目錄
注:學習《Spark大數據處理技術》筆記
1. 大數據處理框架
1. 集群環境對于編程的挑戰
2. 由此產生了大數據編程框架
許多專有系統在解決同樣的問題,比如分布式作業以及容錯,這些問題在每個專有系統中會被重復被解決
在不同的系統之間進行組合計算是一件費力不討好的事情
如果一個應用不適合一個專有的計算系統,那么只能換一個系統,或者重新寫一個計算系統
在不同的計算引擎之間進行資源的動態共享是比較困難的
對于多個專有系統,需要花費更多的精力和時間來管理和部署
2. Spark大數據處理框架
1. Spark的由來
2. RDD的表達能力
可以用于圖處理和機器學習
MapReduce由于容錯模型導致速度很慢,RDD通過實現很多通用的數據庫引擎特性,可以獲得非常好的性能
RDD提供的接口是MapReduce的超集,所以RDD可以有效運行利用MapReduce實現的應用程序
D-Stream(離散數據流)將流式計算當做一系列的短小而確定的批處理操作,將兩個離散流之間的狀態保存在RDD中。離散型模型能夠運行通過RDD的繼承關系圖進行并行性的恢復而不需要進行數據拷貝
3. Spark子系統
十分鐘到半小時
十秒到數分鐘
數百毫秒到數秒
基于RDD提供了豐富的操作接口,利用DAG進行統一的任務規劃,使得Spark能夠更加靈活處理類似MapReduce的批處理作業
兼容Hive的接口HQL,提供了比Hive高出10~100倍的查詢速度的分布式SQL引擎
將流式計算分解成一系列短小的批處理作業,利用Spark輕量級和低延時的調度框架,可以很好的支持流式處理
基于Spark的圖計算框架,兼容Pregel和GraphLab接口,增強了圖構建以及圖轉換功能
Spark Core天然地非常適合迭代式計算,MLlib就是構建在Spark上的機器學習算法庫。
Spark生態系統兼容Hadoop生態系統
Spark生態系統學習成本很低
要實現一個相對完整的端到端解決方案,以前需要部署維護多個專有系統,現在只需要一個Spark系統
Spark性能表現優異
由于Spark利用DAG進行調度執行規劃,所以在多任務計算以及迭代計算中能夠大量減少磁盤I/O的時間。另外,對于每一項任務啟動一個線程,而不是進程,大大縮短了任務啟動時間
Spark有強大的社區支持
Spark支持多種語言編程接口
Spark生態本身使用Scala語言編寫的,但考慮到其流行性,因此Spark從一開始就支持Java和Python接口。
總結
以上是生活随笔為你收集整理的第一章 Spark系统概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeetCode——数学
- 下一篇: u盘驱动器升级-(u盘驱动器升级怎么升级