當前位置:
首頁 >
spark2
發(fā)布時間:2025/3/15
25
豆豆
特點
通用 批處理 迭代式計算 交互查詢 流處理
組件
spark core:任務調度 內存管理 容錯機制 內部定義了RDDs? 提供了很多API ,為其他組件提供底層的服務
spark sql:報表統(tǒng)計
streaming :從kafka接收數(shù)據(jù)做實時統(tǒng)計
mlib:mll 支持橫向擴展,機器學習
graphx:處理圖 圖計算 如社交網(wǎng)絡圖
cluster managers:集群管理
緊密集成優(yōu)點
節(jié)省組件組合時的部署測試時間
與hadoop比較
時效性高(基于內存) 機器學習等領域
RDD
分布式數(shù)據(jù)集。不可變、可分區(qū)、可并行計算
允許用戶在執(zhí)行多個查詢時顯式將工作集緩存在內存中
后續(xù)查詢能重用工作集
RDD屬性
分片partition
?
轉載于:https://www.cnblogs.com/NeverGiveUp0/p/11112659.html
總結
- 上一篇: 利用js实现 禁用浏览器后退
- 下一篇: 第十届机器学习及其应用研讨会 MLA’2