spark2
特點(diǎn)
通用 批處理 迭代式計(jì)算 交互查詢 流處理
組件
spark core:任務(wù)調(diào)度 內(nèi)存管理 容錯(cuò)機(jī)制 內(nèi)部定義了RDDs? 提供了很多API ,為其他組件提供底層的服務(wù)
spark sql:報(bào)表統(tǒng)計(jì)
streaming :從kafka接收數(shù)據(jù)做實(shí)時(shí)統(tǒng)計(jì)
mlib:mll 支持橫向擴(kuò)展,機(jī)器學(xué)習(xí)
graphx:處理圖 圖計(jì)算 如社交網(wǎng)絡(luò)圖
cluster managers:集群管理
緊密集成優(yōu)點(diǎn)
節(jié)省組件組合時(shí)的部署測(cè)試時(shí)間
與hadoop比較
時(shí)效性高(基于內(nèi)存) 機(jī)器學(xué)習(xí)等領(lǐng)域
RDD
分布式數(shù)據(jù)集。不可變、可分區(qū)、可并行計(jì)算
允許用戶在執(zhí)行多個(gè)查詢時(shí)顯式將工作集緩存在內(nèi)存中
后續(xù)查詢能重用工作集
RDD屬性
分片partition
?
轉(zhuǎn)載于:https://www.cnblogs.com/NeverGiveUp0/p/11112659.html
總結(jié)
- 上一篇: 利用js实现 禁用浏览器后退
- 下一篇: 第十届机器学习及其应用研讨会 MLA’2