日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark学习之概念了解

發布時間:2025/3/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark学习之概念了解 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Spark簡介:

Spark是一個快速且通用的集群計算模型:

1、Spark是快速的:
快速是指處理幾T到幾批數據量的時候,他的處理時間是幾秒鐘或幾分鐘,相對于hadoop的幾分鐘到幾小時是非??焖俚?#xff0c;
通用是指Spark的應用場景比較多
Spark擴展了MapReduce的計算模型
Spark是基于內存計算的
當我們在處理一個大批量數據的時候,難免呢會產生一些中間的數據結果,怎么處理呢
第一種:放在硬盤中,硬盤會帶來額外的寫入寫出的消耗
第二種:直接存放到內存中,放到內存中肯定比放到硬盤中要快一些。所以Spark的速度是很快的
舉例(瑞士軍刀,大刀,小刀等等)
Spark特點
2、Spark是通用的:
Spark容納了其他的分布式系統擁有的功能,批處理(hadoop),迭代式處理(機器學習系統),交互式查詢(hive查詢)和流處理(storm)
當我們搭建一個Spark集群時,就相當于搭建了這么多的功能
優點:大大的降低了集群的維護成本,因為在生產環境中,集群的維護是相當耗時
Spark是高度開放的 :
提供了python java Scala sql的API,
與其他的大數據工具整合的很好,包括Hadoop,kafka等

Spark組件

spark core:

包括spark基本功能,包括任務調度,內存管理,容錯機制
內部定義了RDDs(彈性分布式數據集),
提供多個APIs來創建和操作這些RDDs
應用場景,為其他組件提供底層服務

spark sql:

spark處理結構化數據的庫,類似Hive SQL,MySql,
應用場景,主要為企業提供報表統計

spark streaming:

實時數據流處理組件,類似Storm,提供API操作實時流數據,
應用場景,企業中用來從Kafka中接收數據做實時統計

Mlib:

包含通用機器學習功能的包,包括聚類,回歸,模型評估和數據導入。同時支持集群平臺上的橫向擴展
之前做機器學習都是Python比較多一點,Python的最大缺點是在單機上的,處理的數據量是有限的
而Mlib呢,是集群的,他的應用場景就是機器學習

Graphx:

處理圖的庫(例如社交網絡的圖),并進行圖的并行計算
像spark steaming,spark sql一樣,他也繼承了RDD API
他提供了各種圖的操作,和常用的圖的算法,例如PangeRank算法
應用場景:就是圖計算

Cluster Manager:

spark自帶的集群管理

Spark緊密集成的優點:

spark底層優化,基于spark底層的組件也得到相應的優化,
緊密集成節省了組件的部署,測試時間
向spark增加新的組件時,其他組件,可立刻享用新組件的功能

Hadoop&Spark比較

Hadoop應用場景:

離線處理,時效性要求不高的場景:Hadoop中間數據落到硬盤上,導致Hadoop處理大數據時,時效性不高,時間在幾分鐘到幾小時不等,但數據可以存儲。
Spark應用場景:
時效性要求高的場景和機器學習:Spark基于內存,中間數據多在內存中,數據處理塊,但Spark不具備hdfs存儲功能,需借助hdfs

Doug Cutting 的觀點:

spark這是個生態系統,每個組件都有其作用,各姍其職即可,
Spark不具有HDFS的存儲能力,要借助HDFS等持久數據
大數據將會孕育出更多的新技術

?

轉載于:https://www.cnblogs.com/longronglang/p/8453202.html

總結

以上是生活随笔為你收集整理的Spark学习之概念了解的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。