Spark Streaming揭秘 Day16 数据清理机制
Spark Streaming揭秘 Day16
數據清理機制
今天主要來講下Spark的數據清理機制,我們都知道,Spark是運行在jvm上的,雖然jvm本身就有對象的自動回收工作,但是,如果自己不進行管理的,由于運行過程中大量產生對象,內存很快就會耗盡。我們可以認為數據清理就是SparkStreaming自己的"GC"。
從DStream開始
RDD是在DStream中產生的,RDD的操作也是在DStream中進行的,所以DStream會負責RDD數據的生命周期。
在DStream中,數據保存一般會有三個部分
首先,前面也反復提到,在DStream中,數據會按照Batch Duration保存在generatedRDDs,也會按照Batch Duration來進行刪除
其次,如果執行了cache操作,還會產生persist的數據
最后,在Driver上也會有元數據的保存,釋放RDD時,也要考慮。
JobGenerator
從上面的描述,我們可以知道數據是按照Batch Duration產生,所以也會按照Batch Duration來進行清理,那么研究數據清理機制,就可以從定期器著手。
在定時器的回調方法中,我們可以很明顯的看到數據清理的核心方法ClearMetadata
這個方法,最終會調用DStream上的clearMetadata方法。
我們可以看到,這個方法主要進行三方面清理:
1.將數據從generatedRDDs中移除。
2.先清理cache,再清理block,block清理是調用了spark core的功能。
3.對依賴的DStream也會進行清理。
需要注意的是,在這個方法中,允許自定義rememberDuration,這個參數可以設置為Duration的整數倍,可以支持跨Batch清理。
JobScheduler
最后一個問題,清理是被什么時候觸發的?
首先,在JobHandler運行結束時,最后會觸發JobCompleted事件。
其中,會調用onBatchCompletion操作。
最終,會執行上述提到的ClearMetadata方法。
至此,我們了解了數據清理的主要流程和邏輯。
欲知后事如何,且聽下回分解
DT大數據每天晚上20:00YY頻道現場授課頻道68917580
轉載于:https://www.cnblogs.com/dt-zhw/p/5536482.html
總結
以上是生活随笔為你收集整理的Spark Streaming揭秘 Day16 数据清理机制的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IM消息系统的设计和实现是怎样的
- 下一篇: Jquery加载默认值