當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark Streaming揭秘 Day16 数据清理机制

發布時間：2023/12/15 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 Spark Streaming揭秘 Day16 数据清理机制小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天主要來講下Spark的數據清理機制，我們都知道，Spark是運行在jvm上的，雖然jvm本身就有對象的自動回收工作，但是，如果自己不進行管理的，由于運行過程中大量產生對象，內存很快就會耗盡。我們可以認為數據清理就是SparkStreaming自己的"GC"。

RDD是在DStream中產生的，RDD的操作也是在DStream中進行的，所以DStream會負責RDD數據的生命周期。

在DStream中，數據保存一般會有三個部分

首先，前面也反復提到，在DStream中，數據會按照Batch Duration保存在generatedRDDs，也會按照Batch Duration來進行刪除

其次，如果執行了cache操作，還會產生persist的數據

最后，在Driver上也會有元數據的保存，釋放RDD時，也要考慮。

從上面的描述，我們可以知道數據是按照Batch Duration產生，所以也會按照Batch Duration來進行清理，那么研究數據清理機制，就可以從定期器著手。

在定時器的回調方法中，我們可以很明顯的看到數據清理的核心方法ClearMetadata

這個方法，最終會調用DStream上的clearMetadata方法。
我們可以看到，這個方法主要進行三方面清理：
1.將數據從generatedRDDs中移除。
2.先清理cache，再清理block，block清理是調用了spark core的功能。
3.對依賴的DStream也會進行清理。

需要注意的是，在這個方法中，允許自定義rememberDuration，這個參數可以設置為Duration的整數倍，可以支持跨Batch清理。

最后一個問題，清理是被什么時候觸發的？

首先，在JobHandler運行結束時，最后會觸發JobCompleted事件。

其中，會調用onBatchCompletion操作。

最終，會執行上述提到的ClearMetadata方法。

至此，我們了解了數據清理的主要流程和邏輯。

DT大數據每天晚上20：00YY頻道現場授課頻道68917580

轉載于:https://www.cnblogs.com/dt-zhw/p/5536482.html

以上是生活随笔為你收集整理的Spark Streaming揭秘 Day16 数据清理机制的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。