日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark Streaming揭秘 Day16 数据清理机制

發布時間:2023/12/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark Streaming揭秘 Day16 数据清理机制 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Spark Streaming揭秘 Day16

數據清理機制

今天主要來講下Spark的數據清理機制,我們都知道,Spark是運行在jvm上的,雖然jvm本身就有對象的自動回收工作,但是,如果自己不進行管理的,由于運行過程中大量產生對象,內存很快就會耗盡。我們可以認為數據清理就是SparkStreaming自己的"GC"。

從DStream開始

RDD是在DStream中產生的,RDD的操作也是在DStream中進行的,所以DStream會負責RDD數據的生命周期。

在DStream中,數據保存一般會有三個部分

首先,前面也反復提到,在DStream中,數據會按照Batch Duration保存在generatedRDDs,也會按照Batch Duration來進行刪除

其次,如果執行了cache操作,還會產生persist的數據

最后,在Driver上也會有元數據的保存,釋放RDD時,也要考慮。

JobGenerator

從上面的描述,我們可以知道數據是按照Batch Duration產生,所以也會按照Batch Duration來進行清理,那么研究數據清理機制,就可以從定期器著手。

在定時器的回調方法中,我們可以很明顯的看到數據清理的核心方法ClearMetadata

這個方法,最終會調用DStream上的clearMetadata方法。
我們可以看到,這個方法主要進行三方面清理:
1.將數據從generatedRDDs中移除。
2.先清理cache,再清理block,block清理是調用了spark core的功能。
3.對依賴的DStream也會進行清理。

需要注意的是,在這個方法中,允許自定義rememberDuration,這個參數可以設置為Duration的整數倍,可以支持跨Batch清理。

JobScheduler

最后一個問題,清理是被什么時候觸發的?

首先,在JobHandler運行結束時,最后會觸發JobCompleted事件。

其中,會調用onBatchCompletion操作。

最終,會執行上述提到的ClearMetadata方法。

至此,我們了解了數據清理的主要流程和邏輯。

欲知后事如何,且聽下回分解

DT大數據每天晚上20:00YY頻道現場授課頻道68917580

轉載于:https://www.cnblogs.com/dt-zhw/p/5536482.html

總結

以上是生活随笔為你收集整理的Spark Streaming揭秘 Day16 数据清理机制的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。