當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

漫游Kafka之过期数据清理

發(fā)布時間：2025/1/21 编程问答 107 豆豆

生活随笔收集整理的這篇文章主要介紹了漫游Kafka之过期数据清理小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2019獨角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>

Kafka將數(shù)據(jù)持久化到了硬盤上，允許你配置一定的策略對數(shù)據(jù)清理，清理的策略有兩個，刪除和壓縮。

數(shù)據(jù)清理的方式

刪除

log.cleanup.policy=delete啟用刪除策略
直接刪除，刪除后的消息不可恢復(fù)。可配置以下兩個策略：
清理超過指定時間清理： ?
log.retention.hours=16
超過指定大小后，刪除舊的消息：
log.retention.bytes=1073741824
為了避免在刪除時阻塞讀操作，采用了copy-on-write形式的實現(xiàn)，刪除操作進(jìn)行時，讀取操作的二分查找功能實際是在一個靜態(tài)的快照副本上進(jìn)行的，這類似于Java的CopyOnWriteArrayList。

壓縮

將數(shù)據(jù)壓縮，只保留每個key最后一個版本的數(shù)據(jù)。
首先在broker的配置中設(shè)置log.cleaner.enable=true啟用cleaner，這個默認(rèn)是關(guān)閉的。
在topic的配置中設(shè)置log.cleanup.policy=compact啟用壓縮策略。

壓縮策略的細(xì)節(jié)

如上圖，在整個數(shù)據(jù)流中，每個Key都有可能出現(xiàn)多次，壓縮時將根據(jù)Key將消息聚合，只保留最后一次出現(xiàn)時的數(shù)據(jù)。這樣，無論什么時候消費消息，都能拿到每個Key的最新版本的數(shù)據(jù)。
壓縮后的offset可能是不連續(xù)的，比如上圖中沒有5和7，因為這些offset的消息被merge了，當(dāng)從這些offset消費消息時，將會拿到比這個offset大的offset對應(yīng)的消息，比如，當(dāng)試圖獲取offset為5的消息時，實際上會拿到offset為6的消息，并從這個位置開始消費。
這種策略只適合特俗場景，比如消息的key是用戶ID，消息體是用戶的資料，通過這種壓縮策略，整個消息集里就保存了所有用戶最新的資料。
壓縮策略支持刪除，當(dāng)某個Key的最新版本的消息沒有內(nèi)容時，這個Key將被刪除，這也符合以上邏輯。

轉(zhuǎn)載于:https://my.oschina.net/sniperLi/blog/807130

總結(jié)

以上是生活随笔為你收集整理的漫游Kafka之过期数据清理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。