當前位置：首頁 > 运维知识 > 数据库 >内容正文

数据库

Redis 基数统计：HyperLogLog 小内存大用处

發(fā)布時間：2025/4/5 数据库 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 Redis 基数统计：HyperLogLog 小内存大用处小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

https://blog.csdn.net/azhegps/article/details/71158952

我們一直都知道，redis幾大常用數據結構，字符串、散列、列表、集合、有序集合。其實后來Redis做了很多補充，其中之一就是HyperLogLog，另外的還有GEO（地理位置），是3.2版本加的。

這里我們就來簡單介紹下HyperLogLog結構。

先說用處：這個結構可以非常省內存的去統(tǒng)計各種計數，比如注冊ip數、每日訪問IP數、頁面實時UV（PV肯定字符串就搞定了）、在線用戶數等。

這里看到所有的用處都是xxx數，所以這個數據結構的特點就是，可以比較準確的估算出你要統(tǒng)計的數量，但是卻無法知道統(tǒng)計的詳細內容。比如統(tǒng)計每日訪問IP數，可以獲取當時訪問過的IP總數量，但是沒法知道這些IP都是什么。

有得必有失，當然你要統(tǒng)計上面提到的那些內容，可以用集合來處理，這樣可以知道數量，也能獲得所有的詳細列表。但是一個大型的網站，每天IP比如有100萬個呢，我們粗算一個IP消耗15字節(jié)，那么100萬個IP就是15M，如果1千萬，就是150M。

再來看看我們的HyperLogLog，在Redis中每個鍵占用的內容都是12K，理論存儲近似接近2^64個值，不管存儲的內容是什么。12K，知道這個數據結構的作用了吧。這也是為什么他不能知道里面的詳細內容了。這是一個基于基數估算的算法，只能比較準確的估算出基數，可以使用少量固定的內存去存儲并識別集合中的唯一元素。而且這個估算的基數并不一定準確，是一個帶有 0.81% 標準錯誤（standard error）的近似值。

HyperLogLog結構，在范圍允許的情況下無論多少值，都只會占用12K內存。

這樣比如我們把每日IP記錄下來，假設每天有一億個IP訪問，如果使用集合的話，一天的內存使用就是1.5G，假設我們存儲一個月的記錄，就需要45G容量。但是使用HyperLogLog的話，一天12K，一個月360K。如果我們不需要知道IP具體信息的話，完全可以把這些記錄留在內存一年、或者不刪都行。如果需要，我們也會把所有的IP訪問記錄通過其他途徑存儲起來。把每天的信息存儲起來，我們可以計算每月IP總數（MERGE），一年的IP總數等（去重）。

下面介紹一下HyperLogLog的命令，其實他和集合的命令比較像，只是命令少，不能獲取列表而已。另外這個數據結構需要2.8.9及以上的版本才能使用哦~

PFADD

在執(zhí)行這個命令之后，HyperLogLog內部的結構會被更新，并有所反饋，如果執(zhí)行完之后HyperLogLog內部的基數估算發(fā)生了變化，那么就會返回1，否則（認為已經存在）就返回0。
這個命令還有一個比較神器的就是可以只有鍵，沒有值，這樣的意思就是只是創(chuàng)建空的鍵，不放值。
如果這個鍵存在，不做任何事情，返回0；不存在的話就創(chuàng)建，并返回1。

這個命令的時間復雜度為O(1)，所以就放心用吧~

命令例子：

redis> PFADD ip:20160929 "1.1.1.1" "2.2.2.2" "3.3.3.3" (integer) 1 redis> PFADD ip:20160929 "2.2.2.2" "4.4.4.4" "5.5.5.5" # 存在就只加新的 (integer) 1 redis> PFCOUNT ip:20160929 # 元素估計數量沒有變化 (integer) 5 redis> PFADD ip:20160929 "2.2.2.2" # 存在就不會增加 (integer) 0

其實我們發(fā)現(xiàn)在少的時候還是挺準的，哈哈。

PFCOUNT

其實在上面的學習中我們已經用過這個了，這里再來介紹下。

當命令作用于單個鍵的時候，返回這個鍵的基數估算值。如果鍵不存在，則返回0。
當作用于多個鍵的時候，返回這些鍵的并集估算值。類似于把這些鍵都合并了之后，在調用這個命令輸出。

這個命令在作用于單個值的時候，時間復雜度為O(1)，并且具有非常低的平均常數時間；在作用于N個值的時候，時間復雜度為O(N)，這個命令的常數復雜度會比較低些。

命令例子：

redis> PFADD ip:20160929 "1.1.1.1" "2.2.2.2" "3.3.3.3" (integer) 1 redis> PFCOUNT ip:20160929 (integer) 3 redis> PFADD ip:20160928 "1.1.1.1" "4.4.4.4" "5.5.5.5" (integer) 1 redis> PFCOUNT ip:20160928 ip:20160929 (integer) 5

PFMERGE

合并（merge）多個HyperLogLog為一個HyperLogLog。其實這個也很好理解，而合并后的估算基數也近似于所有HyperLogLog估算基數的并集。

這個命令的第一個參數為目標鍵，剩下的參數為要合并的HyperLogLog。命令執(zhí)行時，如果目標鍵不存在，則創(chuàng)建后再執(zhí)行合并。

這個命令的時間復雜度為O(N)，其中N為要合并的HyperLogLog的個數。不過這個命令的常數時間復雜度比較高。

命令例子：

redis> PFADD ip:20160929 "1.1.1.1" "2.2.2.2" "3.3.3.3" (integer) 1 redis> PFADD ip:20160928 "1.1.1.1" "4.4.4.4" "5.5.5.5" (integer) 1 redis> PFMERGE ip:201609 ip:20160928 ip:20160929 OK redis> PFCOUNT ip:201609 (integer) 5

轉載于:https://www.cnblogs.com/davidwang456/articles/9314699.html

總結

以上是生活随笔為你收集整理的Redis 基数统计：HyperLogLog 小内存大用处的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Redis BitMap适应场景
下一篇： Redis数据库的应用场景介绍

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

数据库

Redis 基数统计：HyperLogLog 小内存大用处

PFADD

PFCOUNT

PFMERGE

總結