日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

解读Cardinality Estimation算法(第二部分:Linear Counting)

發布時間:2025/3/20 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 解读Cardinality Estimation算法(第二部分:Linear Counting) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在上一篇文章中,我們知道傳統的精確基數計數算法在數據量大時會存在一定瓶頸,瓶頸主要來自于數據結構合并和內存使用兩個方面。因此出現了很多基數估計的概率算法,這些算法雖然計算出的結果不是精確的,但誤差可控,重要的是這些算法所使用的數據結構易于合并,同時比傳統方法大大節省內存。

在這一篇文章中,我們討論Linear Counting算法。

簡介

Linear Counting(以下簡稱LC)在1990年的一篇論文“A linear-time probabilistic counting algorithm for database applications”中被提出。作為一個早期的基數估計算法,LC在空間復雜度方面并不算優秀,實際上LC的空間復雜度與上文中簡單bitmap方法是一樣的(但是有個常數項級別的降低),都是O(Nmax)O(Nmax),因此目前很少單獨使用LC。不過作為Adaptive Counting等算法的基礎,研究一下LC還是比較有價值的。

基本算法

思路

LC的基本思路是:設有一哈希函數H,其哈希結果空間有m個值(最小值0,最大值m-1),并且哈希結果服從均勻分布。使用一個長度為m的bitmap,每個bit為一個桶,均初始化為0,設一個集合的基數為n,此集合所有元素通過H哈希到bitmap中,如果某一個元素被哈希到第k個比特并且第k個比特為0,則將其置為1。當集合所有元素哈希完成后,設bitmap中還有u個bit為0。則:

推導及證明

(對數學推導不感興趣的讀者可以跳過本節)

顯然每個桶的值服從參數相同0-1分布,因此u服從二項分布。由概率論知識可知,當n很大時,可以用正態分布逼近二項分布,因此可以認為當n和m趨于無窮大時u漸進服從正態分布。

因此u的概率密度函數為:

由于我們觀察到的空桶數u是從正態分布中隨機抽取的一個樣本,因此它就是μ的最大似然估計(正態分布的期望的最大似然估計是樣本均值)。
又由如下定理:

偏差分析

下面不加證明給出如下結論:

以上結論的推導在“A linear-time probabilistic counting algorithm for database applications”可以找到。

算法應用

在應用LC算法時,主要需要考慮的是bitmap長度m的選擇。這個選擇主要受兩個因素的影響:基數n的量級以及容許的誤差。這里假設估計基數n的量級大約為N,允許的誤差為??,則m的選擇需要遵循如下約束。

誤差控制

這里以標準差作為誤差。由上面標準差公式可以推出,當基數的量級為N,容許誤差為??時,有如下限制:

將量級和容許誤差帶入上式,就可以得出m的最小值。

滿桶控制

  • 由LC的描述可以看到,如果m比n小太多,則很有可能所有桶都被哈希到了,此時u的值為0,LC的估計公式就不起作用了(變成無窮大)。因此m的選擇除了要滿足上面誤差控制的需求外,還要保證滿桶的概率非常小。

  • 上面已經說過,u滿足二項分布,而當n非常大,p非常小時,可以用泊松分布近似逼近二項分布。因此這里我們可以認為u服從泊松分布(注意,上面我們說u也可以近似服從正態分布,這并不矛盾,實際上泊松分布和正態分布分別是二項分布的離散型和連續型概率逼近,且泊松分布以正態分布為極限):

下圖是論文作者預先計算出的關于不同基數量級和誤差情況下,m的選擇表:

可以看出精度要求越高,則bitmap的長度越大。隨著m和n的增大,m大約為n的十分之一。因此LC所需要的空間只有傳統的bitmap直接映射方法的1/10,但是從漸進復雜性的角度看,空間復雜度仍為O(Nmax)O(Nmax)。

合并

LC非常方便于合并,合并方案與傳統bitmap映射方法無異,都是通過按位或的方式。

小結

這篇文章主要介紹了Linear Counting。LC算法雖然由于空間復雜度不夠理想已經很少被單獨使用,但是由于其在元素數量較少時表現非常優秀,因此常被用于彌補LogLog Counting在元素較少時誤差較大的缺陷,實際上LC及其思想是組成HyperLogLog Counting和Adaptive Counting的一部分。
在下一篇文章中,我會介紹空間復雜度僅有O(log2(log2(Nmax)))O(log2(log2(Nmax)))的基數估計算法LogLog Counting。

總結

以上是生活随笔為你收集整理的解读Cardinality Estimation算法(第二部分:Linear Counting)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 久久久久久久香蕉 | 国语对白自拍 | 手机在线看片国产 | 国产精品国产精品国产 | 国产91热爆ts人妖系列 | 三上悠亚亚洲一区 | 黄色在线免费看 | 日韩免费视频一区二区视频在线观看 | 国产3p在线播放 | 99久久人妻无码精品系列 | xxxxx国产 | 国产午夜一区二区三区 | 一区二区三区四区在线视频 | 性色av蜜臀av | 亚洲自拍小视频 | 黄色片视频播放 | 国产精品网站入口 | 免费aa视频 | 福利91 | 国产一区二区三区乱码 | 色女人网 | 久久久精品日本 | 亚洲精品一区二区在线 | 小说肉肉视频 | 777黄色 | 两个小y头稚嫩紧窄h文 | 日韩乱码在线观看 | 国产精品va在线观看无码 | 香蕉久久网 | 久久久影视 | 精品一区二区三区在线播放 | 欧美又粗又大xxxxbbbb疯狂 | 亚洲精品国产精品乱码桃花 | 精品91在线 | 欧美老女人性生活视频 | 亚洲综合在线中文字幕 | 黄色最新网址 | 五月天激情社区 | 五月天超碰 | 免播放器在线视频 | 国产精品国产三级国产专区53 | 成人做爰69片免费 | 海量av | 97国产视频 | 黄色一级片黄色一级片 | 插插宗合网 | 一级美女黄色片 | 国产午夜视频在线观看 | 五月婷激情 | 天堂av电影在线观看 | 日韩在线观看精品 | 九九免费视频 | 一区二区在线免费视频 | 牛牛av在线 | 波多野结衣三级视频 | 久久大胆视频 | 久久精品免费播放 | 97超级碰碰碰 | 国产精品久久久久久亚洲毛片 | 成人在线网址 | av一道本 | 无码日本精品xxxxxxxxx | 日韩精品久久久久久久的张开腿让 | 超碰123 | 在线免费观看视频 | 在线se| 国产99久久久久久免费看 | 成人免费视频免费观看 | 天堂va欧美ⅴa亚洲va一国产 | 国产精品久久视频 | 欧美91成人网 | 亚洲日本国产精品 | 国产区欧美区日韩区 | 精品少妇一区二区三区免费观看 | 欧美成人h | 97久久国产亚洲精品超碰热 | 一级坐爱片| 欧美专区 日韩专区 | www.日本在线视频 | 亚洲精品久久久蜜桃 | 伊人网址 | 午夜天堂在线 | aaa一级片| 久久影视一区 | 亚洲免费一 | 潮喷失禁大喷水aⅴ无码 | 欧美乱轮 | 国产精品一国产精品 | 日本3p视频| 成年人毛片视频 | 免费看黄色的网址 | 成人免费视频网 | 好好热视频 | 国产手机视频在线 | 奇米影视7777 | 成人乱人乱一区二区三区 | 日本黄色片. | 捆绑无遮挡打光屁股调教女仆 | 亚洲精品在线中文字幕 |