日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > java >内容正文

java

抛硬币仿真实验java_探索HyperLogLog算法(含Java实现)

發(fā)布時間:2023/12/29 java 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 抛硬币仿真实验java_探索HyperLogLog算法(含Java实现) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

引言

HyperLogLog算法經(jīng)常在數(shù)據(jù)庫中被用來統(tǒng)計某一字段的Distinct Value(下文簡稱DV),比如Redis的HyperLogLog結(jié)構(gòu),出于好奇探索了一下這個算法的原理,無奈中文資料很少,只能直接去閱讀論文以及一些英文資料,總結(jié)成此文。

介紹

HyperLogLog算法來源于論文《HyperLogLog the analysis of a near-optimal cardinality estimation algorithm》(下載地址見文末的參考文獻(xiàn)),可以使用固定大小的字節(jié)計算任意大小的DV,本文先介紹該算法的原理,然后通過剖析stream-lib(一個Java實現(xiàn)的實時計算庫)對此算法的實現(xiàn)來進(jìn)一步理解該算法。本文追求直觀理解,所以不會太過于糾結(jié)一些數(shù)學(xué)細(xì)節(jié),如果關(guān)心數(shù)學(xué)細(xì)節(jié)的話可以直接去看論文,論文里會有具體的證明。

基數(shù)

基數(shù)就是指一個集合中不同值的數(shù)目,比如[a,b,c,d]的基數(shù)就是4,[a,b,c,d,a]的基數(shù)還是4,因為a重復(fù)了一個,不算?;鶖?shù)也可以稱之為Distinct Value,簡稱DV。下文中可能有時候稱呼為基數(shù),有時候稱之為DV,但都是同一個意思。HyperLogLog算法就是用來計算基數(shù)的。

生活中的啟發(fā)-以拋硬幣為例

拋硬幣

HyperLogLog本質(zhì)上來源于生活中一個小的發(fā)現(xiàn),假設(shè)你拋了很多次硬幣,你告訴在這次拋硬幣的過程中最多只有兩次扔出連續(xù)的反面,讓我猜你總共拋了多少次硬幣,我敢打賭你拋硬幣的總次數(shù)不會太多,相反,如果你和我說最多出現(xiàn)了100次連續(xù)的反面,那么我敢肯定扔硬盤的總次數(shù)非常的多,甚至我還可以給出一個估計,這個估計要怎么給呢?其實是一個很簡單的概率問題,假設(shè)1代表拋出正面,0代表反面:

以序列1110100110為例

上圖中以拋硬幣序列"1110100110"為例,其中最長的反面序列是"00",我們順手把后面那個1也給帶上,也就是"001",因為它包括了序列中最長的一串0,所以在序列中肯定只出現(xiàn)過一次,而它在任意序列出現(xiàn)出現(xiàn)且僅出現(xiàn)一次的概率顯然是上圖所示的三個二分之一相乘,也就是八分之一,所以我可以給出一個估計值,你大概總共拋了8次硬幣。

很顯然,上面這種做法雖然能夠估計拋硬幣的總數(shù),但是顯然誤差是比較大的,很容易受到突發(fā)事件(比如突然連續(xù)拋出好多0)的影響,HyperLogLog算法研究的就是如何減小這個誤差。

之前說過,HyperLogLog算法是用來計算基數(shù)的,這個拋硬幣的序列和基數(shù)有什么關(guān)系呢?比如在數(shù)據(jù)庫中,我只要在每次插入一條新的記錄時,計算這條記錄的hash,并且轉(zhuǎn)換成二進(jìn)制,就可以將其看成一個硬幣序列了,如下(0b前綴表示二進(jìn)制數(shù)):

計算hash

最簡單的想法

根據(jù)上面拋硬幣的啟發(fā)我可以想到如下的估計基數(shù)的算法(這里先給出偽代碼,后面會有Java實現(xiàn)):

輸入:一個集合

輸出:集合的基數(shù)

算法:

max = 0

對于集合中的每個元素:

hashCode = hash(元素)

num = hashCode二進(jìn)制表示中最前面連續(xù)的0的數(shù)量

if num > max:

max = num

最后的結(jié)果是2的(max + 1)次冪

舉個例子,對于集合{ele1, ele2},先求hash(ele1)=0b00110111,它最前面的連續(xù)的0的數(shù)量為2(又稱為前導(dǎo)0),然后求hash(ele2)=0b10010000111,它的前導(dǎo)0數(shù)量為0,我們始終只保存前導(dǎo)零數(shù)量的最大值,所以最后max是2,我們估計的基數(shù)就是2的(2+1)次冪,即8。

為什么最后的max要加1呢?這是一個數(shù)學(xué)細(xì)節(jié),具體要看論文,簡單的理解的話,可以像之前拋硬幣的例子那樣理解,把最長的一串零的后面的一個1或者前面的一個1"順手"帶上進(jìn)行概率估計。

顯然這個算法是非常不準(zhǔn)確的,但是這個想法還是很有啟發(fā)性的,從這個簡單的想法跟隨下文一步一步優(yōu)化即可得到最終的比較高精度的HyperLogLog算法。

分桶

最簡單的一種優(yōu)化方法顯然就是把數(shù)據(jù)分成m個均等的部分,分別估計其總數(shù)求平均后再乘以m,稱之為分桶。對應(yīng)到前面拋硬幣的例子,其實就是把硬幣序列分成m個均等的部分,分別用之前提到的那個方法估計總數(shù)求平均后再乘以m,這樣就能一定程度上避免單一突發(fā)事件造成的誤差。

具體要怎么分桶呢?我們可以將每個元素的hash值的二進(jìn)制表示的前幾位用來指示數(shù)據(jù)屬于哪個桶,然后把剩下的部分再按照之前最簡單的想法處理。

還是以剛剛的那個集合{ele1,ele2}為例,假設(shè)我要分2個桶,那么我只要去ele1的hash值的第一位來確定其分桶即可,之后用剩下的部分進(jìn)行前導(dǎo)零的計算,如下圖:

假設(shè)ele1和ele2的hash值二進(jìn)制表示如下:

hash(ele1) = 00110111

hash(ele2) = 10010001

分桶算法

到這里,你大概已經(jīng)理解了LogLog算法的基本思想,LogLog算法是在HyperLogLog算法之前提出的一個基數(shù)估計算法,HyperLogLog算法其實就是LogLog算法的一個改進(jìn)版。

LogLog算法完整的基數(shù)計算公式如下:

LogLog算法

其中m代表分桶數(shù),R頭上一道橫杠的記號就代表每個桶的結(jié)果(其實就是桶中數(shù)據(jù)的最長前導(dǎo)零+1)的均值,相比我之前舉的簡單的例子,LogLog算法還乘了一個常數(shù)constant進(jìn)行修正,這個constant具體是多少等我講到Java實現(xiàn)的時候再說。

調(diào)和平均數(shù)

前面的LogLog算法中我們是使用的是平均數(shù)來將每個桶的結(jié)果匯總起來,但是平均數(shù)有一個廣為人知的缺點,就是容易受到大的數(shù)值的影響,一個常見的例子是,假如我的工資是1000元一個月,我老板的工資是100000元一個月,那么我和老板的平均工資就是(100000 + 1000)/2,即50500元,顯然這離我的工資相差甚遠(yuǎn),我肯定不服這個平均工資。

用調(diào)和平均數(shù)就可以解決這一問題,調(diào)和平均數(shù)的結(jié)果會傾向于集合中比較小的數(shù),x1到xn的調(diào)和平均數(shù)的公式如下:

調(diào)和平均數(shù)

再用這個公式算一下我和老板的平均工資:

使用調(diào)和平均數(shù)計算平均工資

最后的結(jié)果是1980元,這和我的工資水平還比較接近,這樣的平均工資水平我才比較信服。

再回到前面的LogLog算法,從前面的舉的例子可以看出,

影響LogLog算法精度的一個重要因素就是,hash值的前導(dǎo)零的數(shù)量顯然是有很大的偶然性的,經(jīng)常會出現(xiàn)一兩數(shù)據(jù)前導(dǎo)零的數(shù)目比較多的情況,所以HyperLogLog算法相比LogLog算法一個重要的改進(jìn)就是使用調(diào)和平均數(shù)而不是平均數(shù)來聚合每個桶中的結(jié)果,HyperLogLog算法的公式如下:

HyperLogLog算法

其中constant常數(shù)和m的含義和之前的LogLog算法公式中的含義一致,Rj代表(第j個桶中的數(shù)據(jù)的最大前導(dǎo)零數(shù)目+1),為了方便理解,我將公式再拆解一下:

HyperLogLog公式的理解

其實從算術(shù)平均數(shù)改成調(diào)和平均數(shù)這個優(yōu)化是很容易想到的,但是為什么LogLog算法沒有直接使用調(diào)和平均數(shù)嗎?網(wǎng)上看到一篇英文文章里說大概是因為使用算術(shù)平均數(shù)的話證明比較容易一些,畢竟科學(xué)家們出論文每一步都是要證明的,不像我們這里簡單理解一下,猜一猜就可以了。

細(xì)節(jié)微調(diào)

關(guān)于HyperLogLog算法的大體思想到這里你就已經(jīng)全部理解了。

不過算法中還有一些細(xì)微的校正,在數(shù)據(jù)總量比較小的時候,很容易就預(yù)測偏大,所以我們做如下校正:

(DV代表估計的基數(shù)值,m代表桶的數(shù)量,V代表結(jié)果為0的桶的數(shù)目,log表示自然對數(shù))

if DV < (5 / 2) * m:

DV = m * log(m/V)

我再詳細(xì)解釋一下V的含義,假設(shè)我分配了64個桶(即m=64),當(dāng)數(shù)據(jù)量很小時(比方說只有兩三個),那肯定有大量桶中沒有數(shù)據(jù),也就說他們的估計值是0,V就代表這樣的桶的數(shù)目。

事實證明,這個校正的效果是非常好,在數(shù)據(jù)量小的時,估計得非常準(zhǔn)確,有興趣可以去玩一下外國大佬制作的一個HyperLogLog算法的仿真:

http://content.research.neustar.biz/blog/hll.html

constant常數(shù)的選擇

constant常數(shù)的選擇與分桶的數(shù)目有關(guān),具體的數(shù)學(xué)證明請看論文,這里就直接給出結(jié)論:

假設(shè):m為分桶數(shù),p是m的以2為底的對數(shù)

p

則按如下的規(guī)則計算constant

switch (p) {

case 4:

constant = 0.673 * m * m;

case 5:

constant = 0.697 * m * m;

case 6:

constant = 0.709 * m * m;

default:

constant = (0.7213 / (1 + 1.079 / m)) * m * m;

}

分桶數(shù)m的選擇

如果理解了之前的分桶算法,那么很顯然分桶數(shù)只能是2的整數(shù)次冪。

如果分桶越多,那么估計的精度就會越高,統(tǒng)計學(xué)上用來衡量估計精度的一個指標(biāo)是“相對標(biāo)準(zhǔn)誤差”(relative standard deviation,簡稱RSD),RSD的計算公式這里就不給出了,百科上一搜就可以知道,從直觀上理解,RSD的值其實就是((每次估計的值)在(估計均值)上下的波動)占(估計均值)的比例(這句話加那么多括號是為了方便大家斷句)。RSD的值與分桶數(shù)m存在如下的計算關(guān)系:

RSD

有了這個公式,你可以先確定你想要達(dá)到的RSD的值,然后再推出分桶的數(shù)目m。

合并

假設(shè)有兩個數(shù)據(jù)流,分別構(gòu)建了兩個HyperLogLog結(jié)構(gòu),稱為a和b,他們的桶數(shù)是一樣的,為n,現(xiàn)在要計算兩個數(shù)據(jù)流總體的基數(shù)。

數(shù)據(jù)流a:"a" "b" "c" "d" 基數(shù):4

數(shù)據(jù)流b:"b" "c" "d" "e" 基數(shù):4

兩個數(shù)據(jù)流的總體基數(shù):5

從前文我們可以知道,HyperLogLog算法在內(nèi)存中的結(jié)構(gòu)其實就是一個桶數(shù)組,需要先用下面的算法從a和我b的桶數(shù)組中構(gòu)建出新的桶數(shù)組c,其實就是從a,b的對應(yīng)位置取最大的:

輸入:桶數(shù)組a,b。它們的長度都是n

輸出:新的桶數(shù)組c

算法:

c = c[n];

for (i=0; i

c[i]=max(a[i], b[i]);

}

return c;

之后用桶數(shù)組c代入前面的算法即可得到合并的總體基數(shù)。

Redis中的實現(xiàn)

Redis中和HyperLogLog相關(guān)的命令有三個:

PFADD hll ele:將ele添加進(jìn)hll的基數(shù)計算中。流程:

先對ele求hash(使用的是一種叫做MurMurHash的算法)

將hash的低14位(因為總共有2的14次方個桶)作為桶的編號,選桶,記桶中當(dāng)前的值為count

從的hash的第15位開始數(shù)0,假設(shè)從第15位開始有n個連續(xù)的0(即前導(dǎo)0)

如果n大于count,則把選中的桶的值置為n,否則不變

PFCOUNT hll:計算hll的基數(shù)。就是使用上面給出的DV公式根據(jù)桶中的數(shù)值,計算基數(shù)

PFMERGE hll3 hll1 hll2:將hll1和hll2合并成hll3。用的就是上面說的合并算法。

Redis的所有HyperLogLog結(jié)構(gòu)都是固定的16384個桶(2的14次方),并且有兩種存儲格式:

稀疏格式:HyperLogLog算法在剛開始的時候,大多數(shù)桶其實都是0,稀疏格式通過存儲連續(xù)的0的數(shù)目,而不是每個0存一遍,大大減小了HyperLogLog剛開始時需要占用的內(nèi)存

緊湊格式:用6個bit表示一個桶,需要占用12KB內(nèi)存

如果還想更詳細(xì)地了解Redis中的實現(xiàn)細(xì)節(jié)的話,可以閱讀我的另一篇博客Redis源碼走馬觀花(5)HyperLogLog

HyperLogLog索引

之前在螞蟻實習(xí)的時候,用的一個自研數(shù)據(jù)庫號稱支持HyperLogLog索引.(目前還不知道有什么開源的數(shù)據(jù)庫支持這玩意,如果你知道,歡迎在評論里告訴我)。

所謂HyperLogLog索引,比如你在user列上建立了一個hyperLogLog索引,那么當(dāng)你使用如下的查詢時:

SELECT COUNT(DISTINCT user) FROM users WHERE age >= 10 and city = "shanghai";

在計算COUNT(DISTINCT)時,會自動使用之前構(gòu)建好的HyperLogLog索引來加速,據(jù)說能夠獲得數(shù)量級上的查詢速度提升。

如果仔細(xì)看了之前的算法,到這里可能會產(chǎn)生困惑,通過HyperLogLog似乎只能得到user的基數(shù)是多少,那又怎么能知道含有一定含有一定篩選條件(WHERE age > 10 and city = "shanghai")的user基數(shù)是多少呢?

其實再仔細(xì)想想,也很簡單,通過前面介紹過的“合并”就可以完成,對每個不同的city都構(gòu)建了一個關(guān)于user的HyperLogLog結(jié)構(gòu),因為age的基數(shù)相對大一些,數(shù)據(jù)庫可以根據(jù)范圍在每個范圍構(gòu)建了一個HyperLogLog結(jié)構(gòu),比如分別是0~10,10~20,20~30,這樣只需要將上面查詢涉及到的三個HyperLogLog結(jié)構(gòu)合并即可(三個分別是指city為"guangzhou",age為10~20和age為20~30)。

這個只是我的個人猜測,也可能不是這樣。

Java實現(xiàn)分析

這個實現(xiàn)類中還包含很多與算法無關(guān)的序列化之類的代碼,所以不建議你直接去看,我把它的算法主干抽取了出來,變成了如下的三個類,你把這三個類的代碼復(fù)制下來放到項目的同一個包下即可,HyperLogLog類中還包含一個main函數(shù),你可以運行一下看看代碼是否正確,代碼如下:

HyperLogLog.java

public class HyperLogLog {

private final RegisterSet registerSet;

private final int log2m; //log(m)

private final double alphaMM;

/**

*

* rsd = 1.04/sqrt(m)

* @param rsd 相對標(biāo)準(zhǔn)偏差

*/

public HyperLogLog(double rsd) {

this(log2m(rsd));

}

/**

* rsd = 1.04/sqrt(m)

* m = (1.04 / rsd)^2

* @param rsd 相對標(biāo)準(zhǔn)偏差

* @return

*/

private static int log2m(double rsd) {

return (int) (Math.log((1.106 / rsd) * (1.106 / rsd)) / Math.log(2));

}

private static double rsd(int log2m) {

return 1.106 / Math.sqrt(Math.exp(log2m * Math.log(2)));

}

/**

* accuracy = 1.04/sqrt(2^log2m)

*

* @param log2m

*/

public HyperLogLog(int log2m) {

this(log2m, new RegisterSet(1 << log2m));

}

/**

*

* @param registerSet

*/

public HyperLogLog(int log2m, RegisterSet registerSet) {

this.registerSet = registerSet;

this.log2m = log2m;

int m = 1 << this.log2m; //從log2m中算出m

alphaMM = getAlphaMM(log2m, m);

}

public boolean offerHashed(int hashedValue) {

// j 代表第幾個桶,取hashedValue的前l(fā)og2m位即可

// j 介于 0 到 m

final int j = hashedValue >>> (Integer.SIZE - log2m);

// r代表 除去前l(fā)og2m位剩下部分的前導(dǎo)零 + 1

final int r = Integer.numberOfLeadingZeros((hashedValue << this.log2m) | (1 << (this.log2m - 1)) + 1) + 1;

return registerSet.updateIfGreater(j, r);

}

/**

* 添加元素

* @param o 要被添加的元素

* @return

*/

public boolean offer(Object o) {

final int x = MurmurHash.hash(o);

return offerHashed(x);

}

public long cardinality() {

double registerSum = 0;

int count = registerSet.count;

double zeros = 0.0;

//count是桶的數(shù)量

for (int j = 0; j < registerSet.count; j++) {

int val = registerSet.get(j);

registerSum += 1.0 / (1 << val);

if (val == 0) {

zeros++;

}

}

double estimate = alphaMM * (1 / registerSum);

if (estimate <= (5.0 / 2.0) * count) { //小數(shù)據(jù)量修正

return Math.round(linearCounting(count, zeros));

} else {

return Math.round(estimate);

}

}

/**

* 計算constant常數(shù)的取值

* @param p log2m

* @param m m

* @return

*/

protected static double getAlphaMM(final int p, final int m) {

// See the paper.

switch (p) {

case 4:

return 0.673 * m * m;

case 5:

return 0.697 * m * m;

case 6:

return 0.709 * m * m;

default:

return (0.7213 / (1 + 1.079 / m)) * m * m;

}

}

/**

*

* @param m 桶的數(shù)目

* @param V 桶中0的數(shù)目

* @return

*/

protected static double linearCounting(int m, double V) {

return m * Math.log(m / V);

}

public static void main(String[] args) {

HyperLogLog hyperLogLog = new HyperLogLog(0.1325);//64個桶

//集合中只有下面這些元素

hyperLogLog.offer("hhh");

hyperLogLog.offer("mmm");

hyperLogLog.offer("ccc");

//估算基數(shù)

System.out.println(hyperLogLog.cardinality());

}

}

MurmurHash.java

/**

* 一種快速的非加密hash

* 適用于對保密性要求不高以及不在意hash碰撞攻擊的場合

*/

public class MurmurHash {

public static int hash(Object o) {

if (o == null) {

return 0;

}

if (o instanceof Long) {

return hashLong((Long) o);

}

if (o instanceof Integer) {

return hashLong((Integer) o);

}

if (o instanceof Double) {

return hashLong(Double.doubleToRawLongBits((Double) o));

}

if (o instanceof Float) {

return hashLong(Float.floatToRawIntBits((Float) o));

}

if (o instanceof String) {

return hash(((String) o).getBytes());

}

if (o instanceof byte[]) {

return hash((byte[]) o);

}

return hash(o.toString());

}

public static int hash(byte[] data) {

return hash(data, data.length, -1);

}

public static int hash(byte[] data, int seed) {

return hash(data, data.length, seed);

}

public static int hash(byte[] data, int length, int seed) {

int m = 0x5bd1e995;

int r = 24;

int h = seed ^ length;

int len_4 = length >> 2;

for (int i = 0; i < len_4; i++) {

int i_4 = i << 2;

int k = data[i_4 + 3];

k = k << 8;

k = k | (data[i_4 + 2] & 0xff);

k = k << 8;

k = k | (data[i_4 + 1] & 0xff);

k = k << 8;

k = k | (data[i_4 + 0] & 0xff);

k *= m;

k ^= k >>> r;

k *= m;

h *= m;

h ^= k;

}

// avoid calculating modulo

int len_m = len_4 << 2;

int left = length - len_m;

if (left != 0) {

if (left >= 3) {

h ^= (int) data[length - 3] << 16;

}

if (left >= 2) {

h ^= (int) data[length - 2] << 8;

}

if (left >= 1) {

h ^= (int) data[length - 1];

}

h *= m;

}

h ^= h >>> 13;

h *= m;

h ^= h >>> 15;

return h;

}

public static int hashLong(long data) {

int m = 0x5bd1e995;

int r = 24;

int h = 0;

int k = (int) data * m;

k ^= k >>> r;

h ^= k * m;

k = (int) (data >> 32) * m;

k ^= k >>> r;

h *= m;

h ^= k * m;

h ^= h >>> 13;

h *= m;

h ^= h >>> 15;

return h;

}

public static long hash64(Object o) {

if (o == null) {

return 0l;

} else if (o instanceof String) {

final byte[] bytes = ((String) o).getBytes();

return hash64(bytes, bytes.length);

} else if (o instanceof byte[]) {

final byte[] bytes = (byte[]) o;

return hash64(bytes, bytes.length);

}

return hash64(o.toString());

}

// 64 bit implementation copied from here: https://github.com/tnm/murmurhash-java

/**

* Generates 64 bit hash from byte array with default seed value.

*

* @param data byte array to hash

* @param length length of the array to hash

* @return 64 bit hash of the given string

*/

public static long hash64(final byte[] data, int length) {

return hash64(data, length, 0xe17a1465);

}

/**

* Generates 64 bit hash from byte array of the given length and seed.

*

* @param data byte array to hash

* @param length length of the array to hash

* @param seed initial seed value

* @return 64 bit hash of the given array

*/

public static long hash64(final byte[] data, int length, int seed) {

final long m = 0xc6a4a7935bd1e995L;

final int r = 47;

long h = (seed & 0xffffffffl) ^ (length * m);

int length8 = length / 8;

for (int i = 0; i < length8; i++) {

final int i8 = i * 8;

long k = ((long) data[i8 + 0] & 0xff) + (((long) data[i8 + 1] & 0xff) << 8)

+ (((long) data[i8 + 2] & 0xff) << 16) + (((long) data[i8 + 3] & 0xff) << 24)

+ (((long) data[i8 + 4] & 0xff) << 32) + (((long) data[i8 + 5] & 0xff) << 40)

+ (((long) data[i8 + 6] & 0xff) << 48) + (((long) data[i8 + 7] & 0xff) << 56);

k *= m;

k ^= k >>> r;

k *= m;

h ^= k;

h *= m;

}

switch (length % 8) {

case 7:

h ^= (long) (data[(length & ~7) + 6] & 0xff) << 48;

case 6:

h ^= (long) (data[(length & ~7) + 5] & 0xff) << 40;

case 5:

h ^= (long) (data[(length & ~7) + 4] & 0xff) << 32;

case 4:

h ^= (long) (data[(length & ~7) + 3] & 0xff) << 24;

case 3:

h ^= (long) (data[(length & ~7) + 2] & 0xff) << 16;

case 2:

h ^= (long) (data[(length & ~7) + 1] & 0xff) << 8;

case 1:

h ^= (long) (data[length & ~7] & 0xff);

h *= m;

}

;

h ^= h >>> r;

h *= m;

h ^= h >>> r;

return h;

}

}

RegisterSet.java

public class RegisterSet {

public final static int LOG2_BITS_PER_WORD = 6; //2的6次方是64

public final static int REGISTER_SIZE = 5; //每個register占5位,代碼里有一些細(xì)節(jié)涉及到這個5位,所以僅僅改這個參數(shù)是會報錯的

public final int count;

public final int size;

private final int[] M;

//傳入m

public RegisterSet(int count) {

this(count, null);

}

public RegisterSet(int count, int[] initialValues) {

this.count = count;

if (initialValues == null) {

/**

* 分配(m / 6)個int給M

*

* 因為一個register占五位,所以每個int(32位)有6個register

*/

this.M = new int[getSizeForCount(count)];

} else {

this.M = initialValues;

}

//size代表RegisterSet所占字的大小

this.size = this.M.length;

}

public static int getBits(int count) {

return count / LOG2_BITS_PER_WORD;

}

public static int getSizeForCount(int count) {

int bits = getBits(count);

if (bits == 0) {

return 1;

} else if (bits % Integer.SIZE == 0) {

return bits;

} else {

return bits + 1;

}

}

public void set(int position, int value) {

int bucketPos = position / LOG2_BITS_PER_WORD;

int shift = REGISTER_SIZE * (position - (bucketPos * LOG2_BITS_PER_WORD));

this.M[bucketPos] = (this.M[bucketPos] & ~(0x1f << shift)) | (value << shift);

}

public int get(int position) {

int bucketPos = position / LOG2_BITS_PER_WORD;

int shift = REGISTER_SIZE * (position - (bucketPos * LOG2_BITS_PER_WORD));

return (this.M[bucketPos] & (0x1f << shift)) >>> shift;

}

public boolean updateIfGreater(int position, int value) {

int bucket = position / LOG2_BITS_PER_WORD; //M下標(biāo)

int shift = REGISTER_SIZE * (position - (bucket * LOG2_BITS_PER_WORD)); //M偏移

int mask = 0x1f << shift; //register大小為5位

// 這里使用long是為了避免int的符號位的干擾

long curVal = this.M[bucket] & mask;

long newVal = value << shift;

if (curVal < newVal) {

//將M的相應(yīng)位置為新的值

this.M[bucket] = (int) ((this.M[bucket] & ~mask) | newVal);

return true;

} else {

return false;

}

}

public void merge(RegisterSet that) {

for (int bucket = 0; bucket < M.length; bucket++) {

int word = 0;

for (int j = 0; j < LOG2_BITS_PER_WORD; j++) {

int mask = 0x1f << (REGISTER_SIZE * j);

int thisVal = (this.M[bucket] & mask);

int thatVal = (that.M[bucket] & mask);

word |= (thisVal < thatVal) ? thatVal : thisVal;

}

this.M[bucket] = word;

}

}

int[] readOnlyBits() {

return M;

}

public int[] bits() {

int[] copy = new int[size];

System.arraycopy(M, 0, copy, 0, M.length);

return copy;

}

}

這里hash算法使用的是MurmurHash算法,可能很多人沒聽說過,其實在開源項目中使用的非常廣泛,這個算法在只追求速度和hash的隨機性,而不在意安全性和保密性的時候非常有效,我們不去深究這個算法的原理了,這個類的代碼也不必仔細(xì)看,就把它看成一個hash函數(shù)就好了。

還有需要稍微注意一下這里的RegisterSet類,我們把存放一個桶的結(jié)果的地方叫做一個register,類中M數(shù)組就是存放這些register內(nèi)容的地方,在這里我們設(shè)置一個register占5位,所以每個int(32位)總共可以存放6個register。

重點去閱讀HyperLogLog類,我添加了相關(guān)注釋方便你閱讀,希望能夠幫助你了解更多細(xì)節(jié)。

參考資料

1.論文《HyperLogLog: the analysis of a near-optimal cardinality estimation algorithm》

http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf

如果有興趣去了解算法的數(shù)學(xué)證明的大佬可以去看一下

總結(jié)

以上是生活随笔為你收集整理的抛硬币仿真实验java_探索HyperLogLog算法(含Java实现)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。