一致性hash算法_(图文案例)一致性哈希算法详解 一点课堂(多岸教育)
一致性Hash算法
關(guān)于一致性Hash算法,在我之前的博文中已經(jīng)有多次提到了,MemCache超詳細(xì)解讀一文中”一致性Hash算法”部分,對(duì)于為什么要使用一致性Hash算法、一致性Hash算法的算法原理做了詳細(xì)的解讀。
算法的具體原理這里再次貼上:
先構(gòu)造一個(gè)長(zhǎng)度為2^32的整數(shù)環(huán)(這個(gè)環(huán)被稱為一致性Hash環(huán)),根據(jù)節(jié)點(diǎn)名稱的Hash值(其分布為[0, 2^32-1])將服務(wù)器節(jié)點(diǎn)放置在這個(gè)Hash環(huán)上,然后根據(jù)數(shù)據(jù)的Key值計(jì)算得到其Hash值(其分布也為[0, 2^32-1]),接著在Hash環(huán)上順時(shí)針查找距離這個(gè)Key值的Hash值最近的服務(wù)器節(jié)點(diǎn),完成Key到服務(wù)器的映射查找。
這種算法解決了普通余數(shù)Hash算法伸縮性差的問(wèn)題,可以保證在上線、下線服務(wù)器的情況下盡量有多的請(qǐng)求命中原來(lái)路由到的服務(wù)器。
當(dāng)然,萬(wàn)事不可能十全十美,一致性Hash算法比普通的余數(shù)Hash算法更具有伸縮性,但是同時(shí)其算法實(shí)現(xiàn)也更為復(fù)雜,本文就來(lái)研究一下,如何利用Java代碼實(shí)現(xiàn)一致性Hash算法。在開始之前,先對(duì)一致性Hash算法中的幾個(gè)核心問(wèn)題進(jìn)行一些探究。
數(shù)據(jù)結(jié)構(gòu)的選取
一致性Hash算法最先要考慮的一個(gè)問(wèn)題是:構(gòu)造出一個(gè)長(zhǎng)度為2^32的整數(shù)環(huán),根據(jù)節(jié)點(diǎn)名稱的Hash值將服務(wù)器節(jié)點(diǎn)放置在這個(gè)Hash環(huán)上。
那么,整數(shù)環(huán)應(yīng)該使用何種數(shù)據(jù)結(jié)構(gòu),才能使得運(yùn)行時(shí)的時(shí)間復(fù)雜度最低?首先說(shuō)明一點(diǎn),關(guān)于時(shí)間復(fù)雜度,常見的時(shí)間復(fù)雜度與時(shí)間效率的關(guān)系有如下的經(jīng)驗(yàn)規(guī)則:
O(1) < O(log2N) < O(n) < O(N * logN) < O(N^2) < O(N^3) < 2^N < 3^N < N!一般來(lái)說(shuō),前四個(gè)效率比較高,中間兩個(gè)差強(qiáng)人意,后三個(gè)比較差(只要N比較大,這個(gè)算法就動(dòng)不了了)。OK,繼續(xù)前面的話題,應(yīng)該如何選取數(shù)據(jù)結(jié)構(gòu),我認(rèn)為有以下幾種可行的解決方案。
1、解決方案一:排序+List
我想到的第一種思路是:算出所有待加入數(shù)據(jù)結(jié)構(gòu)的節(jié)點(diǎn)名稱的Hash值放入一個(gè)數(shù)組中,然后使用某種排序算法將其從小到大進(jìn)行排序,最后將排序后的數(shù)據(jù)放入List中,采用List而不是數(shù)組是為了結(jié)點(diǎn)的擴(kuò)展考慮。
之后,待路由的結(jié)點(diǎn),只需要在List中找到第一個(gè)Hash值比它大的服務(wù)器節(jié)點(diǎn)就可以了,比如服務(wù)器節(jié)點(diǎn)的Hash值是[0,2,4,6,8,10],帶路由的結(jié)點(diǎn)是7,只需要找到第一個(gè)比7大的整數(shù),也就是8,就是我們最終需要路由過(guò)去的服務(wù)器節(jié)點(diǎn)。
如果暫時(shí)不考慮前面的排序,那么這種解決方案的時(shí)間復(fù)雜度:
(1)最好的情況是第一次就找到,時(shí)間復(fù)雜度為O(1)
(2)最壞的情況是最后一次才找到,時(shí)間復(fù)雜度為O(N)
平均下來(lái)時(shí)間復(fù)雜度為O(0.5N+0.5),忽略首項(xiàng)系數(shù)和常數(shù),時(shí)間復(fù)雜度為O(N)。
但是如果考慮到之前的排序,我在網(wǎng)上找了張圖,提供了各種排序算法的時(shí)間復(fù)雜度:
2、解決方案二:遍歷+List
既然排序操作比較耗性能,那么能不能不排序?可以的,所以進(jìn)一步的,有了第二種解決方案。
解決方案使用List不變,不過(guò)可以采用遍歷的方式:
(1)服務(wù)器節(jié)點(diǎn)不排序,其Hash值全部直接放入一個(gè)List中
(2)帶路由的節(jié)點(diǎn),算出其Hash值,由于指明了”順時(shí)針”,因此遍歷List,比待路由的節(jié)點(diǎn)Hash值大的算出差值并記錄,比待路由節(jié)點(diǎn)Hash值小的忽略
(3)算出所有的差值之后,最小的那個(gè),就是最終需要路由過(guò)去的節(jié)點(diǎn)
在這個(gè)算法中,看一下時(shí)間復(fù)雜度:
1、最好情況是只有一個(gè)服務(wù)器節(jié)點(diǎn)的Hash值大于帶路由結(jié)點(diǎn)的Hash值,其時(shí)間復(fù)雜度是O(N)+O(1)=O(N+1),忽略常數(shù)項(xiàng),即O(N)
2、最壞情況是所有服務(wù)器節(jié)點(diǎn)的Hash值都大于帶路由結(jié)點(diǎn)的Hash值,其時(shí)間復(fù)雜度是O(N)+O(N)=O(2N),忽略首項(xiàng)系數(shù),即O(N)
所以,總的時(shí)間復(fù)雜度就是O(N)。其實(shí)算法還能更改進(jìn)一些:給一個(gè)位置變量X,如果新的差值比原差值小,X替換為新的位置,否則X不變。這樣遍歷就減少了一輪,不過(guò)經(jīng)過(guò)改進(jìn)后的算法時(shí)間復(fù)雜度仍為O(N)。
總而言之,這個(gè)解決方案和解決方案一相比,總體來(lái)看,似乎更好了一些。
3、解決方案三:二叉查找樹
拋開List這種數(shù)據(jù)結(jié)構(gòu),另一種數(shù)據(jù)結(jié)構(gòu)則是使用二叉查找樹。
當(dāng)然我們不能簡(jiǎn)單地使用二叉查找樹,因?yàn)榭赡艹霈F(xiàn)不平衡的情況。平衡二叉查找樹有AVL樹、紅黑樹等,這里使用紅黑樹,選用紅黑樹的原因有兩點(diǎn):
1、紅黑樹主要的作用是用于存儲(chǔ)有序的數(shù)據(jù),這其實(shí)和第一種解決方案的思路又不謀而合了,但是它的效率非常高
2、JDK里面提供了紅黑樹的代碼實(shí)現(xiàn)TreeMap和TreeSet
另外,以TreeMap為例,TreeMap本身提供了一個(gè)tailMap(K fromKey)方法,支持從紅黑樹中查找比f(wàn)romKey大的值的集合,但并不需要遍歷整個(gè)數(shù)據(jù)結(jié)構(gòu)。
使用紅黑樹,可以使得查找的時(shí)間復(fù)雜度降低為O(logN),比上面兩種解決方案,效率大大提升。
為了驗(yàn)證這個(gè)說(shuō)法,我做了一次測(cè)試,從大量數(shù)據(jù)中查找第一個(gè)大于其中間值的那個(gè)數(shù)據(jù),比如10000數(shù)據(jù)就找第一個(gè)大于5000的數(shù)據(jù)(模擬平均的情況)。看一下O(N)時(shí)間復(fù)雜度和O(logN)時(shí)間復(fù)雜度運(yùn)行效率的對(duì)比:
因?yàn)樵俅缶蛢?nèi)存溢出了,所以只測(cè)試到4000000數(shù)據(jù)。可以看到,數(shù)據(jù)查找的效率,TreeMap是完勝的,其實(shí)再增大數(shù)據(jù)測(cè)試也是一樣的,紅黑樹的數(shù)據(jù)結(jié)構(gòu)決定了任何一個(gè)大于N的最小數(shù)據(jù),它都只需要幾次至幾十次查找就可以查到。
當(dāng)然,明確一點(diǎn),有利必有弊,根據(jù)我另外一次測(cè)試得到的結(jié)論是,為了維護(hù)紅黑樹,數(shù)據(jù)插入效率TreeMap在三種數(shù)據(jù)結(jié)構(gòu)里面是最差的,且插入要慢上5~10倍。
Hash值重新計(jì)算
服務(wù)器節(jié)點(diǎn)我們肯定用字符串來(lái)表示,比如”192.168.1.1″、”192.168.1.2″,根據(jù)字符串得到其Hash值,那么另外一個(gè)重要的問(wèn)題就是Hash值要重新計(jì)算,這個(gè)問(wèn)題是我在測(cè)試String的hashCode()方法的時(shí)候發(fā)現(xiàn)的,不妨來(lái)看一下為什么要重新計(jì)算Hash值:
/*** String的hashCode()方法運(yùn)算結(jié)果查看* @author 嘵嘵**/public class StringHashCodeTest { public static void main(String[] args) { System.out.println("192.168.0.0:111的哈希值:" + "192.168.0.0:1111".hashCode()); System.out.println("192.168.0.1:111的哈希值:" + "192.168.0.1:1111".hashCode()); System.out.println("192.168.0.2:111的哈希值:" + "192.168.0.2:1111".hashCode()); System.out.println("192.168.0.3:111的哈希值:" + "192.168.0.3:1111".hashCode()); System.out.println("192.168.0.4:111的哈希值:" + "192.168.0.4:1111".hashCode()); }}我們?cè)谧黾旱臅r(shí)候,集群點(diǎn)的IP以這種連續(xù)的形式存在是很正常的。看一下運(yùn)行結(jié)果為:
192.168.0.0:111的哈希值:1845870087192.168.0.1:111的哈希值:1874499238192.168.0.2:111的哈希值:1903128389192.168.0.3:111的哈希值:1931757540192.168.0.4:111的哈希值:1960386691這個(gè)就問(wèn)題大了,[0,2^32-1]的區(qū)間之中,5個(gè)HashCode值卻只分布在這么小小的一個(gè)區(qū)間,什么概念?[0,2^32-1]中有4294967296個(gè)數(shù)字,而我們的區(qū)間只有122516605,從概率學(xué)上講這將導(dǎo)致97%待路由的服務(wù)器都被路由到”192.168.0.1″這個(gè)集群點(diǎn)上,簡(jiǎn)直是糟糕透了!
另外還有一個(gè)不好的地方:規(guī)定的區(qū)間是非負(fù)數(shù),String的hashCode()方法卻會(huì)產(chǎn)生負(fù)數(shù)(不信用”192.168.1.0:1111″試試看就知道了)。不過(guò)這個(gè)問(wèn)題好解決,取絕對(duì)值就是一種解決的辦法。
綜上,String重寫的hashCode()方法在一致性Hash算法中沒(méi)有任何實(shí)用價(jià)值,得找個(gè)算法重新計(jì)算HashCode。這種重新計(jì)算Hash值的算法有很多,比如CRC32_HASH、FNV1_32_HASH、KETAMA_HASH等,其中KETAMA_HASH是默認(rèn)的MemCache推薦的一致性Hash算法,用別的Hash算法也可以,比如FNV1_32_HASH算法的計(jì)算效率就會(huì)高一些。
一致性Hash算法實(shí)現(xiàn)版本1:不帶虛擬節(jié)點(diǎn)
使用一致性Hash算法,盡管增強(qiáng)了系統(tǒng)的伸縮性,但是也有可能導(dǎo)致負(fù)載分布不均勻,解決辦法就是使用虛擬節(jié)點(diǎn)代替真實(shí)節(jié)點(diǎn),第一個(gè)代碼版本,先來(lái)個(gè)簡(jiǎn)單的,不帶虛擬節(jié)點(diǎn)。
下面來(lái)看一下不帶虛擬節(jié)點(diǎn)的一致性Hash算法的Java代碼實(shí)現(xiàn):
/** * 不帶虛擬結(jié)點(diǎn)的一致性Hash算法 * @author 嘵嘵 * */public class ConsistentHashWithoutVN {? /** * 待加入Hash環(huán)的服務(wù)器列表 */ private static String[] servers = { "192.168.0.0:111總結(jié)
以上是生活随笔為你收集整理的一致性hash算法_(图文案例)一致性哈希算法详解 一点课堂(多岸教育)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python 爬虫 包_python爬虫
- 下一篇: vb6在后台将窗体保存到图片_如何将寺库