當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

全网最透彻的Hash分析

發布時間：2024/3/13 编程问答 66 豆豆

生活随笔收集整理的這篇文章主要介紹了全网最透彻的Hash分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

你知道HashMap中hash方法的具體實現嗎？

你知道HashTable、ConcurrentHashMap中hash方法的實現以及原因嗎？

你知道為什么要這么實現嗎？

你知道為什么JDK 7和JDK 8中hash方法實現的不同以及區別嗎？

如果你不能很好的回答這些問題，那么你需要好好看看這篇文章。文中涉及到大量代碼和計算機底層原理知識。絕對的干貨滿滿。整個互聯網，把hash()分析的如此透徹的，別無二家了。

哈希

Hash，一般翻譯做“散列”，也有直接音譯為“哈希”的，就是把任意長度的輸入，通過散列算法，變換成固定長度的輸出，該輸出就是散列值。這種轉換是一種壓縮映射，也就是，散列值的空間通常遠小于輸入的空間，不同的輸入可能會散列成相同的輸出，所以不可能從散列值來唯一的確定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數。

根據同一散列函數計算出的散列值如果不同，那么輸入值肯定也不同。但是，根據同一散列函數計算出的散列值如果相同，輸入值不一定相同。

兩個不同的輸入值，根據同一散列函數計算出的散列值相同的現象叫做碰撞。

常見的Hash函數有以下幾個：

直接定址法：直接以關鍵字k或者k加上某個常數（k+c）作為哈希地址。

數字分析法：提取關鍵字中取值比較均勻的數字作為哈希地址。

除留余數法：用關鍵字k除以某個不大于哈希表長度m的數p，將所得余數作為哈希表地址。

分段疊加法：按照哈希表地址位數將關鍵字分成位數相等的幾部分，其中最后一部分可以比較短。然后將這幾部分相加，舍棄最高進位后的結果就是該關鍵字的哈希地址。

平方取中法：如果關鍵字各個部分分布都不均勻的話，可以先求出它的平方值，然后按照需求取中間的幾位作為哈希地址。

偽隨機數法：采用一個偽隨機數當作哈希函數。

上面介紹過碰撞。衡量一個哈希函數的好壞的重要指標就是發生碰撞的概率以及發生碰撞的解決方案。任何哈希函數基本都無法徹底避免碰撞，常見的解決碰撞的方法有以下幾種：

開放定址法
- 開放定址法就是一旦發生了沖突，就去尋找下一個空的散列地址，只要散列表足夠大，空的散列地址總能找到，并將記錄存入。
鏈地址法
- 將哈希表的每個單元作為鏈表的頭結點，所有哈希地址為i的元素構成一個同義詞鏈表。即發生沖突時就把該關鍵字鏈在以該單元為頭結點的鏈表的尾部。
再哈希法
- 當哈希地址發生沖突用其他的函數計算另一個哈希函數地址，直到沖突不再產生為止。
建立公共溢出區
- 將哈希表分為基本表和溢出表兩部分，發生沖突的元素都放入溢出表中。

HashMap 的數據結構

在Java中，保存數據有兩種比較簡單的數據結構：數組和鏈表。數組的特點是：尋址容易，插入和刪除困難；而鏈表的特點是：尋址困難，插入和刪除容易。上面我們提到過，常用的哈希函數的沖突解決辦法中有一種方法叫做鏈地址法，其實就是將數組和鏈表組合在一起，發揮了兩者的優勢，我們可以將其理解為鏈表的數組。

我們可以從上圖看到，左邊很明顯是個數組，數組的每個成員是一個鏈表。該數據結構所容納的所有元素均包含一個指針，用于元素間的鏈接。我們根據元素的自身特征把元素分配到不同的鏈表中去，反過來我們也正是通過這些特征找到正確的鏈表，再從鏈表中找出正確的元素。其中，根據元素特征計算元素數組下標的方法就是哈希算法，即本文的主角hash()函數（當然，還包括indexOf()函數）。

Hash方法

我們拿JDK 1.7的HashMap為例，其中定義了一個final int hash(Object k) 方法，其主要被以下方法引用。

上面的方法主要都是增加和刪除方法，這不難理解，當我們要對一個鏈表數組中的某個元素進行增刪的時候，首先要知道他應該保存在這個鏈表數組中的哪個位置，即他在這個數組中的下標。而hash()方法的功能就是根據Key來定位其在HashMap中的位置。HashTable、ConcurrentHashMap同理。

源碼解析

首先，在同一個版本的Jdk中，HashMap、HashTable以及ConcurrentHashMap里面的hash方法的實現是不同的。再不同的版本的JDK中（Java7 和 Java8）中也是有區別的。我會盡量全部介紹到。相信，看文這篇文章，你會徹底理解hash方法。

在上代碼之前，我們先來做個簡單分析。我們知道，hash方法的功能是根據Key來定位這個K-V在鏈表數組中的位置的。也就是hash方法的輸入應該是個Object類型的Key，輸出應該是個int類型的數組下標。如果讓你設計這個方法，你會怎么做？

其實簡單，我們只要調用Object對象的hashCode()方法，該方法會返回一個整數，然后用這個數對HashMap或者HashTable的容量進行取模就行了。沒錯，其實基本原理就是這個，只不過，在具體實現上，由兩個方法int hash(Object k)和int indexFor(int h, int length)來實現。但是考慮到效率等問題，HashMap的實現會稍微復雜一點。

hash ：該方法主要是將Object轉換成一個整型。

indexFor ：該方法主要是將hash生成的整型轉換成鏈表數組中的下標。

HashMap In Java 7

final?int hash(Object k) {
? ?int?h = hashSeed;
? ?if?(0?!= h && k instanceof String) {
? ? ? ?return?sun.misc.Hashing.stringHash32((String) k);
? ?}

? ?h?^=?k.hashCode();
? ?h?^=?(h >>>?20)?^?(h >>>?12);
? ?return?h?^?(h >>>?7)?^?(h >>>?4);
}

static?int indexFor(int h, int length) {
? ?return?h & (length-1);
}

前面我說過，indexFor方法其實主要是將hash生成的整型轉換成鏈表數組中的下標。那么return h & (length-1);是什么意思呢？其實，他就是取模。Java之所有使用位運算(&)來代替取模運算(%)，最主要的考慮就是效率。

位運算(&)效率要比代替取模運算(%)高很多，主要原因是位運算直接對內存數據進行操作，不需要轉成十進制，因此處理速度非常快。

那么，為什么可以使用位運算(&)來實現取模運算(%)呢？這實現的原理如下：

X % 2^n = X & (2^n - 1)

2^n表示2的n次方，也就是說，一個數對2^n取模 == 一個數和(2^n - 1)做按位與運算。

假設n為3，則2^3 = 8，表示成2進制就是1000。2^3 -1 = 7 ，即0111。

此時X & (2^3 - 1) 就相當于取X的2進制的最后三位數。

從2進制角度來看，X / 8相當于 X >> 3，即把X右移3位，此時得到了X / 8的商，而被移掉的部分(后三位)，則是X % 8，也就是余數。

上面的解釋不知道你有沒有看懂，沒看懂的話其實也沒關系，你只需要記住這個技巧就可以了。或者你可以找幾個例子試一下。

6 % 8 = 6 ，6 & 7 = 6

10 % 8 = 2 ，10 & 7 = 2

所以，return h & (length-1);只要保證length的長度是2^n的話，就可以實現取模運算了。而HashMap中的length也確實是2的倍數，初始值是16，之后每次擴充為原來的2倍。

分析完indexFor方法后，我們接下來準備分析hash方法的具體原理和實現。在深入分析之前，至此，先做個總結。

HashMap的數據是存儲在鏈表數組里面的。在對HashMap進行插入/刪除等操作時，都需要根據K-V對的鍵值定位到他應該保存在數組的哪個下標中。而這個通過鍵值求取下標的操作就叫做哈希。

HashMap的數組是有長度的，Java中規定這個長度只能是2的倍數，初始值為16。

求哈希簡單的做法是先求取出鍵值的hashcode，然后在將hashcode得到的int值對數組長度進行取模。為了考慮性能，Java總采用按位與操作實現取模操作。

以上，就是目前能夠得到的結論，但是，由于HashMap使用位運算代替了取模運算，這就帶來了另外一個問題，那就是有可能發生沖突。比如：CA11 1000和0001 1000在對0000 1111進行按位與運算后的值是相等的。

兩個不同的鍵值，在對數組長度進行按位與運算后得到的結果相同，這不就發生了沖突嗎。那么如何解決這種沖突呢，來看下Java是如何做的。

其中的主要代碼部分如下：

h?^=?k.hashCode();
h?^=?(h >>>?20)?^?(h >>>?12);
return?h?^?(h >>>?7)?^?(h >>>?4);

這段代碼是為了對key的hashCode進行擾動計算，防止不同hashCode的高位不同但低位相同導致的hash沖突。簡單點說，就是為了把高位的特征和低位的特征組合起來，降低哈希沖突的概率，也就是說，盡量做到任何一位的變化都能對最終得到的結果產生影響。

舉個例子來說，我們現在想向一個HashMap中put一個K-V對，Key的值為“hollischuang”，經過簡單的獲取hashcode后，得到的值為“1011000110101110011111010011011”，如果當前HashTable的大小為16，即在不進行擾動計算的情況下，他最終得到的index結果值為11。由于16的二進制擴展到32位為“00000000000000000000000000001111”，所以，一個數字在和他進行按位與操作的時候，前28位無論是什么，計算結果都一樣（因為0和任何數做與，結果都為0）。如下圖所示。

可以看到，后面的兩個hashcode經過位運算之后得到的值也是11 ，雖然我們不知道哪個key的hashcode是上面例子中的那兩個，但是肯定存在這樣的key，這就產生了沖突。

那么，接下來，我看看一下經過擾動的算法最終的計算結果會如何。

從上面圖中可以看到，之前會產生沖突的兩個hashcode，經過擾動計算之后，最終得到的index的值不一樣了，這就很好的避免了沖突。

其實，使用位運算代替取模運算，除了性能之外，還有一個好處就是可以很好的解決負數的問題。因為我們知道，hashcode的結果是int類型，而int的取值范圍是-2^31 ~ 2^31 - 1，即[ -2147483648, ?2147483647]；這里面是包含負數的，我們知道，對于一個負數取模還是有些麻煩的。如果使用二進制的位運算的話就可以很好的避免這個問題。首先，不管hashcode的值是正數還是負數。length-1這個值一定是個正數。那么，他的二進制的第一位一定是0（有符號數用最高位作為符號位，“0”代表“+”，“1”代表“-”），這樣里兩個數做按位與運算之后，第一位一定是個0，也就是，得到的結果一定是個正數。

HashTable In Java 7

上面是Java 7中HashMap的hash方法以及indexOf方法的實現，那么接下來我們要看下，線程安全的HashTable是如何實現的，和HashMap有何不同，并試著分析下不同的原因。以下是Java 7中HashTable的hash方法的實現。

private?int?hash(Object k)?{
? ?// hashSeed will be zero if alternative hashing is disabled.
? ?return?hashSeed ^ k.hashCode();
}

我們可以發現，很簡單，相當于只是對k做了個簡單的hash，取了一下其hashCode。而HashTable中也沒有indexOf方法，取而代之的是這段代碼：

int?index = (hash &?0x7FFFFFFF) % tab.length;

也就是說，HashMap和HashTable對于計算數組下標這件事，采用了兩種方法。HashMap采用的是位運算，而HashTable采用的是直接取模。

為啥要把hash值和0x7FFFFFFF做一次按位與操作呢，主要是為了保證得到的index的的二進制的第一位為0（一個32位的有符號數和0x7FFFFFFF做按位與操作，其實就是在取絕對值。），也就是為了得到一個正數。因為有符號數第一位0代表正數，1代表負數。

我們前面說過，HashMap之所以不用取模的原因是為了提高效率。有人認為，因為HashTable是個線程安全的類，本來就慢，所以Java并沒有考慮效率問題，就直接使用取模算法了呢？但是其實并不完全是，Java這樣設計還是有一定的考慮在的，雖然這樣效率確實是會比HashMap慢一些。

其實，HashTable簡單的取模是有一定的考慮在的。這就要涉及到HashTable的構造函數和擴容函數了。由于篇幅有限，這里就不貼代碼了，直接給出結論：

HashTable默認的初始大小為11，之后每次擴充為原來的2n+1。

也就是說，HashTable的鏈表數組的默認大小是一個素數、奇數。之后的每次擴充結果也都是奇數。

由于HashTable會盡量使用素數、奇數作為容量的大小。當哈希表的大小為素數時，簡單的取模哈希的結果會更加均勻。（這個是可以證明出來的，由于不是本文重點，暫不詳細介紹，可參考：http://zhaox.github.io/algorithm/2015/06/29/hash）

至此，我們看完了Java 7中HashMap和HashTable中對于hash的實現，我們來做個簡單的總結。

HashMap默認的初始化大小為16，之后每次擴充為原來的2倍。
HashTable默認的初始大小為11，之后每次擴充為原來的2n+1。
當哈希表的大小為素數時，簡單的取模哈希的結果會更加均勻，所以單從這一點上看，HashTable的哈希表大小選擇，似乎更高明些。因為hash結果越分散效果越好。
在取模計算時，如果模數是2的冪，那么我們可以直接使用位運算來得到結果，效率要大大高于做除法。所以從hash計算的效率上，又是HashMap更勝一籌。
但是，HashMap為了提高效率使用位運算代替哈希，這又引入了哈希分布不均勻的問題，所以HashMap為解決這問題，又對hash算法做了一些改進，進行了擾動計算。

ConcurrentHashMap In Java 7

private?int?hash(Object k)?{
? ?int?h = hashSeed;

? ?if?((0?!= h) && (k?instanceof?String)) {
? ? ? ?return?sun.misc.Hashing.stringHash32((String) k);
? ?}

? ?h ^= k.hashCode();

? ?// Spread bits to regularize both segment and index locations,
? ?// using variant of single-word Wang/Jenkins hash.
? ?h += (h << ?15) ^?0xffffcd7d;
? ?h ^= (h >>>?10);
? ?h += (h << ??3);
? ?h ^= (h >>> ?6);
? ?h += (h << ??2) + (h <<?14);
? ?return?h ^ (h >>>?16);
}

int?j = (hash >>> segmentShift) & segmentMask;

上面這段關于ConcurrentHashMap的hash實現其實和HashMap如出一轍。都是通過位運算代替取模，然后再對hashcode進行擾動。區別在于，ConcurrentHashMap 使用了一種變種的Wang/Jenkins 哈希算法，其主要目的也是為了把高位和低位組合在一起，避免發生沖突。至于為啥不和HashMap采用同樣的算法進行擾動，我猜這只是程序員自由意志的選擇吧。至少我目前沒有辦法證明哪個更優。

HashMap In Java 8

在Java 8 之前，HashMap和其他基于map的類都是通過鏈地址法解決沖突，它們使用單向鏈表來存儲相同索引值的元素。在最壞的情況下，這種方式會將HashMap的get方法的性能從O(1)降低到O(n)。

為了解決在頻繁沖突時hashmap性能降低的問題，Java 8中使用平衡樹來替代鏈表存儲沖突的元素。這意味著我們可以將最壞情況下的性能從O(n)提高到O(logn)。關于HashMap在Java 8中的優化，我后面會有文章繼續深入介紹。

如果惡意程序知道我們用的是Hash算法，則在純鏈表情況下，它能夠發送大量請求導致哈希碰撞，然后不停訪問這些key導致HashMap忙于進行線性查找，最終陷入癱瘓，即形成了拒絕服務攻擊（DoS）。

關于Java 8中的hash函數，原理和Java 7中基本類似。Java 8中這一步做了優化，只做一次16位右位移異或混合，而不是四次，但原理是不變的。

static?final?int?hash(Object key)?{
? ?int?h;
? ?return?(key ==?null) ??0?: (h = key.hashCode()) ^ (h >>>?16);
}

在JDK1.8的實現中，優化了高位運算的算法，通過hashCode()的高16位異或低16位實現的：(h = k.hashCode()) ^ (h >>> 16)，主要是從速度、功效、質量來考慮的。以上方法得到的int的hash值，然后再通過h & (table.length -1)來得到該對象在數據中保存的位置。

HashTable In Java 8

在Java 8的HashTable中，已經不在有hash方法了。但是哈希的操作還是在的，比如在put方法中就有如下實現：

int?hash = key.hashCode();
int?index = (hash &?0x7FFFFFFF) % tab.length;

這其實和Java 7中的實現幾乎無差別，就不做過多的介紹了。

ConcurrentHashMap In Java 8

Java 8 里面的求hash的方法從hash改為了spread。實現方式如下：

static?final?int?spread(int?h)?{
? ?return?(h ^ (h >>>?16)) & HASH_BITS;
}

Java 8的ConcurrentHashMap同樣是通過Key的哈希值與數組長度取模確定該Key在數組中的索引。

不同的是，Java 8的ConcurrentHashMap作者認為引入紅黑樹后，即使哈希沖突比較嚴重，尋址效率也足夠高，所以作者并未在哈希值的計算上做過多設計，只是將Key的hashCode值與其高16位作異或并保證最高位為0（從而保證最終結果為正整數）。

總結

至此，我們已經分析完了HashMap、HashTable以及ConcurrentHashMap分別在Jdk 1.7 和 Jdk 1.8中的實現。我們可以發現，為了保證哈希的結果可以分散、為了提高哈希的效率，JDK在一個小小的hash方法上就有很多考慮，做了很多事情。當然，我希望我們不僅可以深入了解背后的原理，還要學會這種對代碼精益求精的態度。

Jdk的源代碼，每一行都很有意思，都值得花時間去鉆研、推敲。

本文轉自這里

總結

以上是生活随笔為你收集整理的全网最透彻的Hash分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：优秀logo，最基础的设计技巧（五）
下一篇：安卓开发套壳APP