hashmap与concurrenthashmap源码解析
hashmap源碼解析轉載:http://www.cnblogs.com/ITtangtang/p/3948406.html
一、HashMap概述
HashMap基于哈希表的?Map?接口的實現。此實現提供所有可選的映射操作,并允許使用?null?值和?null?鍵。(除了不同步和允許使用?null?之外,HashMap?類與?Hashtable?大致相同。)此類不保證映射的順序,特別是它不保證該順序恒久不變。
值得注意的是HashMap不是線程安全的,如果想要線程安全的HashMap,可以通過Collections類的靜態方法synchronizedMap獲得線程安全的HashMap。
Map map = Collections.synchronizedMap(new HashMap());?
二、HashMap的數據結構
HashMap的底層主要是基于數組和鏈表來實現的,它之所以有相當快的查詢速度主要是因為它是通過計算散列碼來決定存儲的位置。HashMap中主要是通過key的hashCode來計算hash值的,只要hashCode相同,計算出來的hash值就一樣。如果存儲的對象對多了,就有可能不同的對象所算出來的hash值是相同的,這就出現了所謂的hash沖突。學過數據結構的同學都知道,解決hash沖突的方法有很多,HashMap底層是通過鏈表來解決hash沖突的。
?
?圖中,紫色部分即代表哈希表,也稱為哈希數組,數組的每個元素都是一個單鏈表的頭節點,鏈表是用來解決沖突的,如果不同的key映射到了數組的同一位置處,就將其放入單鏈表中。
我們看看HashMap中Entry類的代碼:
?
/** Entry是單向鏈表。 * 它是 “HashMap鏈式存儲法”對應的鏈表。 *它實現了Map.Entry 接口,即實現getKey(), getValue(), setValue(V value), equals(Object o), hashCode()這些函數 **/ static class Entry<K,V> implements Map.Entry<K,V> { final K key; V value; // 指向下一個節點 Entry<K,V> next; final int hash; // 構造函數。 // 輸入參數包括"哈希值(h)", "鍵(k)", "值(v)", "下一節點(n)" Entry(int h, K k, V v, Entry<K,V> n) { value = v; next = n; key = k; hash = h; } public final K getKey() { return key; } public final V getValue() { return value; } public final V setValue(V newValue) { V oldValue = value; value = newValue; return oldValue; } // 判斷兩個Entry是否相等 // 若兩個Entry的“key”和“value”都相等,則返回true。 // 否則,返回false public final boolean equals(Object o) { if (!(o instanceof Map.Entry)) return false; Map.Entry e = (Map.Entry)o; Object k1 = getKey(); Object k2 = e.getKey(); if (k1 == k2 || (k1 != null && k1.equals(k2))) { Object v1 = getValue(); Object v2 = e.getValue(); if (v1 == v2 || (v1 != null && v1.equals(v2))) return true; } return false; } // 實現hashCode() public final int hashCode() { return (key==null ? 0 : key.hashCode()) ^ (value==null ? 0 : value.hashCode()); } public final String toString() { return getKey() + "=" + getValue(); } // 當向HashMap中添加元素時,繪調用recordAccess()。 // 這里不做任何處理 void recordAccess(HashMap<K,V> m) { } // 當從HashMap中刪除元素時,繪調用recordRemoval()。 // 這里不做任何處理 void recordRemoval(HashMap<K,V> m) { } }?
HashMap其實就是一個Entry數組,Entry對象中包含了鍵和值,其中next也是一個Entry對象,它就是用來處理hash沖突的,形成一個鏈表。
?
三、HashMap源碼分析
?
? ? ? ?1、關鍵屬性
先看看HashMap類中的一些關鍵屬性:
?
1 transient Entry[] table;//存儲元素的實體數組 2 3 transient int size;//存放元素的個數 4 5 int threshold; //臨界值 當實際大小超過臨界值時,會進行擴容threshold = 加載因子*容量 6 7 final float loadFactor; //加載因子 8 9 transient int modCount;//被修改的次數?
其中loadFactor加載因子是表示Hsah表中元素的填滿的程度.
若:加載因子越大,填滿的元素越多,好處是,空間利用率高了,但:沖突的機會加大了.鏈表長度會越來越長,查找效率降低。
反之,加載因子越小,填滿的元素越少,好處是:沖突的機會減小了,但:空間浪費多了.表中的數據將過于稀疏(很多空間還沒用,就開始擴容了)
沖突的機會越大,則查找的成本越高.
因此,必須在?"沖突的機會"與"空間利用率"之間尋找一種平衡與折衷.?這種平衡與折衷本質上是數據結構中有名的"時-空"矛盾的平衡與折衷.
如果機器內存足夠,并且想要提高查詢速度的話可以將加載因子設置小一點;相反如果機器內存緊張,并且對查詢速度沒有什么要求的話可以將加載因子設置大一點。不過一般我們都不用去設置它,讓它取默認值0.75就好了。
?
2、構造方法
下面看看HashMap的幾個構造方法:
?
public HashMap(int initialCapacity, float loadFactor) {2 //確保數字合法3 if (initialCapacity < 0)4 throw new IllegalArgumentException("Illegal initial capacity: " +5 initialCapacity);6 if (initialCapacity > MAXIMUM_CAPACITY)7 initialCapacity = MAXIMUM_CAPACITY;8 if (loadFactor <= 0 || Float.isNaN(loadFactor))9 throw new IllegalArgumentException("Illegal load factor: " + 10 loadFactor); 11 12 // Find a power of 2 >= initialCapacity 13 int capacity = 1; //初始容量 14 while (capacity < initialCapacity) //確保容量為2的n次冪,使capacity為大于initialCapacity的最小的2的n次冪 15 capacity <<= 1; 16 17 this.loadFactor = loadFactor; 18 threshold = (int)(capacity * loadFactor); 19 table = new Entry[capacity]; 20 init(); 21 } 22 23 public HashMap(int initialCapacity) { 24 this(initialCapacity, DEFAULT_LOAD_FACTOR); 25 } 26 27 public HashMap() { 28 this.loadFactor = DEFAULT_LOAD_FACTOR; 29 threshold = (int)(DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR); 30 table = new Entry[DEFAULT_INITIAL_CAPACITY]; 31 init(); 32 }?
我們可以看到在構造HashMap的時候如果我們指定了加載因子和初始容量的話就調用第一個構造方法,否則的話就是用默認的。默認初始容量為16,默認加載因子為0.75。我們可以看到上面代碼中13-15行,這段代碼的作用是確保容量為2的n次冪,使capacity為大于initialCapacity的最小的2的n次冪,至于為什么要把容量設置為2的n次冪,我們等下再看。
?
重點分析下HashMap中用的最多的兩個方法put和get
? ? ???3、存儲數據
下面看看HashMap存儲數據的過程是怎樣的,首先看看HashMap的put方法:
??
public V put(K key, V value) {// 若“key為null”,則將該鍵值對添加到table[0]中。if (key == null) return putForNullKey(value);// 若“key不為null”,則計算該key的哈希值,然后將其添加到該哈希值對應的鏈表中。int hash = hash(key.hashCode());//搜索指定hash值在對應table中的索引int i = indexFor(hash, table.length);// 循環遍歷Entry數組,若“該key”對應的鍵值對已經存在,則用新的value取代舊的value。然后退出!for (Entry<K,V> e = table[i]; e != null; e = e.next) { Object k;if (e.hash == hash && ((k = e.key) == key || key.equals(k))) { //如果key相同則覆蓋并返回舊值V oldValue = e.value;e.value = value;e.recordAccess(this);return oldValue;}}//修改次數+1modCount++;//將key-value添加到table[i]處 addEntry(hash, key, value, i);return null; }?
上面程序中用到了一個重要的內部接口:Map.Entry,每個?Map.Entry?其實就是一個?key-value?對。從上面程序中可以看出:當系統決定存儲?HashMap?中的?key-value?對時,完全沒有考慮?Entry?中的?value,僅僅只是根據?key?來計算并決定每個?Entry?的存儲位置。這也說明了前面的結論:我們完全可以把?Map?集合中的?value?當成?key?的附屬,當系統決定了?key?的存儲位置之后,value?隨之保存在那里即可。
我們慢慢的來分析這個函數,第2和3行的作用就是處理key值為null的情況,我們看看putForNullKey(value)方法:
?
1 private V putForNullKey(V value) {2 for (Entry<K,V> e = table[0]; e != null; e = e.next) {3 if (e.key == null) { //如果有key為null的對象存在,則覆蓋掉4 V oldValue = e.value;5 e.value = value;6 e.recordAccess(this);7 return oldValue;8 }9 } 10 modCount++; 11 addEntry(0, null, value, 0); //如果鍵為null的話,則hash值為0 12 return null; 13 }?
注意:如果key為null的話,hash值為0,對象存儲在數組中索引為0的位置。即table[0]
我們再回去看看put方法中第4行,它是通過key的hashCode值計算hash碼,下面是計算hash碼的函數:
?
1 //計算hash值的方法 通過鍵的hashCode來計算 2 static int hash(int h) { 3 // This function ensures that hashCodes that differ only by 4 // constant multiples at each bit position have a bounded 5 // number of collisions (approximately 8 at default load factor). 6 h ^= (h >>> 20) ^ (h >>> 12); 7 return h ^ (h >>> 7) ^ (h >>> 4); 8 }?
得到hash碼之后就會通過hash碼去計算出應該存儲在數組中的索引,計算索引的函數如下:
?
1 static int indexFor(int h, int length) { //根據hash值和數組長度算出索引值 2 return h & (length-1); //這里不能隨便算取,用hash&(length-1)是有原因的,這樣可以確保算出來的索引是在數組大小范圍內,不會超出 3 }?
這個我們要重點說下,我們一般對哈希表的散列很自然地會想到用hash值對length取模(即除法散列法),Hashtable中也是這樣實現的,這種方法基本能保證元素在哈希表中散列的比較均勻,但取模會用到除法運算,效率很低,HashMap中則通過h&(length-1)的方法來代替取模,同樣實現了均勻的散列,但效率要高很多,這也是HashMap對Hashtable的一個改進。
?
? ??接下來,我們分析下為什么哈希表的容量一定要是2的整數次冪。首先,length為2的整數次冪的話,h&(length-1)就相當于對length取模,這樣便保證了散列的均勻,同時也提升了效率;其次,length為2的整數次冪的話,為偶數,這樣length-1為奇數,奇數的最后一位是1,這樣便保證了h&(length-1)的最后一位可能為0,也可能為1(這取決于h的值),即與后的結果可能為偶數,也可能為奇數,這樣便可以保證散列的均勻性,而如果length為奇數的話,很明顯length-1為偶數,它的最后一位是0,這樣h&(length-1)的最后一位肯定為0,即只能為偶數,這樣任何hash值都只會被散列到數組的偶數下標位置上,這便浪費了近一半的空間,因此,length取2的整數次冪,是為了使不同hash值發生碰撞的概率較小,這樣就能使元素在哈希表中均勻地散列。
?
這看上去很簡單,其實比較有玄機的,我們舉個例子來說明:
假設數組長度分別為15和16,優化后的hash碼分別為8和9,那么&運算后的結果如下:?
h & (table.length-1) hash table.length-18 & (15-1): 0100 & 1110 = 01009 & (15-1): 0101 & 1110 = 0100-----------------------------------------------------------------------------------------------------------------------8 & (16-1): 0100 & 1111 = 01009 & (16-1): 0101 & 1111 = 0101?
從上面的例子中可以看出:當它們和15-1(1110)“與”的時候,產生了相同的結果,也就是說它們會定位到數組中的同一個位置上去,這就產生了碰撞,8和9會被放到數組中的同一個位置上形成鏈表,那么查詢的時候就需要遍歷這個鏈?表,得到8或者9,這樣就降低了查詢的效率。同時,我們也可以發現,當數組長度為15的時候,hash值會與15-1(1110)進行“與”,那么?最后一位永遠是0,而0001,0011,0101,1001,1011,0111,1101這幾個位置永遠都不能存放元素了,空間浪費相當大,更糟的是這種情況中,數組可以使用的位置比數組長度小了很多,這意味著進一步增加了碰撞的幾率,減慢了查詢的效率!而當數組長度為16時,即為2的n次方時,2n-1得到的二進制數的每個位上的值都為1,這使得在低位上&時,得到的和原hash的低位相同,加之hash(int?h)方法對key的hashCode的進一步優化,加入了高位計算,就使得只有相同的hash值的兩個值才會被放到數組中的同一個位置上形成鏈表。
?所以說,當數組長度為2的n次冪的時候,不同的key算得得index相同的幾率較小,那么數據在數組上分布就比較均勻,也就是說碰撞的幾率小,相對的,查詢的時候就不用遍歷某個位置上的鏈表,這樣查詢效率也就較高了。
? ? ? ?根據上面 put 方法的源代碼可以看出,當程序試圖將一個key-value對放入HashMap中時,程序首先根據該 key 的 hashCode() 返回值決定該 Entry 的存儲位置:如果兩個 Entry 的 key 的 hashCode() 返回值相同,那它們的存儲位置相同。如果這兩個 Entry 的 key 通過 equals 比較返回 true,新添加 Entry 的 value 將覆蓋集合中原有 Entry 的 value,但key不會覆蓋。如果這兩個 Entry 的 key 通過 equals 比較返回 false,新添加的 Entry 將與集合中原有 Entry 形成 Entry 鏈,而且新添加的 Entry 位于 Entry 鏈的頭部——具體說明繼續看 addEntry() 方法的說明。
?
?
1 void addEntry(int hash, K key, V value, int bucketIndex) { 2 Entry<K,V> e = table[bucketIndex]; //如果要加入的位置有值,將該位置原先的值設置為新entry的next,也就是新entry鏈表的下一個節點 3 table[bucketIndex] = new Entry<>(hash, key, value, e); 4 if (size++ >= threshold) //如果大于臨界值就擴容 5 resize(2 * table.length); //以2的倍數擴容 6 }?
參數bucketIndex就是indexFor函數計算出來的索引值,第2行代碼是取得數組中索引為bucketIndex的Entry對象,第3行就是用hash、key、value構建一個新的Entry對象放到索引為bucketIndex的位置,并且將該位置原先的對象設置為新對象的next構成鏈表。
第4行和第5行就是判斷put后size是否達到了臨界值threshold,如果達到了臨界值就要進行擴容,HashMap擴容是擴為原來的兩倍。
?
4、調整大小
resize()方法如下:
?重新調整HashMap的大小,newCapacity是調整后的單位
1 void resize(int newCapacity) {2 Entry[] oldTable = table;3 int oldCapacity = oldTable.length;4 if (oldCapacity == MAXIMUM_CAPACITY) {5 threshold = Integer.MAX_VALUE;6 return;7 }8 9 Entry[] newTable = new Entry[newCapacity]; 10 transfer(newTable);//用來將原先table的元素全部移到newTable里面 11 table = newTable; //再將newTable賦值給table 12 threshold = (int)(newCapacity * loadFactor);//重新計算臨界值 13 }?
新建了一個HashMap的底層數組,上面代碼中第10行為調用transfer方法,將HashMap的全部元素添加到新的HashMap中,并重新計算元素在新的數組中的索引位置
?
?
當HashMap中的元素越來越多的時候,hash沖突的幾率也就越來越高,因為數組的長度是固定的。所以為了提高查詢的效率,就要對HashMap的數組進行擴容,數組擴容這個操作也會出現在ArrayList中,這是一個常用的操作,而在HashMap數組擴容之后,最消耗性能的點就出現了:原數組中的數據必須重新計算其在新數組中的位置,并放進去,這就是resize。
?
?? 那么HashMap什么時候進行擴容呢?當HashMap中的元素個數超過數組大小*loadFactor時,就會進行數組擴容,loadFactor的默認值為0.75,這是一個折中的取值。也就是說,默認情況下,數組大小為16,那么當HashMap中元素個數超過16*0.75=12的時候,就把數組的大小擴展為 2*16=32,即擴大一倍,然后重新計算每個元素在數組中的位置,擴容是需要進行數組復制的,復制數組是非常消耗性能的操作,所以如果我們已經預知HashMap中元素的個數,那么預設元素的個數能夠有效的提高HashMap的性能。
?
?
?5、數據讀取
?
?
1.public V get(Object key) { 2. if (key == null) 3. return getForNullKey(); 4. int hash = hash(key.hashCode()); 5. for (Entry<K,V> e = table[indexFor(hash, table.length)]; 6. e != null; 7. e = e.next) { 8. Object k; 9. if (e.hash == hash && ((k = e.key) == key || key.equals(k))) 10. return e.value; 11. } 12. return null; 13.}有了上面存儲時的hash算法作為基礎,理解起來這段代碼就很容易了。從上面的源代碼中可以看出:從HashMap中get元素時,首先計算key的hashCode,找到數組中對應位置的某一元素,然后通過key的equals方法在對應位置的鏈表中找到需要的元素。
?
6、HashMap的性能參數:
?
?? HashMap 包含如下幾個構造器:
?? HashMap():構建一個初始容量為 16,負載因子為 0.75 的 HashMap。
?? HashMap(int initialCapacity):構建一個初始容量為 initialCapacity,負載因子為 0.75 的 HashMap。
?? HashMap(int initialCapacity, float loadFactor):以指定初始容量、指定的負載因子創建一個 HashMap。
?? HashMap的基礎構造器HashMap(int initialCapacity, float loadFactor)帶有兩個參數,它們是初始容量initialCapacity和加載因子loadFactor。
?? initialCapacity:HashMap的最大容量,即為底層數組的長度。
?? loadFactor:負載因子loadFactor定義為:散列表的實際元素數目(n)/ 散列表的容量(m)。
?? 負載因子衡量的是一個散列表的空間的使用程度,負載因子越大表示散列表的裝填程度越高,反之愈小。對于使用鏈表法的散列表來說,查找一個元素的平均時間是O(1+a),因此如果負載因子越大,對空間的利用更充分,然而后果是查找效率的降低;如果負載因子太小,那么散列表的數據將過于稀疏,對空間造成嚴重浪費。
?? HashMap的實現中,通過threshold字段來判斷HashMap的最大容量:
?
threshold = (int)(capacity * loadFactor);?? 結合負載因子的定義公式可知,threshold就是在此loadFactor和capacity對應下允許的最大元素數目,超過這個數目就重新resize,以降低實際的負載因子。默認的的負載因子0.75是對空間和時間效率的一個平衡選擇。當容量超出此最大容量時, resize后的HashMap容量是容量的兩倍:
concurrenthashmap轉載與文章:http://www.iteye.com/topic/344876
ConcurrentHashMap是Java 5中支持高并發、高吞吐量的線程安全HashMap實現。在這之前我對ConcurrentHashMap只有一些膚淺的理解,僅知道它采用了多個鎖,大概也足夠了。但是在經過一次慘痛的面試經歷之后,我覺得必須深入研究它的實現。面試中被問到讀是否要加鎖,因為讀寫會發生沖突,我說必須要加鎖,我和面試官也因此發生了沖突,結果可想而知。還是閑話少說,通過仔細閱讀源代碼,現在總算理解ConcurrentHashMap實現機制了,其實現之精巧,令人嘆服,與大家共享之。
?
?
實現原理?
?
鎖分離 (Lock Stripping)
?
ConcurrentHashMap允許多個修改操作并發進行,其關鍵在于使用了鎖分離技術。它使用了多個鎖來控制對hash表的不同部分進行的修改。ConcurrentHashMap內部使用段(Segment)來表示這些不同的部分,每個段其實就是一個小的hash table,它們有自己的鎖。只要多個修改操作發生在不同的段上,它們就可以并發進行。
?
有些方法需要跨段,比如size()和containsValue(),它們可能需要鎖定整個表而而不僅僅是某個段,這需要按順序鎖定所有段,操作完畢后,又按順序釋放所有段的鎖。這里“按順序”是很重要的,否則極有可能出現死鎖,在ConcurrentHashMap內部,段數組是final的,并且其成員變量實際上也是final的,但是,僅僅是將數組聲明為final的并不保證數組成員也是final的,這需要實現上的保證。這可以確保不會出現死鎖,因為獲得鎖的順序是固定的。不變性是多線程編程占有很重要的地位,下面還要談到。
?
Java代碼???
不變(Immutable)和易變(Volatile)
?
ConcurrentHashMap完全允許多個讀操作并發進行,讀操作并不需要加鎖。如果使用傳統的技術,如HashMap中的實現,如果允許可以在hash鏈的中間添加或刪除元素,讀操作不加鎖將得到不一致的數據。ConcurrentHashMap實現技術是保證HashEntry幾乎是不可變的。HashEntry代表每個hash鏈中的一個節點,其結構如下所示:
?
Java代碼??可以看到除了value不是final的,其它值都是final的,這意味著不能從hash鏈的中間或尾部添加或刪除節點,因為這需要修改next引用值,所有的節點的修改只能從頭部開始。對于put操作,可以一律添加到Hash鏈的頭部。但是對于remove操作,可能需要從中間刪除一個節點,這就需要將要刪除節點的前面所有節點整個復制一遍,最后一個節點指向要刪除結點的下一個結點。這在講解刪除操作時還會詳述。為了確保讀操作能夠看到最新的值,將value設置成volatile,這避免了加鎖。
?
其它
?
為了加快定位段以及段中hash槽的速度,每個段hash槽的的個數都是2^n,這使得通過位運算就可以定位段和段中hash槽的位置。當并發級別為默認值16時,也就是段的個數,hash值的高4位決定分配在哪個段中。但是我們也不要忘記《算法導論》給我們的教訓:hash槽的的個數不應該是2^n,這可能導致hash槽分配不均,這需要對hash值重新再hash一次。(這段似乎有點多余了?)
?
這是重新hash的算法,還比較復雜,我也懶得去理解了。
Java代碼???
這是定位段的方法:
Java代碼???
?
數據結構
?
關于Hash表的基礎數據結構,這里不想做過多的探討。Hash表的一個很重要方面就是如何解決hash沖突,ConcurrentHashMap和HashMap使用相同的方式,都是將hash值相同的節點放在一個hash鏈中。與HashMap不同的是,ConcurrentHashMap使用多個子Hash表,也就是段(Segment)。下面是ConcurrentHashMap的數據成員:
?
Java代碼???
所有的成員都是final的,其中segmentMask和segmentShift主要是為了定位段,參見上面的segmentFor方法。
?
每個Segment相當于一個子Hash表,它的數據成員如下:
?
Java代碼??count用來統計該段數據的個數,它是volatile,它用來協調修改和讀取操作,以保證讀取操作能夠讀取到幾乎最新的修改。協調方式是這樣的,每次修改操作做了結構上的改變,如增加/刪除節點(修改節點的值不算結構上的改變),都要寫count值,每次讀取操作開始都要讀取count的值。這利用了Java 5中對volatile語義的增強,對同一個volatile變量的寫和讀存在happens-before關系。modCount統計段結構改變的次數,主要是為了檢測對多個段進行遍歷過程中某個段是否發生改變,在講述跨段操作時會還會詳述。threashold用來表示需要進行rehash的界限值。table數組存儲段中節點,每個數組元素是個hash鏈,用HashEntry表示。table也是volatile,這使得能夠讀取到最新的table值而不需要同步。loadFactor表示負載因子。
?
?
實現細節
?
修改操作
?
先來看下刪除操作remove(key)。
Java代碼??整個操作是先定位到段,然后委托給段的remove操作。當多個刪除操作并發進行時,只要它們所在的段不相同,它們就可以同時進行。下面是Segment的remove方法實現:
Java代碼???整個操作是在持有段鎖的情況下執行的,空白行之前的行主要是定位到要刪除的節點e。接下來,如果不存在這個節點就直接返回null,否則就要將e前面的結點復制一遍,尾結點指向e的下一個結點。e后面的結點不需要復制,它們可以重用。下面是個示意圖,我直接從這個網站?上復制的(畫這樣的圖實在是太麻煩了,如果哪位有好的畫圖工具,可以推薦一下)。
?
?
刪除元素之前:
?
?
?
刪除元素3之后:
?
第二個圖其實有點問題,復制的結點中應該是值為2的結點在前面,值為1的結點在后面,也就是剛好和原來結點順序相反,還好這不影響我們的討論。
?
整個remove實現并不復雜,但是需要注意如下幾點。第一,當要刪除的結點存在時,刪除的最后一步操作要將count的值減一。這必須是最后一步操作,否則讀取操作可能看不到之前對段所做的結構性修改。第二,remove執行的開始就將table賦給一個局部變量tab,這是因為table是volatile變量,讀寫volatile變量的開銷很大。編譯器也不能對volatile變量的讀寫做任何優化,直接多次訪問非volatile實例變量沒有多大影響,編譯器會做相應優化。
?
?
接下來看put操作,同樣地put操作也是委托給段的put方法。下面是段的put方法:
Java代碼??該方法也是在持有段鎖的情況下執行的,首先判斷是否需要rehash,需要就先rehash。接著是找是否存在同樣一個key的結點,如果存在就直接替換這個結點的值。否則創建一個新的結點并添加到hash鏈的頭部,這時一定要修改modCount和count的值,同樣修改count的值一定要放在最后一步。put方法調用了rehash方法,reash方法實現得也很精巧,主要利用了table的大小為2^n,這里就不介紹了。
?
修改操作還有putAll和replace。putAll就是多次調用put方法,沒什么好說的。replace甚至不用做結構上的更改,實現要比put和delete要簡單得多,理解了put和delete,理解replace就不在話下了,這里也不介紹了。
?
?
獲取操作
?
首先看下get操作,同樣ConcurrentHashMap的get操作是直接委托給Segment的get方法,直接看Segment的get方法:
?
Java代碼???
get操作不需要鎖。第一步是訪問count變量,這是一個volatile變量,由于所有的修改操作在進行結構修改時都會在最后一步寫count變量,通過這種機制保證get操作能夠得到幾乎最新的結構更新。對于非結構更新,也就是結點值的改變,由于HashEntry的value變量是volatile的,也能保證讀取到最新的值。接下來就是對hash鏈進行遍歷找到要獲取的結點,如果沒有找到,直接訪回null。對hash鏈進行遍歷不需要加鎖的原因在于鏈指針next是final的。但是頭指針卻不是final的,這是通過getFirst(hash)方法返回,也就是存在table數組中的值。這使得getFirst(hash)可能返回過時的頭結點,例如,當執行get方法時,剛執行完getFirst(hash)之后,另一個線程執行了刪除操作并更新頭結點,這就導致get方法中返回的頭結點不是最新的。這是可以允許,通過對count變量的協調機制,get能讀取到幾乎最新的數據,雖然可能不是最新的。要得到最新的數據,只有采用完全的同步。
?
最后,如果找到了所求的結點,判斷它的值如果非空就直接返回,否則在有鎖的狀態下再讀一次。這似乎有些費解,理論上結點的值不可能為空,這是因為put的時候就進行了判斷,如果為空就要拋NullPointerException。空值的唯一源頭就是HashEntry中的默認值,因為HashEntry中的value不是final的,非同步讀取有可能讀取到空值。仔細看下put操作的語句:tab[index] = new HashEntry<K,V>(key, hash, first, value),在這條語句中,HashEntry構造函數中對value的賦值以及對tab[index]的賦值可能被重新排序,這就可能導致結點的值為空。這種情況應當很罕見,一旦發生這種情況,ConcurrentHashMap采取的方式是在持有鎖的情況下再讀一遍,這能夠保證讀到最新的值,并且一定不會為空值。
?
Java代碼???
另一個操作是containsKey,這個實現就要簡單得多了,因為它不需要讀取值:
Java代碼???
跨段操作?
?
有些操作需要涉及到多個段,比如說size(), containsValaue()。先來看下size()方法:
?
Java代碼???
size方法主要思路是先在沒有鎖的情況下對所有段大小求和,如果不能成功(這是因為遍歷過程中可能有其它線程正在對已經遍歷過的段進行結構性更新),最多執行RETRIES_BEFORE_LOCK次,如果還不成功就在持有所有段鎖的情況下再對所有段大小求和。在沒有鎖的情況下主要是利用Segment中的modCount進行檢測,在遍歷過程中保存每個Segment的modCount,遍歷完成之后再檢測每個Segment的modCount有沒有改變,如果有改變表示有其它線程正在對Segment進行結構性并發更新,需要重新計算。
?
?
其實這種方式是存在問題的,在第一個內層for循環中,在這兩條語句sum += segments[i].count; mcsum += mc[i] = segments[i].modCount;之間,其它線程可能正在對Segment進行結構性的修改,導致segments[i].count和segments[i].modCount讀取的數據并不一致。這可能使size()方法返回任何時候都不曾存在的大小,很奇怪javadoc居然沒有明確標出這一點,可能是因為這個時間窗口太小了吧。size()的實現還有一點需要注意,必須要先segments[i].count,才能segments[i].modCount,這是因為segment[i].count是對volatile變量的訪問,接下來segments[i].modCount才能得到幾乎最新的值(前面我已經說了為什么只是“幾乎”了)。這點在containsValue方法中得到了淋漓盡致的展現:
?
?
Java代碼??同樣注意內層的第一個for循環,里面有語句int c = segments[i].count; 但是c卻從來沒有被使用過,即使如此,編譯器也不能做優化將這條語句去掉,因為存在對volatile變量count的讀取,這條語句存在的唯一目的就是保證segments[i].modCount讀取到幾乎最新的值。關于containsValue方法的其它部分就不分析了,它和size方法差不多。
?
?
跨段方法中還有一個isEmpty()方法,其實現比size()方法還要簡單,也不介紹了。最后簡單地介紹下迭代方法,如keySet(), values(), entrySet()方法,這些方法都返回相應的迭代器,所有迭代器都繼承于Hash_Iterator類(提交時居然提醒我不能包含sh It,只得加了下劃線),里實現了主要的方法。其結構是:
?
Java代碼???
?nextSegmentIndex是段的索引,nextTableIndex是nextSegmentIndex對應段中中hash鏈的索引,currentTable是nextSegmentIndex對應段的table。調用next方法時主要是調用了advance方法:
?
?
Java代碼??不想再多介紹了,唯一需要注意的是跳到下一個段時,一定要先讀取下一個段的count變量。?
?
這種迭代方式的主要效果是不會拋出ConcurrentModificationException。一旦獲取到下一個段的table,也就意味著這個段的頭結點在迭代過程中就確定了,在迭代過程中就不能反映對這個段節點并發的刪除和添加,對于節點的更新是能夠反映的,因為節點的值是一個volatile變量。
?
結束語
?
ConcurrentHashMap是一個支持高并發的高性能的HashMap實現,它支持完全并發的讀以及一定程度并發的寫。ConcurrentHashMap的實現也是很精巧,充分利用了最新的JMM規范,值得學習,卻不值得模仿。最后由于本人水平有限,對大師的作品難免有誤解,如果存在,還望大牛們不吝指出。
?
?
?
?
參考文章:
http://www.ibm.com/developerworks/java/library/j-jtp08223/,這個是討論的是Doug Lea's util.concurrent包中的ConcurrentHashMap的實現,不過大致思想是一致的。
?
http://floatingpoint.tinou.com/2008/09/performance-optimization-in-concurrenthashmap.html
// 以下是源博主對疑問的解釋:
其實這種方式是存在問題的,在第一個內層for循環中,在這兩條語句sum += segments[i].count; mcsum += mc[i] = segments[i].modCount;之間,其它線程可能正在對Segment進行結構性的修改,導致segments[i].count和segments[i].modCount讀取的數據并不一致。這可能使size()方法返回任何時候都不曾存在的大小,很奇怪javadoc居然沒有明確標出這一點,可能是因為這個時間窗口太小了吧。size()的實現還有一點需要注意,必須要先segments[i].count,才能segments[i].modCount,這是因為segment[i].count是對volatile變量的訪問,接下來segments[i].modCount才能得到幾乎最新的值(前面我已經說了為什么只是“幾乎”了)。?
樓主寫的非常好,又使我明白的不少東西。這個地方還是不理解,為什么需要首先調用一次volatile變量才使的modCount幾乎可以得到最新的值??
寫volatile變量和它之前的讀寫操作是不能reorder的,讀volatile變量和它之后的讀寫操作也是不能reorder的。?
修改modCount發生在修改count之前,由于count是volatile變量,修改modCount不能和寫count的操作reorder,讀取count和它之后的操作,比如讀取modCount,不能reorder。有了這兩個不能reorder才能保證讀取了count之后,能讀到線程在寫count之前的寫入的modCount值,這個modCount值是幾乎最新的。?
如果在讀modCount之前不讀count,讀modCount甚至可能會reorder到寫modCount之前。?
用reorder解釋總是太復雜了,不如用happens-before來得簡潔。當一個線程I對count的讀時,它讀到的值必定是另一個線程,假設是線程II,最近對count的寫。這個兩個操作存在happens-before關系,即線程II對count的寫happens-before線程I對count的讀,記作:II:W(count) < I:R(count)。單線程的happens-before規則,又有II:W(modCount) < II:(count)(查看源代碼會發現在寫count之前必定有寫modCount),以及 I:R(count) < I:R(modCount),根據傳遞規則有,II:(modCount) < I:(modCount),這就是說線程I至少能夠讀取到線程II寫count之前的modCount值。我曾經寫了一篇關于happens-before的文章,有些表達可能有誤,但大致還是對的,http://www.iteye.com/topic/260515。?
不理解的話,也只能告訴你結論了,如果沒有對count的寫的話(對volatile的寫是一種同步操作),讀modCount可能讀到很久很久很久以前的值(初始值0都有可能)。?
期待高人做更簡潔的解釋吧。
currenthashmap雖然是線程安全的,但是對于安全對象的發布也要注意:
如下問題:
public class TestClass{
? private ConcurrentHashMap<String,Integer> map=new ConcurrentHashMap<String,Integer>();
?public void add(String key){
Integer value=map.get(key);
if(value==null){
map.put(key,1);
}else{
map.put(key,value+1)
}
}
}
總結
以上是生活随笔為你收集整理的hashmap与concurrenthashmap源码解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 用ghost为服务器装系统,Ghost详
- 下一篇: Xilinx UltraScale