當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

散列表（哈希表）工作原理（转）

發(fā)布時間：2023/12/15 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了散列表（哈希表）工作原理（转）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1. 引言
?????? 哈希表（Hash Table）的應用近兩年才在NOI中出現(xiàn)，作為一種高效的數(shù)據(jù)結構，它正在競賽中發(fā)揮著越來越重要的作用。
哈希表最大的優(yōu)點，就是把數(shù)據(jù)的存儲和查找消耗的時間大大降低，幾乎可以看成是常數(shù)時間；而代價僅僅是消耗比較多的內(nèi)存。然而在當前可利用內(nèi)存越來越多的情況下，用空間換時間的做法是值得的。另外，編碼比較容易也是它的特點之一。
?????? 哈希表又叫做散列表，分為“開散列” 和“閉散列”。考慮到競賽時多數(shù)人通常避免使用動態(tài)存儲結構，本文中的“哈希表”僅指“閉散列”，關于其他方面讀者可參閱其他書籍。

2. 基礎操作
2.1 基本原理
?????? 我們使用一個下標范圍比較大的數(shù)組來存儲元素。可以設計一個函數(shù)（哈希函數(shù)，也叫做散列函數(shù)），使得每個元素的關鍵字都與一個函數(shù)值（即數(shù)組下標）相對應，于是用這個數(shù)組單元來存儲這個元素；也可以簡單的理解為，按照關鍵字為每一個元素“分類”，然后將這個元素存儲在相應“類”所對應的地方。
但是，不能夠保證每個元素的關鍵字與函數(shù)值是一一對應的，因此極有可能出現(xiàn)對于不同的元素，卻計算出了相同的函數(shù)值，這樣就產(chǎn)生了“沖突”，換句話說，就是把不同的元素分在了相同的“類”之中。后面我們將看到一種解決“沖突”的簡便做法。
總的來說，“直接定址”與“解決沖突”是哈希表的兩大特點。

2.2 函數(shù)構造
?????? 構造函數(shù)的常用方法（下面為了敘述簡潔，設 h(k) 表示關鍵字為 k 的元素所對應的函數(shù)值）：
a) 除余法：
?????? 選擇一個適當?shù)恼麛?shù) p ，令 h(k ) = k mod p ，這里， p 如果選取的是比較大的素數(shù)，效果比較好。而且此法非常容易實現(xiàn)，因此是最常用的方法。
b) 數(shù)字選擇法：
?????? 如果關鍵字的位數(shù)比較多，超過長整型范圍而無法直接運算，可以選擇其中數(shù)字分布比較均勻的若干位，所組成的新的值作為關鍵字或者直接作為函數(shù)值。

2.3 沖突處理
?????? 線性重新散列技術易于實現(xiàn)且可以較好的達到目的。令數(shù)組元素個數(shù)為 S ，則當 h(k) 已經(jīng)存儲了元素的時候，依次探查 (h(k)+i) mod S , i=1,2,3…… ，直到找到空的存儲單元為止（或者從頭到尾掃描一圈仍未發(fā)現(xiàn)空單元，這就是哈希表已經(jīng)滿了，發(fā)生了錯誤。當然這是可以通過擴大數(shù)組范圍避免的）。

2.4 支持運算
?????? 哈希表支持的運算主要有：初始化(makenull)、哈希函數(shù)值的運算(h(x))、插入元素(insert)、查找元素(member)。設插入的元素的關鍵字為 x ，A 為存儲的數(shù)組。初始化比較容易，例如：

[cpp] view plaincopyprint?

const?empty=maxlongint;?//?用非常大的整數(shù)代表這個位置沒有存儲元素 ??

p=9997;?//?表的大小 ??

procedure?makenull;??

var?i:integer;??

begin??

for?i:=0?to?p-1?do??

A[i]:=empty;??

End;???

const empty=maxlongint; // 用非常大的整數(shù)代表這個位置沒有存儲元素 p=9997; // 表的大小 procedure makenull; var i:integer; begin for i:=0 to p-1 do A[i]:=empty; End;
哈希函數(shù)值的運算根據(jù)函數(shù)的不同而變化，例如除余法的一個例子：

[cpp] view plaincopyprint?

function?h(x:longint):Integer;??

begin??

h:=?x?mod?p;??

end;???

function h(x:longint):Integer; begin h:= x mod p; end;
?????? 我們注意到，插入和查找首先都需要對這個元素定位，即如果這個元素若存在，它應該存儲在什么位置，因此加入一個定位的函數(shù) locate

[cpp] view plaincopyprint?

function?locate(x:longint):integer;??

var?orig,i:integer;??

begin??

orig:=h(x);??

i:=0;??

while?(i<S)and(A[(orig+i)mod?S]<>x)and(A[(orig+i)mod?S]<>empty)?do??

inc(i);??

//當這個循環(huán)停下來時，要么找到一個空的存儲單元，要么找到這個元 ??

//素存儲的單元，要么表已經(jīng)滿了 ??

locate:=(orig+i)?mod?S;??

end;???

function locate(x:longint):integer; var orig,i:integer; begin orig:=h(x); i:=0; while (i<S)and(A[(orig+i)mod S]<>x)and(A[(orig+i)mod S]<>empty) do inc(i); //當這個循環(huán)停下來時，要么找到一個空的存儲單元，要么找到這個元 //素存儲的單元，要么表已經(jīng)滿了 locate:=(orig+i) mod S; end;?
插入元素

[cpp] view plaincopyprint?

procedure?insert(x:longint);??

var?posi:integer;??

begin??

posi:=locate(x);?//定位函數(shù)的返回值 ??

if?A[posi]=empty?then?A[posi]:=x??

else?error;?//error?即為發(fā)生了錯誤，當然這是可以避免的 ??

end;???

procedure insert(x:longint); var posi:integer; begin posi:=locate(x); //定位函數(shù)的返回值 if A[posi]=empty then A[posi]:=x else error; //error 即為發(fā)生了錯誤，當然這是可以避免的 end;
查找元素是否已經(jīng)在表中

[cpp] view plaincopyprint?

procedure?member(x:longint):boolean;??

var?posi:integer;??

begin??

posi:=locate(x);??

if?A[posi]=x?then?member:=true??

else?member:=false;??

end;???

procedure member(x:longint):boolean; var posi:integer; begin posi:=locate(x); if A[posi]=x then member:=true else member:=false; end;
這些就是建立在哈希表上的常用基本運算。

?
初步結論：
?????? 當數(shù)據(jù)規(guī)模接近哈希表上界或者下界的時候，哈希表完全不能夠體現(xiàn)高效的特點，甚至還不如一般算法。但是如果規(guī)模在中央，它高效的特點可以充分體現(xiàn)。試驗表明當元素充滿哈希表的 90% 的時候，效率就已經(jīng)開始明顯下降。這就給了我們提示：如果確定使用哈希表，應該盡量使數(shù)組開大，但對最太大的數(shù)組進行操作也比較費時間，需要找到一個平衡點。通常使它的容量至少是題目最大需求的 120% ，效果比較好（這個僅僅是經(jīng)驗，沒有嚴格證明）。

3. 應用舉例
3.1 應用的簡單原則
?????? 什么時候適合應用哈希表呢？如果發(fā)現(xiàn)解決這個問題時經(jīng)常要詢問：“某個元素是否在已知集合中？”，也就是需要高效的數(shù)據(jù)存儲和查找，則使用哈希表是最好不過的了！那么，在應用哈希表的過程中，值得注意的是什么呢？
哈希函數(shù)的設計很重要。一個不好的哈希函數(shù)，就是指造成很多沖突的情況，從前面的例子已經(jīng)可以看出來，解決沖突會浪費掉大量時間，因此我們的目標就是盡力避免沖突。前面提到，在使用“除余法”的時候，h(k)=k mod p ，p 最好是一個大素數(shù)。這就是為了盡力避免沖突。為什么呢？假設 p=1000 ，則哈希函數(shù)分類的標準實際上就變成了按照末三位數(shù)分類，這樣最多1000類，沖突會很多。一般地說，如果 p 的約數(shù)越多，那么沖突的幾率就越大。
簡單的證明：假設 p 是一個有較多約數(shù)的數(shù)，同時在數(shù)據(jù)中存在 q 滿足 gcd(p,q)=d >1 ，即有 p=a*d , q=b*d, 則有 q mod p= q – p* [q div p] =q – p*[b div a] . ① 其中 [b div a ] 的取值范圍是不會超過 [0，b] 的正整數(shù)。也就是說， [b div a] 的值只有 b+1 種可能，而 p 是一個預先確定的數(shù)。因此 ① 式的值就只有 b+1 種可能了。這樣，雖然mod 運算之后的余數(shù)仍然在 [0，p-1] 內(nèi)，但是它的取值僅限于 ① 可能取到的那些值。也就是說余數(shù)的分布變得不均勻了。容易看出， p 的約數(shù)越多，發(fā)生這種余數(shù)分布不均勻的情況就越頻繁，沖突的幾率越高。而素數(shù)的約數(shù)是最少的，因此我們選用大素數(shù)。記住“素數(shù)是我們的得力助手”。
?????? 另一方面，一味的追求低沖突率也不好。理論上，是可以設計出一個幾乎完美，幾乎沒有沖突的函數(shù)的。然而，這樣做顯然不值得，因為這樣的函數(shù)設計很浪費時間而且編碼一定很復雜，與其花費這么大的精力去設計函數(shù)，還不如用一個雖然沖突多一些但是編碼簡單的函數(shù)。因此，函數(shù)還需要易于編碼，即易于實現(xiàn)。
?????? 綜上所述，設計一個好的哈希函數(shù)是很關鍵的。而“好”的標準，就是較低的沖突率和易于實現(xiàn)。
?????? 另外，使用哈希表并不是記住了前面的基本操作就能以不變應萬變的。有的時候，需要按照題目的要求對哈希表的結構作一些改進。往往一些簡單的改進就可以帶來巨大的方便。
這些只是一般原則，真正遇到試題的時候?qū)嶋H情況千變?nèi)f化，需要具體問題具體分析才行

（轉(zhuǎn)）http://blog.csdn.net/ilibaba/article/details/3960142

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結

以上是生活随笔為你收集整理的散列表（哈希表）工作原理（转）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python模块：time模块详解(转)
下一篇：【IT笔试面试题整理】丑数

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

散列表（哈希表）工作原理 （转）

總結

散列表（哈希表）工作原理（转）