hash表与系统顺序寻址
hash表即散列表,它是基于高速存取的角度設計的,也是一種典型的“空間換時間”的做法。顧名思義,該數據結構能夠理解為一個線性表,可是當中的元素不是緊密排列的,而是可能存在空隙。
散列表(Hash table,也叫哈希表),是依據關鍵碼值(Key value)而直接進行訪問的數據結構。也就是說,它通過把關鍵碼值映射到表中一個位置來訪問記錄,以加快查找的速度。這個映射函數叫做散列函數,存放記錄的數組叫做散列表。
比方我們存儲70個元素,但我們可能為這70個元素申請了100個元素的空間。70/100=0.7,這個數字稱為負載因子。我們之所以這樣做,也是為了“高速存取”的目的。我們基于一種結果盡可能隨機平均分布的固定函數H為每一個元素安排存儲位置,這樣就能夠避免遍歷性質的線性搜索,以達到高速存取。可是因為此隨機性,也必定導致一個問題就是沖突。所謂沖突,即兩個元素通過散列函數H得到的地址同樣,那么這兩個元素稱為“同義詞”。這類似于70個人去一個有100個椅子的飯店吃飯。散列函數的計算結果是一個存儲單位地址,每一個存儲單位稱為“桶”。設一個散列表有m個桶,則散列函數的值域應為[0,m-1]。
????? 解決沖突是一個復雜問題。沖突主要取決于:
(1)散列函數,一個好的散列函數的值應盡可能平均分布。
(2)處理沖突方法。
(3)負載因子的大小。太大不一定就好,并且浪費空間嚴重,負載因子和散列函數是聯動的。
????? 解決沖突的辦法:
???? (1)線性探查法:沖突后,線性向前試探,找到近期的一個空位置。缺點是會出現堆積現象。存取時,可能不是同義詞的詞也位于探查序列,影響效率。
?????(2)雙散列函數法:在位置d沖突后,再次使用還有一個散列函數產生一個與散列表桶容量m互質的數c,依次試探(d+n*c)%m,使探查序列跳躍式分布。
經常使用的構造散列函數的方法
散列函數能使對一個數據序列的訪問過程更加迅速有效,通過散列函數,數據元素將被更快地定位:
1. 直接尋址法:取keyword或keyword的某個線性函數值為散列地址。即H(key)=key或H(key) = a?key + b,當中a和b為常數(這樣的散列函數叫做自身函數)
2. 數字分析法:分析一組數據,比方一組員工的出生年月日,這時我們發現出生年月日的前幾位數字大體同樣,這種話,出現沖突的幾率就會非常大,可是我們發現年月日的后幾位表示月份和詳細日期的數字區別非常大,假設用后面的數字來構成散列地址,則沖突的幾率會明顯減少。因此數字分析法就是找出數字的規律,盡可能利用這些數據來構造沖突幾率較低的散列地址。
3. 平方取中法:取keyword平方后的中間幾位作為散列地址。
4. 折疊法:將keyword切割成位數同樣的幾部分,最后一部分位數能夠不同,然后取這幾部分的疊加和(去除進位)作為散列地址。
5. 隨機數法:選擇一隨機函數,取keyword的隨機值作為散列地址,通經常使用于keyword長度不同的場合。
6. 除留余數法:取keyword被某個不大于散列表表長m的數p除后所得的余數為散列地址。即 H(key) = key MOD p, p<=m。不僅能夠對keyword直接取模,也可在折疊、平方取中等運算之后取模。對p的選擇非常重要,一般取素數或m,若p選的不好,easy產生同義詞。
查找的性能分析
散列表的查找過程基本上和造表過程同樣。一些關鍵碼可通過散列函數轉換的地址直接找到,還有一些關鍵碼在散列函數得到的地址上產生了沖突,須要按處理沖突的方法進行查找。在介紹的三種處理沖突的方法中,產生沖突后的查找仍然是給定值與關鍵碼進行比較的過程。所以,對散列表查找效率的量度,依舊用平均查找長度來衡量。
查找過程中,關鍵碼的比較次數,取決于產生沖突的多少,產生的沖突少,查找效率就高,產生的沖突多,查找效率就低。因此,影響產生沖突多少的因素,也就是影響查找效率的因素。影響產生沖突多少有下面三個因素:
1. 散列函數是否均勻;
2. 處理沖突的方法;
3. 散列表的裝填因子。
散列表的裝填因子定義為:α= 填入表中的元素個數 / 散列表的長度
α是散列表裝滿程度的標志因子。因為表長是定值,α與“填入表中的元素個數”成正比,所以,α越大,填入表中的元素較多,產生沖突的可能性就越大;α越小,填入表中的元素較少,產生沖突的可能性就越小。
實際上,散列表的平均查找長度是裝填因子α的函數,僅僅是不同處理沖突的方法有不同的函數。
了解了hash基本定義,就不能不提到一些著名的hash算法,MD5 和 SHA-1 能夠說是眼下應用最廣泛的Hash算法,而它們都是以 MD4 為基礎設計的。那么他們都是什么意思呢?
這里簡單說一下:
(1) MD4
MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年設計的,MD 是 Message Digest 的縮寫。它適用在32位字長的處理器上用快速軟件實現--它是基于 32 位操作數的位操作來實現的。
(2) MD5
MD5(RFC 1321)是 Rivest 于1991年對MD4的改進版本號。它對輸入仍以512位分組,其輸出是4個32位字的級聯,與 MD4 同樣。MD5比MD4來得復雜,而且速度較之要慢一點,但更安全,在抗分析和抗差分方面表現更好
(3) SHA-1 及其它
SHA1是由NIST NSA設計為同DSA一起使用的,它對長度小于264的輸入,產生長度為160bit的散列值,因此抗窮舉(brute-force)性更好。SHA-1 設計時基于和MD4同樣原理,而且模仿了該算法。
哈希表不可避免沖突(collision)現象:對不同的keyword可能得到同一哈希地址?即key1≠key2,而hash(key1)=hash(key2)。因此,在建造哈希表時不僅要設定一個好的哈希函數,并且要設定一種處理沖突的方法。可例如以下描寫敘述哈希表:依據設定的哈希函數H(key)和所選中的處理沖突的方法,將一組keyword映象到一個有限的、地址連續的地址集(區間)上并以keyword在地址集中的“象”作為對應記錄在表中的存儲位置,這樣的表被稱為哈希表。
對于動態查找表而言,1) 表長不確定;2)在設計查找表時,僅僅知道keyword所屬范圍,而不知道確切的keyword。因此,普通情況需建立一個函數關系,以f(key)作為keyword為key的錄在表中的位置,通常稱這個函數f(key)為哈希函數。(注意:這個函數并不一定是數學函數)
哈希函數是一個映象,即:將keyword的集合映射到某個地址集合上,它的設置非常靈活,僅僅要這個地址集合的大小不超出同意范圍就可以。
現實中哈希函數是須要構造的,而且構造的好才干使用的好。
那么這些Hash算法究竟有什么用呢?
Hash算法在信息安全方面的應用主要體如今下面的3個方面:
(1) 文件校驗
我們比較熟悉的校驗算法有奇偶校驗和CRC校驗,這2種校驗并沒有抗數據篡改的能力,它們一定程度上能檢測并糾正傳輸數據中的信道誤碼,但卻不能防止對數據的惡意破壞。
MD5 Hash算法的"數字指紋"特性,使它成為眼下應用最廣泛的一種文件完整性校驗和(Checksum)算法,不少Unix系統有提供計算md5 checksum的命令。
(2) 數字簽名
Hash 算法也是現代password體系中的一個重要組成部分。因為非對稱算法的運算速度較慢,所以在數字簽名協議中,單向散列函數扮演了一個重要的角色。 對 Hash 值,又稱"數字摘要"進行數字簽名,在統計上能夠覺得與對文件本身進行數字簽名是等效的。并且這種協議還有其它的長處。
(3) 鑒權協議
例如以下的鑒權協議又被稱作挑戰--認證模式:在傳輸信道是可被偵聽,但不可被篡改的情況下,這是一種簡單而安全的方法。
題外話(基礎知識):
操作系統是順序尋址的,我們在c/c++中創建指針,int *p ; 那么*p[32]也是可以直接調用的.創建一個指針,實際上是創建一個地址數組,我們可以沿著這個指針順序往下取址。
hash數據結構代碼:
#include <stdio.h>#define HASHSIZE 256//定義hash表中的節點的類型 struct nlist{struct nlist *next;char *name;char *defn; };//定義接口中的函數,也就是對外來說,這個程序可以做什么 unsigned hash(char *s);//計算一個串的hash值 struct nlist *lookup(char *s);//查找一個value,根據key struct nlist *install(char *name,char *defn);//插入一個key=value的對象 #include <string.h> #include "list.h"static struct nlist *hashtab[HASHSIZE];unsigned hash(char *s) //取得hash值 {unsigned hashval;for(hashval = 0; *s != '\0';s++)hashval = *s + 31 * hashval;return hashval % HASHSIZE; }struct nlist *lookup(char *s) {struct nlist *np;for(np = hashtab[hash(s)]; np != NULL; np = np->next)if(strcmp(s,np->name) == 0)return np;return NULL; }struct nlist *install(char *name,char *defn) {struct nlist *np;unsigned hashval;if((np = lookup(name)) == NULL){np = (struct nlist *)malloc(sizeof(struct nlist));if(np == NULL || (np->name = strdup(name)) == NULL)return NULL;hashval = hash(name);np->next= hashtab[hashval];hashtab[hashval] = np;}elsefree((void *)np->defn);if((np->defn = strdup(defn)) == NULL)return NULL;return np; }
很簡單,只有兩個外部接口,
代碼很簡單,主要用到的hash算法跟java中的String的hashcode()方法中用到的算法一樣,使用:
unsigned hash(char *s) {unsigned hashval;for(hashval = 0; *s != '\0';s++)hashval = *s + 31 * hashval;return hashval % HASHSIZE; } 這里的31并非隨意,乃是一個 經驗值 ,選取它的目的在于減少沖突,當然,hash沖突這個問題是不能根本避免的。這里只是一個人們在測試中發現的可以相對減少hash沖突的一個數字,可能以后會發現更好的數值來。hash 表數據結構圖:
總結
以上是生活随笔為你收集整理的hash表与系统顺序寻址的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Java面试题】MySQL索引底层为什
- 下一篇: java信息管理系统总结_java实现科