當前位置：首頁 >

Hash简介

發(fā)布時間：2025/5/22 60 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hash简介小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1基本概況

Hash，一般翻譯做“散列”，也有直接音譯為“哈希”的，就是把任意長度的輸入（又叫做預(yù)映射， pre-p_w_picpath），通過散列算法，變換成固定長度的輸出，該輸出就是散列值。這種轉(zhuǎn)換是一種壓縮映射，也就是，散列值的空間通常遠小于輸入的空間，不同的輸入可能會散列成相同的輸出，而不可能從散列值來唯一的確定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數(shù)。HASH函數(shù)(計算機算法領(lǐng)域）

基本概念

* 若結(jié)構(gòu)中存在和關(guān)鍵字K相等的記錄，則必定在f(K)的存儲位置上。由此，不需比較便可直接取得所查記錄。稱這個對應(yīng)關(guān)系f為散列函數(shù)(Hash function)，按這個思想建立的表為散列表。* 對不同的關(guān)鍵字可能得到同一散列地址，即key1≠key2，而f(key1)=f(key2)，這種現(xiàn)象稱碰撞。具有相同函數(shù)值的關(guān)鍵字對該散列函數(shù)來說稱做同義詞。綜上所述，根據(jù)散列函數(shù)H(key)和處理沖突的方法將一組關(guān)鍵字映象到一個有限的連續(xù)的地址集（區(qū)間）上，并以關(guān)鍵字在地址集中的“象” 作為記錄在表中的存儲位置，這種表便稱為散列表，這一映象過程稱為散列造表或散列，所得的存儲位置稱散列地址。* 若對于關(guān)鍵字集合中的任一個關(guān)鍵字，經(jīng)散列函數(shù)映象到地址集合中任何一個地址的概率是相等的，則稱此類散列函數(shù)為均勻散列函數(shù)(Uniform Hash function)，這就是使關(guān)鍵字經(jīng)過散列函數(shù)得到一個“隨機的地址”，從而減少沖突。

散列函數(shù)的性質(zhì)

所有散列函數(shù)都有如下一個基本特性：如果兩個散列值是不相同的（根據(jù)同一函數(shù)），那么這兩個散列值的原始輸入也是不相同的。這個特性是散列函數(shù)具有確定性的結(jié)果。但另一方面，散列函數(shù)的輸入和輸出不是一一對應(yīng)的，如果兩個散列值相同，兩個輸入值很可能是相同的，但并不能絕對肯定二者一定相等。輸入一些數(shù)據(jù)計算出散列值，然后部分改變輸入值，一個具有強混淆特性的散列函數(shù)會產(chǎn)生一個完全不同的散列值。典型的散列函數(shù)都有無限定義域，比如任意長度的字節(jié)字符串，和有限的值域，比如固定長度的比特串。在某些情況下，散列函數(shù)可以設(shè)計成具有相同大小的定義域和值域間的一一對應(yīng)。一一對應(yīng)的散列函數(shù)也稱為排列。可逆性可以通過使用一系列的對于輸入值的可逆“混合”運算而得到。

常用HASH函數(shù)

·直接取余法：f(x):= x mod maxM ; maxM一般是不太接近 2^t 的一個質(zhì)數(shù)。·乘法取整法：f(x):=trunc((x/maxX)*maxlongit) mod maxM，主要用于實數(shù)。·平方取中法：f(x):=(x*x div 1000 ) mod 1000000); 平方后取中間的，每位包含信息比較多。

構(gòu)造方法

散列函數(shù)能使對一個數(shù)據(jù)序列的訪問過程更加迅速有效，通過散列函數(shù)，數(shù)據(jù)元素將被更快地定位。（詳細構(gòu)造方法可以參考hash函數(shù)中的【哈希表的構(gòu)造方法】）1．直接尋址法：取關(guān)鍵字或關(guān)鍵字的某個線性函數(shù)值為散列地址。即H(key)=key或H(key) = a·key + b，其中a和b為常數(shù)（這種散列函數(shù)叫做自身函數(shù)）2．數(shù)字分析法3．平方取中法4．折疊法5．隨機數(shù)法6．除留余數(shù)法：取關(guān)鍵字被某個不大于散列表表長m的數(shù)p除后所得的余數(shù)為散列地址。即 H(key) = key MOD p,p<=m。不僅可以對關(guān)鍵字直接取模，也可在折疊、平方取中等運算之后取模。對p的選擇很重要，一般取素數(shù)或m，若p選的不好，容易產(chǎn)生同義詞。

處理沖突的方法

1．開放尋址法；Hi=(H(key) + di) MOD m,i=1,2,…，k(k<=m-1)，其中H(key)為散列函數(shù)，m為散列表長，di為增量序列，可有下列三種取法：1)． di=1,2,3,…，m-1，稱線性探測再散列；2)． di=1^2,(-1)^2,2^2,(-2)^2,(3)^2,…，±(k)^2,(k<=m/2)稱二次探測再散列；3)． di=偽隨機數(shù)序列，稱偽隨機探測再散列。2．再散列法：Hi=RHi(key),i=1,2,…，k RHi均是不同的散列函數(shù)，即在同義詞產(chǎn)生地址沖突時計算另一個散列函數(shù)地址，直到?jīng)_突不再發(fā)生，這種方法不易產(chǎn)生“聚集”，但增加了計算時間。3．鏈地址法(拉鏈法)4．建立一個公共溢出區(qū)

查找的性能分析

散列表的查找過程基本上和造表過程相同。一些關(guān)鍵碼可通過散列函數(shù)轉(zhuǎn)換的地址直接找到，另一些關(guān)鍵碼在散列函數(shù)得到的地址上產(chǎn)生了沖突，需要按處理沖突的方法進行查找。在介紹的三種處理沖突的方法中，產(chǎn)生沖突后的查找仍然是給定值與關(guān)鍵碼進行比較的過程。所以，對散列表查找效率的量度，依然用平均查找長度來衡量。查找過程中，關(guān)鍵碼的比較次數(shù)，取決于產(chǎn)生沖突的多少，產(chǎn)生的沖突少，查找效率就高，產(chǎn)生的沖突多，查找效率就低。因此，影響產(chǎn)生沖突多少的因素，也就是影響查找效率的因素。影響產(chǎn)生沖突多少有以下三個因素：1．散列函數(shù)是否均勻；2. 處理沖突的方法；3．散列表的裝填因子。散列表的裝填因子定義為：α= 填入表中的元素個數(shù)/散列表的長度α是散列表裝滿程度的標志因子。由于表長是定值，α與“填入表中的元素個數(shù)”成正比，所以，α越大，填入表中的元素較多，產(chǎn)生沖突的可能性就越大；α越小，填入表中的元素較少，產(chǎn)生沖突的可能性就越小。實際上，散列表的平均查找長度是裝填因子α的函數(shù)，只是不同處理沖突的方法有不同的函數(shù)。了解了hash基本定義，就不能不提到一些著名的hash算法，MD5和SHA-1可以說是目前應(yīng)用最廣泛的Hash算法，而它們都是以MD4為基礎(chǔ)設(shè)計的。常用hash算法的介紹：（1)MD4MD4(RFC 1320)是 MIT 的Ronald L. Rivest在 1990 年設(shè)計的，MD 是 Message Digest（消息摘要）的縮寫。它適用在32位字長的處理器上用高速軟件實現(xiàn)——它是基于 32位操作數(shù)的位操作來實現(xiàn)的。（2)MD5MD5(RFC 1321)是 Rivest 于1991年對MD4的改進版本。它對輸入仍以512位分組，其輸出是4個32位字的級聯(lián)，與 MD4 相同。MD5比MD4來得復(fù)雜，并且速度較之要慢一點，但更安全，在抗分析和抗差分方面表現(xiàn)更好。（3)SHA-1及其他SHA1是由NIST NSA設(shè)計為同DSA一起使用的，它對長度小于264的輸入，產(chǎn)生長度為160bit的散列值，因此抗窮舉(brute-force)性更好。SHA-1 設(shè)計時基于和MD4相同原理,并且模仿了該算法。

散列函數(shù)的應(yīng)用

由于散列函數(shù)的應(yīng)用的多樣性，它們經(jīng)常是專為某一應(yīng)用而設(shè)計的。例如，加密散列函數(shù)假設(shè)存在一個要找到具有相同散列值的原始輸入的敵人。一個設(shè)計優(yōu)秀的加密散列函數(shù)是一個“單向”操作：對于給定的散列值，沒有實用的方法可以計算出一個原始輸入，也就是說很難偽造。為加密散列為目的設(shè)計的函數(shù)，如MD5，被廣泛的用作檢驗散列函數(shù)。這樣軟件下載的時候，就會對照驗證代碼之后才下載正確的文件部分。此代碼有可能因為環(huán)境因素的變化，如機器配置或者IP地址的改變而有變動。以保證源文件的安全性。錯誤監(jiān)測和修復(fù)函數(shù)主要用于辨別數(shù)據(jù)被隨機的過程所擾亂的事例。當散列函數(shù)被用于校驗和的時候，可以用相對較短的散列值來驗證任意長度的數(shù)據(jù)是否被更改過。錯誤校正使用一個散列函數(shù)可以很直觀的檢測出數(shù)據(jù)在傳輸時發(fā)生的錯誤。在數(shù)據(jù)的發(fā)送方，對將要發(fā)送的數(shù)據(jù)應(yīng)用散列函數(shù)，并將計算的結(jié)果同原始數(shù)據(jù)一同發(fā)送。在數(shù)據(jù)的接收方，同樣的散列函數(shù)被再一次應(yīng)用到接收到的數(shù)據(jù)上，如果兩次散列函數(shù)計算出來的結(jié)果不一致，那么就說明數(shù)據(jù)在傳輸?shù)倪^程中某些地方有錯誤了。這就叫做冗余校驗。對于錯誤校正，假設(shè)相似擾動的分布接近最小(a distribution of likely perturbations is assumed at least approximately)。對于一個信息串的微擾可以被分為兩類，大的（不可能的）錯誤和小的（可能的）錯誤。我們對于第二類錯誤重新定義如下，假如給定 H(x) 和 x+s，那么只要s足夠小，我們就能有效的計算出x。那樣的散列函數(shù)被稱作錯誤校正編碼。這些錯誤校正編碼有兩個重要的分類：循環(huán)冗余校驗和里德所羅門碼。語音識別對于像從一個已知列表中匹配一個MP3文件這樣的應(yīng)用，一種可能的方案是使用傳統(tǒng)的散列函數(shù)——例如MD5，但是這種方案會對時間平移、CD讀取錯誤、不同的音頻壓縮算法或者音量調(diào)整的實現(xiàn)機制等情況非常敏感。使用一些類似于MD5的方法有利于迅速找到那些嚴格相同（從音頻文件的二進制數(shù)據(jù)來看）的音頻文件，但是要找到全部相同（從音頻文件的內(nèi)容來看）的音頻文件就需要使用其他更高級的算法了。那些并不緊隨IT工業(yè)潮流的人往往能反其道而行之，對于那些微小差異足夠魯棒的散列函數(shù)確實存在。現(xiàn)存的絕大多數(shù)散列算法都是不夠魯棒的，但是有少數(shù)散列算法能夠達到辨別從嘈雜房間里的揚聲器里播放出來的音樂的魯棒性。有一個實際的例子是Shazam[1]服務(wù)。用戶可以用電話機撥打一個特定的號碼，并將電話機的話筒靠近用于播放音樂的揚聲器。該項服務(wù)會分析正在播放的音樂，并將它于存儲在數(shù)據(jù)庫中的已知的散列值進行比較。用戶就能夠收到被識別的音樂的曲名（需要收取一定的費用）信息安全Hash算法在信息安全方面的應(yīng)用主要體現(xiàn)在以下的3個方面：（1)文件校驗我們比較熟悉的校驗算法有奇偶校驗和CRC校驗，這2種校驗并沒有抗數(shù)據(jù)篡改的能力，它們一定程度上能檢測并糾正數(shù)據(jù)傳輸中的信道誤碼，但卻不能防止對數(shù)據(jù)的惡意破壞。MD5 Hash算法的"數(shù)字指紋"特性，使它成為目前應(yīng)用最廣泛的一種文件完整性校驗和(Checksum)算法，不少Unix系統(tǒng)有提供計算md5 checksum的命令。（2)數(shù)字簽名Hash 算法也是現(xiàn)代密碼體系中的一個重要組成部分。由于非對稱算法的運算速度較慢，所以在數(shù)字簽名協(xié)議中，單向散列函數(shù)扮演了一個重要的角色。對 Hash 值，又稱"數(shù)字摘要"進行數(shù)字簽名，在統(tǒng)計上可以認為與對文件本身進行數(shù)字簽名是等效的。而且這樣的協(xié)議還有其他的優(yōu)點。（3) 鑒權(quán)協(xié)議如下的鑒權(quán)協(xié)議又被稱作挑戰(zhàn)--認證模式：在傳輸信道是可被偵聽，但不可被篡改的情況下，這是一種簡單而安全的方法。以上就是一些關(guān)于hash以及其相關(guān)的一些基本預(yù)備知識。

文件的hash值

大家都知道emule是基于P2P （Peer-to-peer的縮寫，指的是點對點的意思的軟件），它采用了"多源文件傳輸協(xié)議”(MFTP，the Multisource FileTransfer Protocol)。在協(xié)議中，定義了一系列傳輸、壓縮和打包還有積分的標準，emule 對于每個文件都有md5-hash的算法設(shè)置，這使得該文件獨一無二，并且在整個網(wǎng)絡(luò)上都可以追蹤得到。MD5-Hash-文件的數(shù)字文摘通過Hash函數(shù)計算得到。不管文件長度如何，它的Hash函數(shù)計算結(jié)果是一個固定長度的數(shù)字。與加密算法不同，這一個Hash算法是一個不可逆的單向函數(shù)。采用安全性高的Hash算法，如MD5、SHA時，兩個不同的文件幾乎不可能得到相同的Hash結(jié)果。因此，一旦文件被修改，就可檢測出來。當我們的文件放到emule里面進行共享發(fā)布的時候，emule會根據(jù)hash算法自動生成這個文件的hash值，他就是這個文件唯一的身份標志，它包含了這個文件的基本信息，然后把它提交到所連接的服務(wù)器。當有他人想對這個文件提出下載請求的時候，這個hash值可以讓他人知道他正在下載的文件是不是就是他所想要的。尤其是在文件的其他屬性被更改之后（如名稱等）這個值就更顯得重要。而且服務(wù)器還提供了,這個文件當前所在的用戶的地址，端口等信息,這樣emule就知道到哪里去下載了。一般來講我們要搜索一個文件，emule在得到了這個信息后，會向被添加的服務(wù)器發(fā)出請求，要求得到有相同hash值的文件。而服務(wù)器則返回持有這個文件的用戶信息。這樣我們的客戶端就可以直接的和擁有那個文件的用戶溝通，看看是不是可以從他那里下載所需的文件。對于emule中文件的hash值是固定的，也是唯一的，它就相當于這個文件的信息摘要，無論這個文件在誰的機器上，他的hash值都是不變的，無論過了多長時間，這個值始終如一，當我們在進行文件的下載上傳過程中，emule都是通過這個值來確定文件。

hash文件

我們經(jīng)常在emule日至里面看到，emule正在hash文件，這里就是利用了hash算法的文件校驗性這個功能了，文章前面已經(jīng)說了一些這些功能，其實這部分是一個非常復(fù)雜的過程，在ftp,bt等軟件里面都是用的這個基本原理，emule里面是采用文件分塊傳輸，這樣傳輸?shù)拿恳粔K都要進行對比校驗，如果錯誤則要進行重新下載，這期間這些相關(guān)信息寫入met文件，直到整個任務(wù)完成，這個時候part文件進行重新命名，然后使用move命令，把它傳送到incoming文件里面，然后met文件自動刪除，所以我們有的時候會遇到hash文件失敗，就是指的是met里面的信息出了錯誤不能夠和part文件匹配，另外有的時候開機也要瘋狂hash，有兩種情況一種是你在第一次使用，這個時候要hash提取所有文件信息，還有一種情況就是上一次你非法關(guān)機，那么這個時候就是要進行排錯校驗了。關(guān)于hash的算法研究，一直是信息科學里面的一個前沿，尤其在網(wǎng)絡(luò)技術(shù)普及的今天，他的重要性越來越突出，其實我們每天在網(wǎng)上進行的信息交流安全驗證，我們在使用的操作系統(tǒng)密鑰原理，里面都有它的身影，特別對于那些研究信息安全有興趣的朋友，這更是一個打開信息世界的鑰匙，他在hack世界里面也是一個研究的焦點。

userhash

道理同上，當我們在第一次使用emule的時候，emule會自動生成一個值，這個值也是唯一的，它是我們在emule世界里面的標志，只要你不卸載，不刪除config，你的userhash值也就永遠不變，積分制度就是通過這個值在起作用，emule里面的積分保存，身份識別，都是使用這個值，而和你的id和你的用戶名無關(guān)，你隨便怎么改這些東西，你的userhash值都是不變的，這也充分保證了公平性。其實他也是一個信息摘要，只不過保存的不是文件信息，而是我們每個人的信息。

2散列表

散列表是散列函數(shù)的一個主要應(yīng)用，使用散列表能夠快速的按照關(guān)鍵字查找數(shù)據(jù)記錄。（注意：關(guān)鍵字不是像在加密中所使用的那樣是秘密的，但它們都是用來“解鎖”或者訪問數(shù)據(jù)的。）例如，在英語字典中的關(guān)鍵字是英文單詞，和它們相關(guān)的記錄包含這些單詞的定義。在這種情況下，散列函數(shù)必須把按照字母順序排列的字符串映射到為散列表的內(nèi)部數(shù)組所創(chuàng)建的索引上。散列表散列函數(shù)的幾乎不可能/不切實際的理想是把每個關(guān)鍵字映射到唯一的索引上（參考完美散列），因為這樣能夠保證直接訪問表中的每一個數(shù)據(jù)。一個好的散列函數(shù)（包括大多數(shù)加密散列函數(shù)）具有均勻的真正隨機輸出，因而平均只需要一兩次探測（依賴于裝填因子）就能找到目標。同樣重要的是，隨機散列函數(shù)幾乎不可能出現(xiàn)非常高的沖突率。但是，少量的可以估計的沖突在實際狀況下是不可避免的（參考生日悖論）。在很多情況下，heuristic散列函數(shù)所產(chǎn)生的沖突比隨機散列函數(shù)少的多。Heuristic函數(shù)利用了相似關(guān)鍵字的相似性。例如，可以設(shè)計一個heuristic函數(shù)使得像FILE0000.CHK,FILE0001.CHK,FILE0002.CHK,等等這樣的文件名映射到表的連續(xù)指針上，也就是說這樣的序列不會發(fā)生沖突。相比之下，對于一組好的關(guān)鍵字性能出色的隨機散列函數(shù)，對于一組壞的關(guān)鍵字經(jīng)常性能很差，這種壞的關(guān)鍵字會自然產(chǎn)生而不僅僅在***中才出現(xiàn)。性能不佳的散列函數(shù)表意味著查找操作會退化為費時的線性搜索。

3擴展

MD5、SHA1的破解2004年8月17日，在美國加州圣芭芭拉召開的國際密碼大會上，山東大學王小云教授在國際會議上首次宣布了她及她的研究小組的研究成果——對MD5、HAVAL－128、MD4和RIPEMD四個著名密碼算法的破譯結(jié)果。次年二月宣布破解SHA-1密碼。

4命令描述

Linux命令——hashhash命令用來顯示、添加和清除哈希表。該命令的語法格式如下所示。

語法

hash [-l] [-r] [-p <path> <name>] [-t <command>]

選項說明

選項	說明
-l	顯示哈希表，包括路徑
-r	清除哈希表
-p <path> <name>	向哈希表中增加內(nèi)容
-t <command>	顯示指定命令的完整路徑

HASH命令

hash 每次傳輸完數(shù)據(jù)緩沖區(qū)中的數(shù)據(jù)后就顯示一個#號

5休閑活動

轉(zhuǎn)載于:https://blog.51cto.com/yuehaoyisheng/1334352

總結(jié)

以上是生活随笔為你收集整理的Hash简介的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

简介
Hash

上一篇： JavaScript Book Plan
下一篇： git delete file remo