日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数学之美 系列十三 信息指纹及其应用

發布時間:2025/3/15 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数学之美 系列十三 信息指纹及其应用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數學之美 系列十三 信息指紋及其應用

任何一段信息文字,都可以對應一個不太長的隨機數,作為區別它和其它信息的指紋(Fingerprint)。只要算法設計的好,任何兩段信息的指紋都很難重復,就如同人類的指紋一樣。信息指紋在加密、信息壓縮和處理中有著廣泛的應用。

我們在圖論和網絡爬蟲一文中提到,為了防止重復下載同一個網頁,我們需要在哈希表中紀錄已經訪問過的網址(URL)。但是在哈希表中以字符串的形式直接存儲網址,既費內存空間,又浪費查找時間。現在的網址一般都較長,比如,如果在 Google 或者百度在查找數學之美,對應的網址長度在一百個字符以上。下面是百度的鏈接

http://www.baidu.com/s?ie=gb2312&bs=%CA%FD%D1%A7%D6%AE%C3%C0&sr=&z=&cl=3&f=8&wd=%CE%E2%BE%FC+%CA%FD%D1%A7%D6%AE%C3%C0&ct=0

假定網址的平均長度為一百個字符,那么存貯 200 億個網址本身至少需要 2 TB,即兩千GB 的容量,考慮到哈希表的存儲效率一般只有 50%,實際需要的內存在4TB以上。即使把這些網址放到了計算機的內存中,由于網址長度不固定,以字符串的形式查找的效率會很低。因此,我們如果能夠找到一個函數,將這 200億個網址隨機地映射到128二進位即 16 個字節的整數空間,比如將上面那個很長的字符串對應成一個如下的隨機數:

893249432984398432980545454543

這樣每個網址只需要占用 16 個字節而不是原來的一百個。這就能把存儲網址的內存需求量降低到原來的 1/6。這個16 個字節的隨機數,就稱做該網址的信息指紋(Fingerprint)。可以證明,只要產生隨機數的算法足夠好,可以保證幾乎不可能有兩個字符串的指紋相同,就如同不可能有兩個人的指紋相同一樣。由于指紋是固定的 128 位整數,因此查找的計算量比字符串比較小得多。網絡爬蟲在下載網頁時,它將訪問過的網頁的網址都變成一個個信息指紋,存到哈希表中,每當遇到一個新網址時,計算機就計算出它的指紋,然后比較該指紋是否已經在哈希表中,來決定是否下載這個網頁。這種整數的查找比原來字符串查找,可以快幾倍到幾十倍。

產生信息指紋的關鍵算法是偽隨機數產生器算法(prng)。最早的 prng 算法是由計算機之父馮諾伊曼提出來的。他的辦法非常簡單,就是將一個數的平方掐頭去尾,取中間的幾位數。比如一個四位的二進制數 1001(相當于十進制的9),其平方為 01010001 (十進制的 81)掐頭去尾剩下中間的四位 0100。當然這種方法產生的數字并不很隨機,也就是說兩個不同信息很有可能有同一指紋。現在常用的 MersenneTwister 算法要好得多。

信息指紋的用途遠不止網址的消重,信息指紋的的孿生兄弟是密碼。信息指紋的一個特征是其不可逆性, 也就是說,無法根據信息指紋推出原有信息,這種性質,正是網絡加密傳輸所需要的。比如說,一個網站可以根據用戶的Cookie 識別不同用戶,這個 cookie 就是信息指紋。但是網站無法根據信息指紋了解用戶的身份,這樣就可以保護用戶的隱私。在互聯網上,加密的可靠性,取決于是否很難人為地找到擁有同一指紋的信息, 比如一個黑客是否能隨意產生用戶的 cookie。從加密的角度講 MersenneTwister,算法并不好,因為它產生的隨機數有相關性。

互聯網上加密要用基于加密偽隨機數產生器(csprng)。常用的算法有 MD5 或者 SHA1 等標準,它們可以將不定長的信息變成定長的 128 二進位或者 160 二進位隨機數。值得一提的事,SHA1 以前被認為是沒有漏洞的,現在已經被中國的王小云教授證明存在漏洞。但是大家不必恐慌, 因為這和黑客能真正攻破你的注冊信息是還兩回事。

信息指紋的雖然歷史很悠久,但真正的廣泛應用是在有了互聯網以后,這幾年才漸漸熱門起來。

轉自:http://googlechinablog.com/2006/08/blog-post.html

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的数学之美 系列十三 信息指纹及其应用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。