日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

了解 sdhash

發布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 了解 sdhash 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

SDHASH

1.???????sdhash : similarity digests hash (相似性摘要散列)

automate content triage . 用于自動內容分類

此處的摘要(digest)指的是:Metadata--元數據:元數據指的是計算機用來標識文件的一些附加信息,例如文件名,文件類型,文件時間戳,文件在物理存儲介質的數據分布等。

官網關于sdhash的介紹(Google翻譯):

sdhash是一個工具,它允許兩個任意的數據塊基于常見的字符串進行相似性比較二進制數據。它被設計為在分類和初始調查階段提供快速結果。它已經在從2010年開始積極開發,明確目標是變得快速,可擴展和可靠。

實際用處:

有兩個一般類問題,其中sdhash可以提供顯著的好處 - 片段識別和版本相關。

在片段識別中,我們在較大的數據內搜索較小的數據片段(“needle-in-a-haystack”)。

例如:

?塊與文件相關:給定一塊數據(磁盤塊/網絡包/ RAM頁面/等),我們可以搜索一個引用文件集合來識別塊是否來自其中的任何一個。

?文件與RAM /磁盤映像:給定文件和目標映像,我們可以有效地確定是否有任何文件可以在磁盤映像上找到(包括釋放存儲)。

在版本關聯中,我們感興趣的是關聯大小可比較的數據對象(文件),因此類似的對象可以被視為版本。這是兩個基本方案,其中這是有用的 - 識別相關文檔和識別代碼版本。

?

Digest generation(摘要生成):

The output encodes the following pieces of information, separatedby colons: magic number, version,length of file name, file name, hash functionused to hash features (sha1), size of constituent Bloom filters in bytes,number of subhashes per feature,bit mask used to derive the subhashes, numberof features per filter, number of filters in the digest,number of features inthe last filter, and base64-encoded sequence of filters.

翻譯:輸出將編碼以冒號分隔的以下信息:幻數,版本,文件名長度,文件名,用于散列特征的散列函數組成的布隆過濾器的大小,每個特征的子散列數,用于導出子散列的位掩碼,每個過濾器的特征數目,摘要中的過濾器數目 最后一個過濾器中的特征數,以及過濾器的base64編碼序列。

The size of a similarity digest is proportional to the size of thedata targets. The in-memory sdhash representation is, on average, 2.6% of thesize of the target (approximately 256 bytes of digest per 9.5 KB of data).After the base64 encoding, it expands to about 3.6% on disk.

相似性摘要的大小與數據目標的大小成比例。 內存中sdhash表示平均為目標大小的2.6%(每9.5 KB數據大約256字節的摘要)。 在base64編碼之后,它在磁盤上擴展到大約3.6%。


傳送門:http://roussev.net/sdhash/sdhash.html

總結

以上是生活随笔為你收集整理的了解 sdhash的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。