日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

simhash mysql_海量数据相似度计算之simhash和海明距离

發布時間:2024/3/26 数据库 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 simhash mysql_海量数据相似度计算之simhash和海明距离 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

通過?采集系統?我們采集了大量文本數據,但是文本中有很多重復數據影響我們對于結果的分析。分析前我們需要對這些數據去除重復,如何選擇和設計文本的去重算法?常見的有余弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些算法對于待比較的文本數據不多時還比較好用,如果我們的爬蟲每天采集的數據以千萬計算,我們如何對于這些海量千萬級的數據進行高效的合并去重。最簡單的做法是拿著待比較的文本和數據庫中所有的文本比較一遍如果是重復的數據就標示為重復。看起來很簡單,我們來做個測試,就拿最簡單的兩個數據使用Apache提供的 Levenshtein for 循環100w次計算這兩個數據的相似度。代碼結果如下:

1

2

3

4

5

6

7

8

9

10

11

12

String?s1

=

" 媽媽喊你回家吃飯哦,回家羅回家羅"

;

String?s2

=

" 媽媽叫你回家吃飯啦,回家羅回家羅"

;

long?t1

=

System.

currentTimeMillis

(

)

;

for

(

int?i

=

0

;?i

<

1000000

;?i

++

)

{

int?dis

=?StringUtils .

getLevenshteinDistance

(s1, s2

)

;

}

long?t2

=

System.

currentTimeMillis

(

)

;

System.

out?.

println

(

" 耗費時間: "

+

(t2

-?t1

)

+

" ?ms "

)

;

耗費時間: 4266 ms

大跌眼鏡,居然計算耗費4秒。假設我們一天需要比較100w次,光是比較100w次的數據是否重復就需要4s,就算4s一個文檔,單線程一分鐘才處理15個文檔,一個小時才900個,一天也才21600個文檔,這個數字和一天100w相差甚遠,需要多少機器和資源才能解決。

為此我們需要一種應對于海量數據場景的去重方案,經過研究發現有種叫 local sensitive hash 局部敏感哈希 的東西,據說這玩意可以把文檔降維到hash數字,數字兩兩計算運算量要小很多。查找很多文檔后看到google對于網頁去重使用的是simhash,他們每天需要處理的文檔在億級別,大大超過了我們現在文檔的水平。既然老大哥也有類似的應用,我們也趕緊嘗試下。simhash是由 Charikar 在2002年提出來的,參考?《Similarity estimation techniques from rounding algorithms》?。 介紹下這個算法主要原理,為了便于理解盡量不使用數學公式,分為這幾步:

1、分詞,把需要判斷文本分詞形成這個文章的特征單詞。最后形成去掉噪音詞的單詞序列并為每個詞加上權重,我們假設權重分為5個級別(1~5)。比如:“ 美國“51區”雇員稱內部有9架飛碟,曾看見灰色外星人 ” ==> 分詞后為 “ 美國(4) 51區(5) 雇員(3) 稱(1) 內部(2) 有(1) 9架(3) 飛碟(5) 曾(1) 看見(3) 灰色(4) 外星人(5)”,括號里是代表單詞在整個句子里重要程度,數字越大越重要。

2、hash,通過hash算法把每個詞變成hash值,比如“美國”通過hash算法計算為 100101,“51區”通過hash算法計算為 101011。這樣我們的字符串就變成了一串串數字,還記得文章開頭說過的嗎,要把文章變為數字計算才能提高相似度計算性能,現在是降維過程進行時。

3、加權,通過 2步驟的hash生成結果,需要按照單詞的權重形成加權數字串,比如“美國”的hash值為“100101”,通過加權計算為“4 -4 -4 4 -4 4”;“51區”的hash值為“101011”,通過加權計算為 “ 5 -5 5 -5 5 5”。

4、合并,把上面各個單詞算出來的序列值累加,變成只有一個序列串。比如 “美國”的 “4 -4 -4 4 -4 4”,“51區”的 “ 5 -5 5 -5 5 5”, 把每一位進行累加, “4+5 -4+-5 -4+5 4+-5 -4+5 4+5” ==》 “9 -9 1 -1 1 9”。這里作為示例只算了兩個單詞的,真實計算需要把所有單詞的序列串累加。

5、降維,把4步算出來的 “9 -9 1 -1 1 9” 變成 0 1 串,形成我們最終的simhash簽名。 如果每一位大于0 記為 1,小于0 記為 0。最后算出結果為:“1 0 1 0 1 1”。

整個過程圖為:

大家可能會有疑問,經過這么多步驟搞這么麻煩,不就是為了得到個 0 1 字符串嗎?我直接把這個文本作為字符串輸入,用hash函數生成 0 1 值更簡單。其實不是這樣的,傳統hash函數解決的是生成唯一值,比如 md5、hashmap等。md5是用于生成唯一簽名串,只要稍微多加一個字符md5的兩個數字看起來相差甚遠;hashmap也是用于鍵值對查找,便于快速插入和查找的數據結構。不過我們主要解決的是文本相似度計算,要比較的是兩個文章是否相識,當然我們降維生成了hashcode也是用于這個目的。看到這里估計大家就明白了,我們使用的simhash就算把文章中的字符串變成 01 串也還是可以用于計算相似度的,而傳統的hashcode卻不行。我們可以來做個測試,兩個相差只有一個字符的文本串,“ 媽媽喊你回家吃飯哦,回家羅回家羅” 和 “ 媽媽叫你回家吃飯啦,回家羅回家羅”。

通過simhash計算結果為:

1000010010101101111111100000101011010001001111100001001011001011

1000010010101101011111100000101011010001001111100001101010001011

通過 hashcode計算為:

1111111111111111111111111111111110001000001100110100111011011110

1010010001111111110010110011101

大家可以看得出來,相似的文本只有部分 01 串變化了,而普通的hashcode卻不能做到,這個就是局部敏感哈希的魅力。目前Broder提出的shingling算法和Charikar的simhash算法應該算是業界公認比較好的算法。在simhash的發明人Charikar的論文中并沒有給出具體的simhash算法和證明,“量子圖靈”得出的證明simhash是由隨機超平面hash算法演變而來的。

現在通過這樣的轉換,我們把庫里的文本都轉換為simhash 代碼,并轉換為long類型存儲,空間大大減少。現在我們雖然解決了空間,但是如何計算兩個simhash的相似度呢?難道是比較兩個simhash的01有多少個不同嗎?對的,其實也就是這樣,我們通過海明距離(Hamming distance)就可以計算出兩個simhash到底相似不相似。兩個simhash對應二進制(01串)取值不同的數量稱為這兩個simhash的海明距離。舉例如下:?10101?和?00110?從第一位開始依次有第一位、第四、第五位不同,則海明距離為3。對于二進制字符串的a和b,海明距離為等于在a XOR b運算結果中1的個數(普遍算法)。

為了高效比較,我們預先加載了庫里存在文本并轉換為simhash code 存儲在內存空間。來一條文本先轉換為 simhash code,然后和內存里的simhash code 進行比較,測試100w次計算在100ms。速度大大提升。

未完待續:

1、目前速度提升了但是數據是不斷增量的,如果未來數據發展到一個小時100w,按現在一次100ms,一個線程處理一秒鐘 10次,一分鐘 60 * 10 次,一個小時 60*10 *60 次 = 36000次,一天 60*10*60*24 = 864000次。 我們目標是一天100w次,通過增加兩個線程就可以完成。但是如果要一個小時100w次呢?則需要增加30個線程和相應的硬件資源保證速度能夠達到,這樣成本也上去了。能否有更好的辦法,提高我們比較的效率?

2、通過大量測試,simhash用于比較大文本,比如500字以上效果都還蠻好,距離小于3的基本都是相似,誤判率也比較低。但是如果我們處理的是微博信息,最多也就140個字,使用simhash的效果并不那么理想。看如下圖,在距離為3時是一個比較折中的點,在距離為10時效果已經很差了,不過我們測試短文本很多看起來相似的距離確實為10。如果使用距離為3,短文本大量重復信息不會被過濾,如果使用距離為10,長文本的錯誤率也非常高,如何解決?

總結

以上是生活随笔為你收集整理的simhash mysql_海量数据相似度计算之simhash和海明距离的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 女厕厕露p撒尿八个少妇 | 久久手机免费视频 | 色诱视频在线观看 | 美女黄页网站 | 久色精品视频 | 亚洲爱情岛论坛永久 | 中国吞精videos露脸 | 福利视频免费看 | 久久99国产精品久久99 | 精品视频在线一区二区 | 少妇激情一区二区三区视频 | 欧美亚洲在线视频 | 哪里可以免费看av | 午夜爱爱免费视频 | 污污的视频软件 | 国产丝袜视频在线 | 精品乱人伦一区二区三区 | 欧美日韩亚洲二区 | 欧美在线免费播放 | 亚洲性xx | 69久久久| 娇妻被肉到高潮流白浆 | 日本一区二区三区视频在线播放 | 色窝窝无码一区二区三区成人网站 | 午夜视频在线观看视频 | 色天天av| 夜夜躁日日躁狠狠久久av | 日本中文字幕精品 | 日韩一区二区三区在线看 | 日韩免费一区二区 | 国产无套在线观看 | 亚洲欧美一区二区三区四区 | 狠狠网站 | 日本中文字幕成人 | 久久11| 美女张开腿露出尿口 | www.99re. | 久艹在线视频 | 三级做爰第一次 | 亚洲欧美视频在线播放 | 日韩欧美国产一区二区在线观看 | 三级视频网站 | 我们俩电影网mp4动漫官网 | 91一区二区三区在线观看 | 爱爱网视频| 免费日韩av | 亚洲精品资源在线 | 99久久国产免费 | 久久综合九色综合欧美狠狠 | 国产无限资源 | 久久久一 | 折磨小男生性器羞耻的故事 | 日本高潮网站 | 国产欧美一区二区精品性色超碰 | 隔壁人妻偷人bd中字 | 日韩小视频在线 | 鸥美一级片 | 99热在线观看免费 | 黑森林av | 高跟肉丝丝袜呻吟啪啪网站av | 91一级片| 日韩精品国产一区 | 国产精品va在线观看无码 | 不良视频在线观看 | 少妇不卡视频 | 91调教打屁股xxxx网站 | 日本中文字幕一区二区 | 精品美女久久久久 | 8x8x永久免费视频 | 狼人伊人av | 欧美午夜久久 | 午夜精品久久久久久毛片 | 精品国产黄色片 | 国产精品91在线 | 欧美第一页浮力影院 | 国产一区在线视频 | av收藏小四郎最新地址 | 精品爆乳一区二区三区无码av | 免费古装一级淫片潘金莲 | 亚洲天堂性 | 超碰人人爱人人 | 无码人妻精品一区二区三区蜜桃91 | 麻豆一二三区 | 色爽交 | 秋霞视频在线 | 成人黄色网 | 男人添女人荫蒂国产 | 91精产国品一二三区在线观看 | 毛片av免费看 | 久久久久国色av免费观看性色 | 亚洲精品成人无码熟妇在线 | 在线观看v片 | 人妻无码中文字幕免费视频蜜桃 | 国产成人久久精品麻豆二区 | jjzz国产| 日韩精品一区二区三区久久 | 69精品久久久久久 | 亚洲精品123区 | 91精品一区二区三区四区 |