日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > java >内容正文

java

Java实现海明距离简单计算

發布時間:2025/4/16 java 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Java实现海明距离简单计算 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文本相似度比較有很多方法,如余弦夾角算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等,海明距離是其中之一。

在信息編碼中,兩個合法代碼對應位上編碼不同的位數稱為碼距,又稱海明距離。

n位的碼字可以用n維空間的超立方體的一個頂點來表示。兩個碼字之間的海明距離就是超立方體兩個頂點之間的一條邊,而且是這兩個頂點之間的最短距離。

對海明距離的應用,最多的是在海量短文本去重上,性能優,主要方法就是對文本進行向量化,或者說把文本的特征抽取出來映射成編碼,然后再對編碼進行異或計算出海明距離。

曾遇到的一個場景是:從龐大的記錄文本中,判斷文本的相似度并做分類。一般做法就是兩兩比較相似度,這時對相似度計算算法的耗時要求就比較高,一旦數據量龐大,就能立見高下。有興趣的,可以試驗下cos、歐式、海明三者在文本相似度判斷方面的性能,比如2000萬記錄的文本。

本文這里的代碼只是簡單的模擬了海明距離的計算過程,參考如下:

package sk.ml;/** 功能:計算兩個文本海明距離 先字符串二進制,再統計差異位數 * 作者:Jason.F* 時間:2017年1月18日*/public class HammingDistance {public static void main(String[] args) {String strA="大數據和人工智能";String strB="小數據和人工智能";String strAB=StrToBinstr(strA);String strBB=StrToBinstr(strB);//對兩個二進制字符串,字符數相同,統計差異數int count=0;int len=strAB.length();for(int i=0;i<len;i++){if(strAB.charAt(i)!=strBB.charAt(i)) count++;}System.out.println("海明距離是:"+count);}//將字符串轉換成二進制字符串,以空格相隔public static String StrToBinstr(String str) {char[] strChar=str.toCharArray();String result="";for(int i=0;i<strChar.length;i++){result +=Integer.toBinaryString(strChar[i]);}return result;} } 執行結果:
海明距離是:4

總結

以上是生活随笔為你收集整理的Java实现海明距离简单计算的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。