日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

相似度和相异度、常用距离度量、余弦相似度

發(fā)布時(shí)間:2024/1/23 编程问答 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 相似度和相异度、常用距离度量、余弦相似度 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

通常,具有若干屬性的對(duì)象之間的鄰近度用單個(gè)屬性的鄰近度的組合來(lái)定義,因此我們首先討論具有單個(gè)屬性的對(duì)象之間的鄰近度。考慮由一個(gè)標(biāo)稱屬性描述的對(duì)象,對(duì)于兩個(gè)這樣的對(duì)象,相似意味什么呢?由于標(biāo)稱屬性只攜帶了對(duì)象的相異性信息,因此我們只能說(shuō)兩個(gè)對(duì)象有相同的值,或者沒有。因而在這種情況下,如果屬性值匹配,則相似度定義為1,否則為0;相異度用相反的方法定義:如果屬性值匹配,相異度為0,否則為1。

對(duì)于具有單個(gè)序數(shù)屬性的對(duì)象,情況更為復(fù)雜,因?yàn)楸仨毧紤]序信息。考慮一個(gè)在標(biāo)度{poor, fair, OK, good, wonderful}上測(cè)量產(chǎn)品(例如,糖塊)質(zhì)量的屬性。一個(gè)評(píng)定為wonderful的產(chǎn)品P1與一個(gè)評(píng)定為good的產(chǎn)品P2應(yīng)當(dāng)比它與一個(gè)評(píng)定為OK的產(chǎn)品P3更接近。為了量化這種觀察,序數(shù)屬性的值常常映射到從0或1開始的相繼整數(shù),例如,{poor = 0, fair =1, OK = 2, good = 3, wonderful = 4}。于是,P1與P2之間的相異度d(P1, P2) = 3?? 2 = 1,或者,如果我們希望相異度在0和1之間取值,d(P1, P2) = (3?? 2)/4 = 0.25;序數(shù)屬性的相似度可以定義為s = 1?? d。

序數(shù)屬性相似度(相異度)的這種定義可能使讀者感到有點(diǎn)擔(dān)心,因?yàn)檫@里我們定義了相等的區(qū)間,而事實(shí)并非如此。如果根據(jù)實(shí)際情況,我們應(yīng)該計(jì)算出區(qū)間或比率屬性。值fair與good的差真和OK與wonderful的差相同嗎?可能不相同,但是在實(shí)踐中,我們的選擇是有限的,并且在缺乏更多信息的情況下,這是定義序數(shù)屬性之間鄰近度的標(biāo)準(zhǔn)方法。

對(duì)于區(qū)間或比率屬性,兩個(gè)對(duì)象之間的相異性的自然度量是它們的值之差的絕對(duì)值。例如,我們可能將現(xiàn)在的體重與一年前的體重相比較,說(shuō)"我重了10磅。"在這類情況下,相異度通常在0和 之間,而不是在0和1之間取值。如前所述,區(qū)間或比率屬性的相似度通常轉(zhuǎn)換成相異度。

表2-7總結(jié)了這些討論。在該表中,x和y是兩個(gè)對(duì)象,它們具有一個(gè)指明類型的屬性,d(x, y)和s(x, y)分別是x和y之間的相異度和相似度(分別用d和s表示)。其他方法也是可能的,但是表中的這些是最常用的。

表2-7? 簡(jiǎn)單屬性的相似度和相異度



閔可夫斯基距離(Minkowski distance)來(lái)推廣:

?

其中r是參數(shù)。下面是閔可夫斯基距離的三個(gè)最常見的例子。

r = 1,城市街區(qū)(也稱曼哈頓、出租車、L1范數(shù))距離。一個(gè)常見的例子是漢明距離(Hamming distance),它是兩個(gè)具有二元屬性的對(duì)象(即兩個(gè)二元向量)之間不同的二進(jìn)制位個(gè)數(shù)。

r = 2,歐幾里得距離(L2范數(shù))。

r =? ,上確界(Lmax或L 范數(shù))距離。這是對(duì)象屬性之間的最大距離。切比雪夫距離,更正式地,L 距離由公式(2-3)定義:

?

注意不要將參數(shù)r與維數(shù)(屬性數(shù))n混淆。歐幾里得距離、曼哈頓距離和上確界距離是對(duì)n的所有值(1, 2, 3,...)定義的,并且指定了將每個(gè)維(屬性)上的差的組合成總距離的不同方法。

通常,文檔用向量表示,向量的每個(gè)屬性代表一個(gè)特定的詞(術(shù)語(yǔ))在文檔中出現(xiàn)的頻率。當(dāng)然,實(shí)際情況要復(fù)雜得多,因?yàn)樾枰雎猿S迷~,并使用各種技術(shù)處理同一個(gè)詞的不同形式、不同的文檔長(zhǎng)度以及不同的詞頻。

盡管文檔具有數(shù)以百千計(jì)或數(shù)以萬(wàn)計(jì)的屬性(詞),但是每個(gè)文檔向量都是稀疏的,因?yàn)樗哂邢鄬?duì)較少的非零屬性值。(文檔規(guī)范化并不對(duì)零詞目創(chuàng)建非零詞目,即文檔規(guī)范化保持稀疏性。)這樣,與事務(wù)數(shù)據(jù)一樣,相似性不能依賴共享0的個(gè)數(shù),因?yàn)槿我鈨蓚€(gè)文檔多半都不會(huì)包含許多相同的詞,從而如果統(tǒng)計(jì)0-0匹配,則大多數(shù)文檔都與其他大部分文檔非常類似。因此,文檔的相似性度量不僅應(yīng)當(dāng)像Jaccard度量一樣需要忽略0-0匹配,而且還必須能夠處理非二元向量。下面定義的余弦相似度(cosine similarity)就是文檔相似性最常用的度量之一。如果x和y是兩個(gè)文檔向量,則

?

其中," "表示向量點(diǎn)積, 。

例2.18? 兩個(gè)文檔向量的余弦相似度? 該例計(jì)算下面兩個(gè)數(shù)據(jù)對(duì)象的余弦相似度,這些數(shù)據(jù)對(duì)象可能代表文檔向量:


總結(jié)

以上是生活随笔為你收集整理的相似度和相异度、常用距离度量、余弦相似度的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。