日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

NMF和SVD在推荐系统中的应用(实战)

發(fā)布時間:2025/3/13 windows 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NMF和SVD在推荐系统中的应用(实战) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文以NMF和經(jīng)典SVD為例,講一講矩陣分解在推薦系統(tǒng)中的應用。

數(shù)據(jù)

item\userBenTomJohnFred
item 15505
item 25034
item 33403
item 40053
item 55445
item 65455
user\itemitem 1item 2item 3item 4item 5item 6
Ben553055
Tom504044
John030545
Fred543355

NMF

關(guān)于NMF,在淺談隱語義模型和NMF已經(jīng)有過介紹。

用戶和物品的主題分布

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) # 設(shè)有2個隱主題 user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ print '用戶的主題分布:' print user_distribution print '物品的主題分布:' print item_distribution

運行后輸出:

用戶的主題分布: [[ 2.20884275 0.84137492][ 2.08253282 -0. ][-0. 3.18154406][ 1.84992603 1.60839505]] 物品的主題分布: [[ 2.4129931 1.02524235 1.62258152 0. 1.80111078 1.69591943][ 0.0435741 1.13506094 0. 1.54526337 1.21253494 1.48756118]]

可視化物品的主題分布:

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ item_distribution = item_distribution.T plt.plot(item_distribution[:, 0], item_distribution[:, 1], "b*") plt.xlim((-1, 3)) plt.ylim((-1, 3)) plt.title(u'the distribution of items (NMF)') count = 1 for item in item_distribution: plt.text(item[0], item[1], 'item '+str(count), bbox=dict(facecolor='red', alpha=0.2),) count += 1 plt.show()

結(jié)果:

從距離的角度來看,item 5和item 6比較類似;從余弦相似度角度看,item 2、5、6 比較相似,item 1、3比較相似。

可視化用戶的主題分布:

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ users = ['Ben', 'Tom', 'John', 'Fred'] zip_data = zip(users, user_distribution) plt.title(u'the distribution of users (NMF)') plt.xlim((-1, 3)) plt.ylim((-1, 4)) for item in zip_data: user_name = item[0] data = item[1] plt.plot(data[0], data[1], "b*") plt.text(data[0], data[1], user_name, bbox=dict(facecolor='red', alpha=0.2),) plt.show()

結(jié)果:

從距離的角度來看,Fred、Ben、Tom的口味差不多;從余弦相似度角度看,Fred、Ben、Tom的口味還是差不多。

如何推薦

現(xiàn)在對于用戶A,如何向其推薦物品呢?

方法1:?找出與用戶A最相似的用戶B,將B評分過的、評分較高、A沒評分過的的若干物品推薦給A。

方法2:?找出用戶A評分較高的若干物品,找出與這些物品相似的、且A沒評分的若干物品推薦給A。

方法3:?找出用戶A最感興趣的k個主題,找出最符合這k個主題的、且A沒評分的若干物品推薦給A。

方法4:?由NMF得到的兩個矩陣,重建評分矩陣。例如:

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) RATE_MATRIX[1, 2] = 0 # 對評分矩陣略做修改 print '新評分矩陣:' print RATE_MATRIX nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ reconstruct_matrix = np.dot(user_distribution, item_distribution) filter_matrix = RATE_MATRIX < 1e-6 # 小于0 print '重建矩陣,并過濾掉已經(jīng)評分的物品:' print reconstruct_matrix*filter_matrix

運行結(jié)果:

新評分矩陣: [[5 5 3 0 5 5][5 0 0 0 4 4][0 3 0 5 4 5][5 4 3 3 5 5]] 重建矩陣,并過濾掉已經(jīng)評分的物品: [[ 0. 0. 0. 0.80443133 0. 0. ][ 0. 2.19148602 1.73560797 0. 0. 0. ][ 0.02543568 0. 0.48692891 0. 0. 0. ][ 0. 0. 0. 0. 0. 0. ]]

對于Tom(評分矩陣的第2行),其未評分過的物品是item 2、item 3、item 4。item 2的推薦值是2.19148602,item 3的推薦值是1.73560797,item 4的推薦值是0,若要推薦一個物品,推薦item 2。

如何處理有評分記錄的新用戶

NMF是將非負矩陣V分解為兩個非負矩陣W和H:

V = W×H

在本文上面的實現(xiàn)中,V對應評分矩陣,W是用戶的主題分布,H是物品的主題分布。

對于有評分記錄的新用戶,如何得到其主題分布?

方法1:?有評分記錄的新用戶的評分數(shù)據(jù)放入評分矩陣中,使用NMF處理新的評分矩陣。

方法2:?物品的主題分布矩陣H保持不變,將V更換為新用戶的評分組成的行向量,求W即可。

下面嘗試一下方法2。

設(shè)新用戶Bob的評分記錄為:

[5,5,0,0,0,5] #!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ bob = [5, 5, 0, 0, 0, 5] print 'Bob的主題分布:' print nmf.transform(bob)

運行結(jié)果是:

Bob的主題分布: [[ 1.37800534 0.69236738]]

經(jīng)典SVD

關(guān)于SVD的一篇好文章:強大的矩陣奇異值分解(SVD)及其應用。

相關(guān)分析與上面類似,這里就直接上代碼了。

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from scipy.sparse.linalg import svds from scipy import sparse import matplotlib.pyplot as plt def vector_to_diagonal(vector): """ 將向量放在對角矩陣的對角線上 :param vector: :return: """ if (isinstance(vector, np.ndarray) and vector.ndim == 1) or \ isinstance(vector, list): length = len(vector) diag_matrix = np.zeros((length, length)) np.fill_diagonal(diag_matrix, vector) return diag_matrix return None RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) RATE_MATRIX = RATE_MATRIX.astype('float') U, S, VT = svds(sparse.csr_matrix(RATE_MATRIX), k=2, maxiter=200) # 2個隱主題 S = vector_to_diagonal(S) print '用戶的主題分布:' print U print '奇異值:' print S print '物品的主題分布:' print VT print '重建評分矩陣,并過濾掉已經(jīng)評分的物品:' print np.dot(np.dot(U, S), VT) * (RATE_MATRIX < 1e-6)

運行結(jié)果:

用戶的主題分布: [[-0.22279713 0.57098887][-0.51723555 0.4274751 ][ 0.82462029 0.38459931][ 0.05319973 0.58593526]] 奇異值: [[ 6.39167145 0. ][ 0. 17.71392084]] 物品的主題分布: [[-0.53728743 0.24605053 -0.40329582 0.67004393 0.05969518 0.18870999][ 0.44721867 0.35861531 0.29246336 0.20779151 0.50993331 0.53164501]] 重建評分矩陣,并過濾掉已經(jīng)評分的物品: [[ 0. 0. 0. 1.14752376 0. 0. ][ 0. 1.90208543 0. -0.64171368 0. 0. ][ 0.21491237 0. -0.13316888 0. 0. 0. ][ 0. 0. 0. 0. 0. 0. ]]

可視化一下:

經(jīng)典SVD + 協(xié)同過濾

0代表沒有評分,但是上面的方法(如何推薦這一節(jié)的方法4)又確實把0看作了評分,所以最終得到的只是一個推薦值(而且總體都偏小),而無法當作預測的評分。在How do I use the SVD in collaborative filtering?有這方面的討論。

SVD簡要介紹

SVD的目標是將m*n大小的矩陣A分解為三個矩陣的乘積:

A=U?S?VTA=U?S?VT

U和V都是正交矩陣,大小分別是m*m、n*n。S是一個對角矩陣,大小是m*n,對角線存放著奇異值,從左上到右下依次減小,設(shè)奇異值的數(shù)量是r。

取k,k<<r。

取得UU的前k列得到UkUk,SS的前k個奇異值對應的方形矩陣得到SkSk,VTVT的前k行得到VTkVkT,于是有

Ak=Uk?Sk?VTkAk=Uk?Sk?VkT

AkAk可以認為是AA的近似。

下面的算法將協(xié)同過濾和SVD結(jié)合了起來。

Item-based Filtering Enhanced by SVD

這個算法來自下面這篇論文:

Vozalis M G, Margaritis K G. Applying SVD on Generalized Item-based Filtering[J]. IJCSA, 2006, 3(3): 27-51.

1、?設(shè)評分矩陣為R,大小為m*n,m個用戶,n個物品。R中元素rijrij代表著用戶uiui對物品ijij的評分。

2、?預處理R,消除掉其中未評分數(shù)據(jù)(即值為0)的評分。

  • 計算R中每一行的平均值(平均值的計算中不包括值為0的評分),令Rfilled?in=RRfilled?in=R,然后將Rfilled?inRfilled?in中的0設(shè)置為該行的平均值。
  • 計算R中每一列的平均值(平均值的計算中不包括值為0的評分)riri,Rfilled?inRfilled?in中的所有元素減去對應的riri,得到正規(guī)化的矩陣RnormRnorm。(norm,即normalized)。

3、?對RnormRnorm進行奇異值分解,得到:?Rnorm=U?S?VTRnorm=U?S?VT

4、?設(shè)正整數(shù)k,取得UU的前k列得到UkUk,SS的前k個奇異值對應的方形矩陣得到SkSk,VTVT的前k行得到VTkVkT,于是有

Rred=Uk?Sk?VTkRred=Uk?Sk?VkT

red,即dimensionality reduction中的reduction??梢哉J為k是指最重要的k個主題。定義RredRred中元素rrijrrij用戶i對物品j在矩陣RredRred中的值。

5、?Uk?S12kUk?Sk12,是用戶相關(guān)的降維后的數(shù)據(jù),其中的每行代表著對應用戶在新特征空間下位置。S12k?VTkSk12?VkT,是物品相關(guān)的降維后的數(shù)據(jù),其中的每列代表著對應物品在新特征空間下的位置。

S12k?VTkSk12?VkT中的元素mrijmrij代表物品j在新空間下維度i中的值,也可以認為是物品j屬于主題i的程度。(共有k個主題)。

6、?獲取物品之間相似度。

  • 根據(jù)S12k?VTkSk12?VkT計算物品之間的相似度,例如使用余弦相似度計算物品j和f的相似度:

  • 相似度計算出來后就可以得到每個物品最相似的若干物品了。

7、?使用下面的公式預測用戶a對物品j的評分:這個公式里有些變量的使用和上面的沖突了(例如k)。?ll是指取物品j最相似的ll個物品。?mrijmrij代表物品j在新空間下維度i中的值,也可以認為是物品j屬于主題i的程度。?simjksimjk是物品j和物品k的相似度。?RredRred中元素rrakrrak是用戶a對物品k在矩陣RredRred中對應的評分。raˉraˉ是指用戶a在評分矩陣RR中評分的平均值(平均值的計算中不包括值為0的評分)。

參考

SVD Recommendation System in Ruby?這篇文章使用的數(shù)據(jù)來自該鏈接,里面處理新用戶的方法表示沒看懂。

How do I use the SVD in collaborative filtering?

Vozalis M G, Margaritis K G. Applying SVD on Generalized Item-based Filtering[J]. IJCSA, 2006, 3(3): 27-51.

轉(zhuǎn)載于:https://www.cnblogs.com/AngelaSunny/p/5231981.html

總結(jié)

以上是生活随笔為你收集整理的NMF和SVD在推荐系统中的应用(实战)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。