當前位置：首頁 > 运维知识 > windows >内容正文

windows

NMF和SVD在推荐系统中的应用（实战）

發(fā)布時間：2025/3/13 windows 45 豆豆

生活随笔收集整理的這篇文章主要介紹了 NMF和SVD在推荐系统中的应用（实战）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文以NMF和經(jīng)典SVD為例，講一講矩陣分解在推薦系統(tǒng)中的應用。

數(shù)據(jù)

item\userBenTomJohnFred

item 1	5	5	0	5
item 2	5	0	3	4
item 3	3	4	0	3
item 4	0	0	5	3
item 5	5	4	4	5
item 6	5	4	5	5

user\itemitem 1item 2item 3item 4item 5item 6

Ben	5	5	3	0	5	5
Tom	5	0	4	0	4	4
John	0	3	0	5	4	5
Fred	5	4	3	3	5	5

NMF

關(guān)于NMF，在淺談隱語義模型和NMF已經(jīng)有過介紹。

用戶和物品的主題分布

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) # 設(shè)有2個隱主題 user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ print '用戶的主題分布：' print user_distribution print '物品的主題分布：' print item_distribution

運行后輸出：

用戶的主題分布： [[ 2.20884275 0.84137492][ 2.08253282 -0. ][-0. 3.18154406][ 1.84992603 1.60839505]] 物品的主題分布： [[ 2.4129931 1.02524235 1.62258152 0. 1.80111078 1.69591943][ 0.0435741 1.13506094 0. 1.54526337 1.21253494 1.48756118]]

可視化物品的主題分布：

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ item_distribution = item_distribution.T plt.plot(item_distribution[:, 0], item_distribution[:, 1], "b*") plt.xlim((-1, 3)) plt.ylim((-1, 3)) plt.title(u'the distribution of items (NMF)') count = 1 for item in item_distribution: plt.text(item[0], item[1], 'item '+str(count), bbox=dict(facecolor='red', alpha=0.2),) count += 1 plt.show()

結(jié)果：

從距離的角度來看，item 5和item 6比較類似；從余弦相似度角度看，item 2、5、6 比較相似，item 1、3比較相似。

可視化用戶的主題分布：

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ users = ['Ben', 'Tom', 'John', 'Fred'] zip_data = zip(users, user_distribution) plt.title(u'the distribution of users (NMF)') plt.xlim((-1, 3)) plt.ylim((-1, 4)) for item in zip_data: user_name = item[0] data = item[1] plt.plot(data[0], data[1], "b*") plt.text(data[0], data[1], user_name, bbox=dict(facecolor='red', alpha=0.2),) plt.show()

結(jié)果：

從距離的角度來看，Fred、Ben、Tom的口味差不多；從余弦相似度角度看，Fred、Ben、Tom的口味還是差不多。

如何推薦

現(xiàn)在對于用戶A，如何向其推薦物品呢？

方法1：?找出與用戶A最相似的用戶B，將B評分過的、評分較高、A沒評分過的的若干物品推薦給A。

方法2：?找出用戶A評分較高的若干物品，找出與這些物品相似的、且A沒評分的若干物品推薦給A。

方法3：?找出用戶A最感興趣的k個主題，找出最符合這k個主題的、且A沒評分的若干物品推薦給A。

方法4：?由NMF得到的兩個矩陣，重建評分矩陣。例如：

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) RATE_MATRIX[1, 2] = 0 # 對評分矩陣略做修改 print '新評分矩陣：' print RATE_MATRIX nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ reconstruct_matrix = np.dot(user_distribution, item_distribution) filter_matrix = RATE_MATRIX < 1e-6 # 小于0 print '重建矩陣，并過濾掉已經(jīng)評分的物品：' print reconstruct_matrix*filter_matrix

運行結(jié)果：

新評分矩陣： [[5 5 3 0 5 5][5 0 0 0 4 4][0 3 0 5 4 5][5 4 3 3 5 5]] 重建矩陣，并過濾掉已經(jīng)評分的物品： [[ 0. 0. 0. 0.80443133 0. 0. ][ 0. 2.19148602 1.73560797 0. 0. 0. ][ 0.02543568 0. 0.48692891 0. 0. 0. ][ 0. 0. 0. 0. 0. 0. ]]

對于Tom（評分矩陣的第2行），其未評分過的物品是item 2、item 3、item 4。item 2的推薦值是2.19148602，item 3的推薦值是1.73560797，item 4的推薦值是0，若要推薦一個物品，推薦item 2。

如何處理有評分記錄的新用戶

NMF是將非負矩陣V分解為兩個非負矩陣W和H：

V = W×H

在本文上面的實現(xiàn)中，V對應評分矩陣，W是用戶的主題分布，H是物品的主題分布。

對于有評分記錄的新用戶，如何得到其主題分布？

方法1：?有評分記錄的新用戶的評分數(shù)據(jù)放入評分矩陣中，使用NMF處理新的評分矩陣。

方法2：?物品的主題分布矩陣H保持不變，將V更換為新用戶的評分組成的行向量，求W即可。

下面嘗試一下方法2。

設(shè)新用戶Bob的評分記錄為：

[5,5,0,0,0,5] #!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from sklearn.decomposition import NMF import matplotlib.pyplot as plt RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) nmf = NMF(n_components=2) user_distribution = nmf.fit_transform(RATE_MATRIX) item_distribution = nmf.components_ bob = [5, 5, 0, 0, 0, 5] print 'Bob的主題分布：' print nmf.transform(bob)

運行結(jié)果是：

Bob的主題分布： [[ 1.37800534 0.69236738]]

經(jīng)典SVD

關(guān)于SVD的一篇好文章：強大的矩陣奇異值分解(SVD)及其應用。

相關(guān)分析與上面類似，這里就直接上代碼了。

#!/usr/bin/python2.7 # coding: UTF-8 import numpy as np from scipy.sparse.linalg import svds from scipy import sparse import matplotlib.pyplot as plt def vector_to_diagonal(vector): """ 將向量放在對角矩陣的對角線上 :param vector: :return: """ if (isinstance(vector, np.ndarray) and vector.ndim == 1) or \ isinstance(vector, list): length = len(vector) diag_matrix = np.zeros((length, length)) np.fill_diagonal(diag_matrix, vector) return diag_matrix return None RATE_MATRIX = np.array( [[5, 5, 3, 0, 5, 5], [5, 0, 4, 0, 4, 4], [0, 3, 0, 5, 4, 5], [5, 4, 3, 3, 5, 5]] ) RATE_MATRIX = RATE_MATRIX.astype('float') U, S, VT = svds(sparse.csr_matrix(RATE_MATRIX), k=2, maxiter=200) # 2個隱主題 S = vector_to_diagonal(S) print '用戶的主題分布：' print U print '奇異值：' print S print '物品的主題分布：' print VT print '重建評分矩陣，并過濾掉已經(jīng)評分的物品：' print np.dot(np.dot(U, S), VT) * (RATE_MATRIX < 1e-6)

運行結(jié)果：

用戶的主題分布： [[-0.22279713 0.57098887][-0.51723555 0.4274751 ][ 0.82462029 0.38459931][ 0.05319973 0.58593526]] 奇異值： [[ 6.39167145 0. ][ 0. 17.71392084]] 物品的主題分布： [[-0.53728743 0.24605053 -0.40329582 0.67004393 0.05969518 0.18870999][ 0.44721867 0.35861531 0.29246336 0.20779151 0.50993331 0.53164501]] 重建評分矩陣，并過濾掉已經(jīng)評分的物品： [[ 0. 0. 0. 1.14752376 0. 0. ][ 0. 1.90208543 0. -0.64171368 0. 0. ][ 0.21491237 0. -0.13316888 0. 0. 0. ][ 0. 0. 0. 0. 0. 0. ]]

可視化一下：

經(jīng)典SVD + 協(xié)同過濾

0代表沒有評分，但是上面的方法（如何推薦這一節(jié)的方法4）又確實把0看作了評分，所以最終得到的只是一個推薦值（而且總體都偏小），而無法當作預測的評分。在How do I use the SVD in collaborative filtering?有這方面的討論。

SVD簡要介紹

SVD的目標是將m*n大小的矩陣A分解為三個矩陣的乘積：

U和V都是正交矩陣，大小分別是m*m、n*n。S是一個對角矩陣，大小是m*n，對角線存放著奇異值，從左上到右下依次減小，設(shè)奇異值的數(shù)量是r。

取k，k<<r。

取得

下面的算法將協(xié)同過濾和SVD結(jié)合了起來。

Item-based Filtering Enhanced by SVD

這個算法來自下面這篇論文：

Vozalis M G, Margaritis K G. Applying SVD on Generalized Item-based Filtering[J]. IJCSA, 2006, 3(3): 27-51.

1、?設(shè)評分矩陣為R，大小為m*n，m個用戶，n個物品。R中元素

2、?預處理R，消除掉其中未評分數(shù)據(jù)（即值為0）的評分。

計算R中每一行的平均值（平均值的計算中不包括值為0的評分），令
計算R中每一列的平均值（平均值的計算中不包括值為0的評分）

3、?對

4、?設(shè)正整數(shù)k，取得

red，即dimensionality reduction中的reduction?？梢哉J為k是指最重要的k個主題。定義

5、?

6、?獲取物品之間相似度。

根據(jù)
相似度計算出來后就可以得到每個物品最相似的若干物品了。

7、?使用下面的公式預測用戶a對物品j的評分：這個公式里有些變量的使用和上面的沖突了（例如k）。?

參考

SVD Recommendation System in Ruby?這篇文章使用的數(shù)據(jù)來自該鏈接，里面處理新用戶的方法表示沒看懂。

How do I use the SVD in collaborative filtering?

Vozalis M G, Margaritis K G. Applying SVD on Generalized Item-based Filtering[J]. IJCSA, 2006, 3(3): 27-51.

轉(zhuǎn)載于:https://www.cnblogs.com/AngelaSunny/p/5231981.html

總結(jié)

以上是生活随笔為你收集整理的NMF和SVD在推荐系统中的应用（实战）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PHP+JQuery实现ajax跨域
下一篇： xcode svn commit is