當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

nmf算法 python_NMF算法简介及python实现

發(fā)布時間：2023/12/10 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 nmf算法 python_NMF算法简介及python实现小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

[ pca算法用于原始數(shù)據(jù)維數(shù)較高時對數(shù)據(jù)進(jìn)行降維關(guān)于pca算法的學(xué)習(xí)，有一篇分析特別詳細(xì)的論文http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_componen

基本原理

NMF，非負(fù)矩陣分解，它的目標(biāo)很明確，就是將大矩陣分解成兩個小矩陣，使得這兩個小矩陣相乘后能夠還原到大矩陣。而非負(fù)表示分解的矩陣都不包含負(fù)值。從應(yīng)用的角度來說，矩陣分解能夠用于發(fā)現(xiàn)兩種實(shí)體間的潛在特征，一個最常見的應(yīng)用就是協(xié)同過濾中的預(yù)測打分值，而從協(xié)同過濾的這個角度來說，非負(fù)也很容易理解：打分都是正的，不會出現(xiàn)負(fù)值。

在例如Netflix或MovieLens這樣的推薦系統(tǒng)中，有用戶和電影兩個集合。給出每個用戶對部分電影的打分，我們希望預(yù)測該用戶對其他沒看過電影的打分值，這樣可以根據(jù)打分值為其做出推薦。用戶和電影的關(guān)系，可以用一個矩陣來表示，每一行表示用戶，每一列表示電影，每個元素的值表示用戶對已經(jīng)看過的電影的打分，矩陣看起來如下：

U1 5 3 - 1

U2 4 - - 1

U3 1 1 - 5

U4 1 - - 4

U5 - 1 5 4

而使用矩陣分解來預(yù)測評分的思想來源于，我們可以通過矩陣分解來發(fā)現(xiàn)一些用戶打分的潛在特征。比如兩個人都喜歡某一演員，那他們就傾向于給TA演的電影打高分；或者兩個人都喜歡動作片。假如我們能夠發(fā)現(xiàn)這些特征，我們就能夠預(yù)測特定用戶對特定電影的打分。

為了發(fā)現(xiàn)不同的特征，我們假設(shè)特征的數(shù)量少于用戶和電影的數(shù)量(要是每個用戶都有一個獨(dú)立特征，那代價也太大啦)。

數(shù)學(xué)基礎(chǔ)

首先，我們定義U為用戶的集合，D為電影的集合，R = U * D，為評分的集合。假設(shè)我們需要尋找K個特征，則我們的目標(biāo)是，找到兩個矩陣P和Q，使得它們相乘近似等于R。即：

這樣P的每一行表示用戶，每一列表示一個特征，它們的值表示用戶與某一特征的相關(guān)性，值越大，表明特征越明顯。同理，Q的每一行表示電影，每一列表示電影與特征的關(guān)聯(lián)。最后為了預(yù)測用戶ui對特定電影dj的評分，我們可以直接計算ui和dj對應(yīng)的特征向量的點(diǎn)積，即：

現(xiàn)在我們就來計算P和Q。最簡單的方法就是梯度下降，該方法先初始化P和Q為特定的值，計算它們的乘積與真實(shí)矩陣的誤差，然后通過迭代，逐漸減小誤差直至收斂。

由于誤差可大可小，這里使用平方根誤差(squared error)來計算，計算公式如下：

即循環(huán)地計算每一條目的誤差，最后相加。

為了最小化誤差，我們需要知道怎么改變Pik和Qkj的值(在梯度下降中表現(xiàn)為下降的方向)。我們對這個公式求偏微分，即得：

計算出梯度之后，我們逐步更新Pik和Qkj：

[KNN算法的Python實(shí)現(xiàn)]

上面公式中，

為梯度下降常數(shù)，通常取一個較小的值(防止無法收斂)，如0.0002。

有人可能會問一個問題：假如我們計算出P和Q，使得P*Q近似等于R，那么那些未評分的不全是0了么？首先，我們并不要求P*Q精確等于R；其次，我們輸入的數(shù)據(jù)是所有已評分的數(shù)據(jù)(或它的子集)，即訓(xùn)練集，而并不包含未評分的數(shù)據(jù)。因此，它能夠?qū)ξ丛u分的做出不等于0的預(yù)測。

通過上面的更新規(guī)則，我們就可以逐步減小誤差，直至收斂：

規(guī)范化

上面的算法只是最簡單的一個實(shí)現(xiàn)，實(shí)際使用中可能復(fù)雜得多。一個最常見的修改就是引入規(guī)范化，以防止過度擬合。這通過加入另外一個參數(shù)

來修改誤差公式：

參數(shù)

用來控制用戶特征向量與條目特征向量的比例，以避免出現(xiàn)特征向量中出現(xiàn)特別大的值。實(shí)際應(yīng)用中，通常設(shè)置為0~0.02之間的值。因此更新公式變成：

一個簡單的python實(shí)現(xiàn)如下(需要安裝numpy)

import numpy

def matrix_factorisation(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02):

Q = Q.T

for step in range(steps):

for i in range(len(R)):

for j in range(len(R[i])):

if R[i][j] > 0:

eij = R[i][j] - numpy.dot(P[i,:],Q[:,j])

for k in range(K):

P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])

Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])

eR = numpy.dot(P,Q)

e = 0

for i in range(len(R)):

for j in range(len(R[i])):

if R[i][j] > 0:

e = e + pow(R[i][j] - numpy.dot(P[i,:],Q[:,j]), 2)

for k in range(K):

e = e + (beta/2) * (pow(P[i][k],2) + pow(Q[k][j],2))

if e < 0.001:

break

return P, Q.T

使用示例如下：

R = [

[5,3,0,1],

[4,0,0,1],

[1,1,0,5],

[1,0,0,4],

[0,1,5,4],

]

R = numpy.array(R)

N = len(R)

M = len(R[0])

K = 2

P = numpy.random.rand(N,K)

Q = numpy.random.rand(M,K)

nP, nQ = matrix_factorisation(R, P, Q, K)

nR = numpy.dot(nP, nQ.T)

print(nR)

最后P*Q還原出的矩陣如下：

U1 4.97 2.98 2.18 0.98

U2 3.97 2.40 1.97 0.99

U3 1.02 0.93 5.32 4.93

U4 1.00 0.85 4.59 3.93

U5 1.36 1.07 4.89 4.12

可以看到，還原后的矩陣跟原矩陣很接近，并且對原來空缺的值作出了預(yù)測。在這個例子中，我們可以看到U1和U2口味比較接近，他們都喜歡D1和D2。而其他的用戶則喜歡D3,D4和D5。[Apriori算法是數(shù)據(jù)挖掘中頻發(fā)模式挖掘的鼻祖，從60年代就開始流行，其算法思想也十分簡單樸素，首先挖掘出長度為1的頻繁模式，然后k=2將這些頻繁模式合并組成長度為k的頻

總結(jié)

以上是生活随笔為你收集整理的nmf算法 python_NMF算法简介及python实现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mysql8.0.22安装步骤图解_My
下一篇： python科学计算三剑客_1-pyth