當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 Bayesian Probabilistic Matrix Factorizationusing Markov Chain Monte Carlo （ICML 2008）

發(fā)布時間：2025/4/5 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记 Bayesian Probabilistic Matrix Factorizationusing Markov Chain Monte Carlo （ICML 2008）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

0 摘要

????????低秩矩陣逼近方法是協(xié)同過濾中最簡單、最有效的方法之一。這類模型通常通過尋找模型參數(shù)的MAP估計來擬合數(shù)據(jù)，這一過程即使在非常大的數(shù)據(jù)集上也能有效地執(zhí)行。

????????然而，除非正則化參數(shù)被仔細地調(diào)整，否則這種方法很容易過度擬合，因為它找到了參數(shù)的單點估計。

????????本文給出了概率矩陣分解(PMF)模型的完全貝葉斯處理方法，該方法通過對所有模型參數(shù)和超參數(shù)進行整合使用來自動控制模型容量。

????????我們表明，貝葉斯PMF模型可以有效地訓練使用馬爾可夫鏈蒙特卡羅方法，將其應用到Netflix數(shù)據(jù)集，其中包含超過1億電影評級。所得模型的預測精度明顯高于使用MAP估計訓練的PMF模型。

1 introduction

????????N個用戶對M部電影的N ×M偏好評分矩陣，是由一個D× N的用戶系數(shù)矩陣U和D×M的因子矩陣V的乘積建模而成的。訓練這樣的模型相當于在給定的損失函數(shù)下找到觀測到的N × M目標矩陣R的最佳近似。（使得U和V的乘積接近R）

????????在實踐中，我們通常對預測新用戶/電影對的評級感興趣，而不是估計模型參數(shù)。這個觀點建議采用貝葉斯方法來解決涉及到整合模型參數(shù)的問題。在本文中，我們描述了一個完全貝葉斯處理的概率矩陣分解(PMF)模型。

????????我們模型的特點是在該模型中使用了馬爾可夫鏈蒙特卡羅(MCMC)方法進行近似推理。在實踐中，MCMC方法很少用于大規(guī)模的問題，因為實踐者認為它們非常慢。在本文中，我們證明MCMC可以成功地應用于大型、稀疏和非常不平衡的Netflix數(shù)據(jù)集，該數(shù)據(jù)集包含超過1億用戶/電影評級。

????????我們還表明，與使用MAP訓練的標準PMF模型相比，它顯著提高了模型的預測精度，特別是對于不經(jīng)常使用的用戶。（使用MAP的PMF模型，它的正則化參數(shù)需要在驗證集上經(jīng)過仔細調(diào)整。）

2 PMF （Probabilistic Matrix Factorization）

線性代數(shù)筆記：概率矩陣分解 Probabilistic Matrix Factorization （PMF）_UQI-LIUWJ的博客-CSDN博客_pmf模型

?PMF的假設條件：

?其中表示均值為μ，精度（協(xié)方差矩陣的倒數(shù)）為α的高斯分布

?表示示性函數(shù)，當用戶i對電影j有打分的時候，就是1

????????在這個模型中，學習是通過在固定超參數(shù)的電影特征和用戶特征的前提下，最大化對數(shù)后驗來實現(xiàn)的

? ? ? ? ?

? ? ? ? ?最大化對數(shù)后驗概率等價于最小化如下的損失函數(shù)：

其中：

表示Frobenius 范數(shù)，見線性代數(shù)筆記：Frobenius 范數(shù)_UQI-LIUWJ的博客-CSDN博客）

?????????這種訓練過程的主要缺點是需要手動的復雜性控制，這對于使模型很好地泛化至關重要，特別是在稀疏和不平衡的數(shù)據(jù)集上。

????????控制模型復雜度的一種方法是尋找合適的正則化參數(shù)λU和λV的值。例如，我們可以考慮一組合理的參數(shù)值，針對每個參數(shù)設置訓練一個模型，并選擇在驗證集上表現(xiàn)最好的模型。然而，這種方法在計算上非常昂貴，因為它需要訓練大量模型，而不是單個模型。

????????我們可以為超參數(shù)引入先驗，并在參數(shù)和超參數(shù)上最大化模型的對數(shù)后驗，從而允許基于訓練數(shù)據(jù)自動控制模型的復雜性?。

????????在下一節(jié)中，我們將描述使用MCMC方法集成模型參數(shù)和超參數(shù)的PMF模型的完全貝葉斯處理，它提供了完全自動的復雜性控制。

3 BPMF （Bayesian Probabilistic Matrix Factorization）

3.1 模型

BPMF的圖像化模型是由下圖（右）展示的【下圖（左）是PMF的圖，以作對比】：

和PMF一樣觀測打分矩陣的概率分布也是如式(1)所示

?用戶特征矩陣和打分特征矩陣的先驗如下：

? 對于用戶特征和電影打分特征的超參數(shù)和，它們滿足如下的高斯威沙特分布?概率統(tǒng)計筆記：高斯威沙特分布_UQI-LIUWJ的博客-CSDN博客

????????

W是有著v0自由度，D×D維度協(xié)方差矩陣的威沙特分布，它的概率分布如下：

?其中C是正則化長度。為了方便起見，我們令

在我們的實驗中，我們令v0=D，W0=I，μ0=0?

?3.2 預測

????????預測的打分矩陣R*的概率分布如下：

?????????由于后驗的復雜性，準確評估這種預測分布在分析上是難以處理的，我們需要訴諸于近似推斷。

? ? ? ? ?我們這里使用MCMC來進行近似

????????

? ? ? ? ? 其中，樣本由一個馬爾可夫鏈生成，這個馬爾可夫鏈的平穩(wěn)分布是模型參數(shù)和超參數(shù)（）的后驗分布。

????????基于蒙特卡羅的方法的優(yōu)點是它們在漸近中產(chǎn)生精確的結果。然而，在實踐中，MCMC方法通常計算量較大，因此它們的使用僅限于小規(guī)模問題。

?3.3 推斷?

每完成這樣一輪，稱為一個Epoch。隨著epoch增加，生成的預測矩陣R的分布逐漸準確。

...............................................................................................................

?3.3.1 采樣θU

?從一個高斯威沙特分布里面提取

?其中

?推導過程如下：

BPMF論文輔助筆記：固定U，更新θU 部分推導_UQI-LIUWJ的博客-CSDN博客

3.3.2 采樣θV

和3.3.1 類似，只不過N 換成M，U換成V

3.3.3? 固定R，θU，V，采樣Ui

（在論文中，α設置為2）

從一個高斯分布里面采樣Ui

其中

推導過程如下：?BPMF論文輔助筆記：采樣Ui 部分推導_UQI-LIUWJ的博客-CSDN博客

3.3.4 固定R，θV，U，采樣Vi

和3.3.3 類似，只不過V換成U，M換成N

4 實驗部分

4.1 數(shù)據(jù)集

????????Netflix收集的數(shù)據(jù)代表了Netflix在1998年10月至2005年12月間獲得的所有收視率的分布。

????????訓練數(shù)據(jù)集由480,189個隨機選擇的匿名用戶對17,770個電影標題的100,480,507個評分組成。（如果每個人都看完了所有的電影的話，理論上是8,532,958,530對用戶-電影對）作為訓練數(shù)據(jù)的一部分，Netflix還提供了包含1408395個驗證數(shù)據(jù)。

????????此外，Netflix還提供了一個包含2817131對用戶/電影對的測試集，不提供評分。這些用戶/電影對是從訓練數(shù)據(jù)集中的用戶子集中最近的評分中選擇的。通過向Netflix提交預測的評分，然后發(fā)布測試集未知部分的均方根誤差(RMSE)來評估性能。

????????作為基準，Netflix提供了基于相同數(shù)據(jù)訓練的自己系統(tǒng)的測試分數(shù)0.9514。

?注：左圖中BPMF不是一條平行于x軸的直線，而是斜率很緩的向下斜線

總結

以上是生活随笔為你收集整理的论文笔记 Bayesian Probabilistic Matrix Factorizationusing Markov Chain Monte Carlo （ICML 2008）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： MDP 笔记：Value Iterati
下一篇： BPMF论文辅助笔记：固定U，更新θU