當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

Mahout的taste推荐系统里的几种Recommender分析

發(fā)布時間：2023/12/4 windows 61 豆豆

生活随笔收集整理的這篇文章主要介紹了 Mahout的taste推荐系统里的几种Recommender分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Taste簡介

看自:http://blog.csdn.net/zhoubl668/article/details/13297583

Mahout 是apache下的一個java語言的開源大數(shù)據(jù)機(jī)器學(xué)習(xí)項目，與其他機(jī)器學(xué)習(xí)項目不同的是，它的算法多數(shù)是mapreduce方式寫的，可以在hadoop上運行，并行化處理大規(guī)模數(shù)據(jù)。

協(xié)同過濾在mahout里是由一個叫taste的引擎提供的，它提供兩種模式，一種是以jar包形式嵌入到程序里在進(jìn)程內(nèi)運行，另外一種是MapReduce Job形式在hadoop上運行。這兩種方式使用的算法是一樣的，配置也類似。基本上搞明白了一種，就會另外一種了。

Taste的系統(tǒng)結(jié)構(gòu)如下圖

其中：

Perference：表示用戶的喜好數(shù)據(jù)，是個三元組（userid, itemid, value），分別表示用戶id, 物品id和用戶對這個物品的喜好值。

DataModel：是Perference的集合，可以認(rèn)為是協(xié)同過濾用到的user*item的大矩陣。DateModel可以來自db, 文件或者內(nèi)存。

Similarity：相似度計算的接口，各種相似度計算算法都是繼承自這個接口，具體相似度計算的方法，可以參考這篇文章：http://anylin.iteye.com/blog/1721978

Recommender: 利用Similarity找到待推薦item集合后的各種推薦策略，這是最終要暴露個使用者的推薦接口，本文將重點介紹下taste里各種recommender的實現(xiàn)策略，有錯誤之處，請多指正。

各種Recommender介紹

按照協(xié)同過濾方法的分類， taste里的recommender可以分別劃到對應(yīng)的分類下：

Item-based:

? ? ? ? GenericItemBasedRecommender

? ? ? ? GenericBooleanPrefItemBasedRecommender

? ? ? ? KnnItemBasedRecommender

User-based:

? ? ? ? GenericUserBasedRecommender

? ? ? ? GenericBooleanPerfUserBasedRecommender

Model-based:

? ? ? ? SlopeOneRecommender

? ? ? ? SVDRecommender

? ? ? ? TreeClusteringRecommender

?ItemAverageRecommender

? ? ? ? ItemUserAverageRecommender

每種Recommender的詳細(xì)介紹如下：

GenericUserBasedRecommender

一個很簡單的user-based模式的推薦器實現(xiàn)類，根據(jù)傳入的DataModel和UserNeighborhood進(jìn)行推薦。其推薦流程分成三步：

第一步，使用UserNeighborhood獲取跟指定用戶U_i最相似的K個用戶{U₁…U_k}；

第二步，{U₁…U_k}喜歡的item集合中排除掉U_i喜歡的item, 得到一個item集合 {Item₀...Item_m}

第三步，對{Item₀...Item_m}每個item_j計算 U_i可能喜歡的程度值perf(U_i, Item_j) ，并把item按這個數(shù)值從高到低排序，把前N個item推薦給U_i。其中perf(U_i, Item_j)的計算公式如下：

其中是用戶U_l對Item_j的喜好值。

GenericBooleanPerfUserBasedRecommender

繼承自GenericUserBasedRecommender，處理邏輯跟GenericUserBasedRecommender一樣，只是的計算公式變成如下公式

其中是布爾型取值，不是0就是1。

GenericItemBasedRecommender

一個簡單的item-based的推薦器，根據(jù)傳入的DateModel和ItemSimilarity去推薦。基于Item的相似度計算比基于User的相似度計算有個好處是，item數(shù)量較少，計算量也就少了，另外item之間的相似度比較固定，所以相似度可以事先算好，這樣可以大幅提高推薦的速度。

其推薦流程可以分成三步：

? ? ? 第一步，獲取用戶U_i喜好的item集合{It₁…It_m}

第一步，使用MostSimilarItemsCandidateItemsStrategy(有多種策略, 功能類似UserNeighborhood) 獲取跟用戶喜好集合里每個item最相似的其他Item構(gòu)成集合 {Item₁…Item_k}；

第二步，對{Item₁...Item_k}里的每個item_j計算 U_i可能喜歡的程度值perf(U_i, Item_j) ，并把item按這個數(shù)值從高到低排序，把前N個Item推薦給U_i。其中perf(U_i, Item_j)的計算公式如下：

其中是用戶U_l對Item_l的喜好值。

GenericBooleanPrefItemBasedRecommender

繼承自GenericItemBasedRecommender，處理邏輯跟GenericItemBasedRecommender一樣，只是的計算公式變成如下公式

其中是布爾型取值，不是0就是1。

KnnItemBasedRecommender

繼承自GenericItemBasedRecommender，處理邏輯跟GenericItemBasedRecommender一樣，只是的計算公式比較復(fù)雜，基于一篇論文提到的算法，論文地址在這里

http://public.research.att.com/~volinsky/netflix/BellKorICDM07.pdf。根據(jù)論文介紹，該算法對數(shù)據(jù)進(jìn)行了一些預(yù)處理，同時改進(jìn)了鄰居選取策略，再不怎么增加計算量的情況下，可以較大幅度提高推薦準(zhǔn)確度。

ItemAverageRecommender

這是一個提供給實驗用的推薦類，簡單但計算快速，推薦結(jié)果可能會不夠好。它預(yù)測一個用戶對一個未知item的喜好值是所有用戶對這個item喜好值的平均值，預(yù)測公式如下。

ItemUserAverageRecommender

在ItemAverageRecommender的基礎(chǔ)上，考慮了用戶喜好的平均值和全局所有喜好的平均值進(jìn)行調(diào)整，它的預(yù)測公式如下：

? ? ? ? 其中是所有用戶對Item_j喜好的平均值，是用戶U_l所有喜好的平均值，是全局所有喜好值的平均值。

RandomRecommender

隨機(jī)推薦item, ?除了測試性能的時候有用外，沒太大用處。

SlopeOneRecommender

基于Slopeone算法的推薦器，Slopeone算法適用于用戶對item的打分是具體數(shù)值的情況。Slopeone算法不同于前面提到的基于相似度的算法，他計算簡單快速，對新用戶推薦效果不錯，數(shù)據(jù)更新和擴(kuò)展性都很不錯，預(yù)測能達(dá)到和基于相似度的算法差不多的效果，很適合在實際項目中使用。

基本原理：

用戶 ? 對item_a打分 ? ? 對item_b打分

X ? ? ? ? ? ? ? ? ? ? ? ? ?3 ? ? ? ? ? ? ? ? ? ? ? ? ?4

Y ? ? ? ? ? ? ? ? ? ? ? ? ?2 ? ? ? ? ? ? ? ? ? ? ? ? ?4

Z ? ? ? ? ? ? ? ? ? ? ? ? ?4 ? ? ? ? ? ? ? ? ? ? ? ? ??

用戶Z對item_b的打分可能是多少呢？ Slope one算法認(rèn)為：所有用戶對事物A對item_b的打分平均差值是：((3 - 4) + (2 - 4)) / 2 = -1.5，也就是說人們對item_b的打分一般比事物A的打分要高1.5，于是Slope one算法就猜測Z對item_b的打分是4 + 1.5 = 5.5

當(dāng)然在實際應(yīng)用中，用戶不止X,Y 兩個，跟item_b相關(guān)的item也不止A一個，所以slopeone的預(yù)測公式如下：

其中表示與, 用戶U_i打過分的除item_j之外所有其他item集合，表示用戶U_i對 item_k的打分。表示除U_i外所有其他用戶對item_k和item_j打分差值的平均值。

其中表示除U_i外其他所有用戶的集合。

SVDRecommender

?SVD(Singular Value Decomposition)的想法是根據(jù)已有的評分情況，分析出評分者對各個因子的喜好程度以及電影包含各個因子的程度，最后再反過來根據(jù)分析結(jié)果預(yù)測評分。電影中的因子可以理解成這些東西：電影的搞笑程度，電影的愛情愛得死去活來的程度，電影的恐怖程度。。。。。。SVD的想法抽象點來看就是將一個N行M列的評分矩陣R（R[u][i]代表第u個用戶對第i個物品的評分），分解成一個N行F列的用戶因子矩陣P（P[u][k]表示用戶u對因子k的喜好程度）和一個M行F列的物品因子矩陣Q（Q[i][k]表示第i個物品的因子k的程度）。用公式來表示就是
? ? ? ? ? ? ? ?R = P * T(Q) ? ? ? ? ? ? ?//T(Q)表示Q矩陣的轉(zhuǎn)置

基于SVD矩陣分解技術(shù)的推薦器，暫時沒有研究，具體可以參考這個文檔。

https://cwiki.apache.org/confluence/display/MAHOUT/Collaborative+Filtering+with+ALS-WR

1、關(guān)于奇異值分解的理論基礎(chǔ)，請參看下面的鏈接http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html2、關(guān)于奇異值分解的應(yīng)用場景，請參看下面的例子http://www.igvita.com/2007/01/15/svd-recommendation-system-in-ruby/3、關(guān)于奇異值分解輸入、輸出文格式的件的轉(zhuǎn)換，，請參考http://bickson.blogspot.com/2011/02/mahout-svd-matrix-factorization.html注意輸出結(jié)果解析的時應(yīng)該用NamedVector，而不是SequentialAccessSparseVector4、輸出結(jié)果解釋輸入的矩陣記為A，mahout svd輸出的結(jié)果為矩陣A^t *A的特征值和特征向量，需要注意的是，特征值是按照順序排列的。要得到U和奇異值需要做進(jìn)一步的運算（參照第一步里面提到的公式），V則是輸出的特征向量。

TreeClusteringRecommender

基于樹形聚類的推薦算法

特點

用戶數(shù)目少的時候非常合適

計算速度快

需要預(yù)先計算

這個算法在mahout-0.8版本中，已經(jīng)被@Deprecated。

基于模型的推薦算法、基于滿意度得推薦算法（未實現(xiàn)）

轉(zhuǎn)載于:https://blog.51cto.com/1992mrwang/1337936

總結(jié)

以上是生活随笔為你收集整理的Mahout的taste推荐系统里的几种Recommender分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。