日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

推荐系统中的召回算法--协同过滤

發布時間:2025/4/5 windows 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 推荐系统中的召回算法--协同过滤 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

工業界通用推薦系統架構:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

Match&Rank

定義:Match基于當前user(profile、history)和context,快速在全庫中找到TopN最相關的Item,給Rank來做小范圍綜合多目標最大化

通常做法:通常情況下,用各種算法做召回,如:item/user/model-based CF/DNN等等,做粗排之后交由后面的Rank層做更精細的排序,最終展現TopK item.

Match 算法典型應用

猜你喜歡:多樣推薦? 相似推薦:看了還看? 搭配推薦:買了還買

?

協同過濾算法介紹(Collaborative Filtering簡稱CF):

1、定義:

簡單地來說,CF就是收集(collaborative)用戶偏好信息預測(filtering)用戶的興趣

數學形式化:矩陣補全問題

分類:

? ? ? ?CF主要包括:

? ? ? ? ? ? ?基于鄰域(內存、共現關系)的協同過濾---->又包括user-based CF和Item-based CF

? ? ? ? ? ? ?基于模型的協同過濾(model-based CF)

2、基于共現關系的協同過濾算法

1、User-based CF :基于用戶的協同過濾算法,多用于挖掘那些有共同興趣的小團體,通常新穎性比較好,準確性稍差

2、Item-based CF:基于物品的協同過濾算法,多用于挖掘物品之間的關系,然后根據用戶的歷史行為來為用戶生成推薦列表

相比于user-based方法,item-based的應用更加廣泛

3、相似度

計算相似度主要是通過余弦距離計算

similarity(A,B) = cos(A,B) = A*B/||A||*||B||

? ?1)有時候為了簡化,會直接去掉分母,會出現哈利波特效應

? ? ? ?(哈利波特效應是指 某個物品太熱,而導致好多物品都會跟熱門物品關聯)

? ?2)在大數據量的環境下,直接計算兩個用戶之間的相似度,會出現很多用戶之間沒有對相同的物品進行過行為,大部分交集為? ? ? ? ?0,為了解決此問題,需要建立每個物品對應用戶的倒排表,如下圖所示:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ??

? ? ? ? ? ?可以根據倒排表,只對有效的pair進行計算,從而簡化計算

? ? ? 還有一個子主題的知識,看一下下圖便知怎么回事,如下圖所示:?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

4、基于ItemCF的推薦算法調用示意圖:

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? 盡量不做補足抄底,用算法補全(補足抄底是指match階段數據不夠,可能會使用熱門進行補足)

? match后面一般有rank和rerank的策略

5、改進Item2Item

? ?針對之前計算Item2Item存在問題:熱門用戶、哈利波特效應、用戶行為缺乏考慮

? ?解決辦法:熱門用戶降權,熱門Item降權

? ?降低熱門用戶影響:? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ?緩解哈利波特效應:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ?綜合考慮:1、用戶行為差? 2、熱門用戶降權

? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

6、實時Item2Item

? 針對之前的情況會出現新品推薦問題

? 解決辦法:實時增量Item2Item

? ? ? ? ? ? ? ? ? ? ? ?? ?

? 分子:根據user,item的時間順序流,需要更新item的pair,到存儲中去

? 實時更新統計量

??具體詳見下述參考文獻1

7、混合Item2Item算法框架

? ?針對之前的情況會出現每個場景都用同樣的Item2Item

? ?解決辦法:有監督混合多種Item2Item算法

? 1)Learning to Rank

? ?在信息檢索中,給定一個query,搜索引擎會召回一系列相關的Documents(通過關鍵詞匹配等方法),然后需要對這些召回的Documents進行排序,最后將Top N的Documents輸出。而排序問題就是使用一個模型f(q,d)來對該query下的documents進行排序,這個模型是用機器學習算法訓練的模型也可以是人工設定的規則;最關注的是各個Documents之間的相對順序關系,而不是各個Docuemnts預測分數最準確

? 具體詳見下述參考文獻2

2)Hybrid Item2Item算法框架利用Learning to Rank的思想重構Item2Item

以短視頻推薦為例:

Feature:

? ? Item Feature : video ctr、video pv、video_comment、

? ? Trigger Feature : trigger ctr、topic ctr

Model:

? ?自己學習各自特征的重要性

? ?Loss:Pairwise Loss,同時優化CTR、LikeR、FavorR

? ?Lambdamart/Neural Nets

? ? ? ? ? ? ? ? ? ? ??

3、基于模型協同過濾

1、SVD算法:

? ?目標函數:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? SVD存在的幾個問題:1、缺失數據和觀測到的數據權重相同(>99% 稀疏性)? ?2、沒有正則項,容易過擬合

? ? SVD具體知識可參考下述參考4

2、矩陣分解(Matrix Factorization)算法

?主要改進

? ? ?用latent vector來表示user和item(ID embedding)

? ? ?組合關系用內積inner product(衡量user對于某一類商品的偏好)

簡化SVD:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

舉例:u_1,u_2,i_1,i_2,構造4條樣本,構造v_u,v_i矩陣

損失函數:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

w_ui是樣本的權重,比如可觀測和不可觀測的,權重不同

具體詳見下述參考文獻5

3、Factored Item Similarity Model(因子項相似度模型)

1)MF用UserID來表示用戶,可以叫做user-based CF.(找到相似的user用于推薦)

2)用用戶評價過的item表示用戶,可以叫做item-based CF(找到相似的item用于推薦)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

具體可參考下述參考6

4、SVD++:Fusing User-based and Item-based CF

1) MF(user-based CF)表示UserID表示用戶? ? ?->? 直接映射ID到隱空間

2) FISM(item-based CF)用用戶評價的item來表示用戶 -> 映射items到隱空間

3) SVD++混合兩種想法

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

具體文獻詳見下述參考文獻7

5、Generic Feature-based Recommendation

? ? ? 上述說到CF的一些算法,但是CF只是用交互矩陣來構建模型,沒有利用user/item屬性和上下文

如下圖所示:

6、FM:Factorization Machines

? ? ?FM受到前面所有的分解模型的啟發,每個特征都表示成embedding vector,并且構造二階關系

? ? ?FM允許更多的特征工程,并且可以表示之前所有模型為特殊的FM

? ? ? ? ? ? ? ? ? ?

? ?只有uid,item_id,那么就相當于是MF;UserID和Item評價,相當于是SVD++

? ?具體文獻詳見下述參考文獻8

7、之前和現在優化loss方面的區別

? ?之前的很多工作都在優化L2 loss:

? ? ? ? ? ? ? ? ? ??

? ?很多內容表明:一個低MSE模型不一定代表排序模型效果好

? ?可能的原因:均方誤差和排序指標之間的分歧(排序指標AUC等);觀察有偏用戶總是去對喜歡的電影打分

?

? 現在大部分工作都是朝向優化pairwise ranking loss

? Known as the Bayesian Personalized Ranking loss? 個性化排名 優化相對順序,而不是優化絕對值

?

? ? ? ? ? ? ? ??

8、淘寶搜索推薦核心系統架構(2018)

? ? ? ? ? ? ??

具體文章可參考下述參考9

4、深度協同過濾模型(Deep Collaborative Filtering Model)

? Methods of representation learning

? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ?

? Methods of matching function learning

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

embedding 學習常用算法:

1、矩陣分解(Matrix Factorization)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

2、topic model

?1) embedding from topic model:

? 看看下面這兩張圖片你會明白很多東西,?

? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ? ? ??? ?? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ??

2) LDA in music recommendation:(LDA是一個無監督算法,和聚類有點類似的味道)

? ? ?建模:歌曲(doc) - 歌詞(word) 只看歌詞可能是片面的,有時候需要加上其它的特征;用戶(doc) - 歌曲(word)

? ? ?應用:

? ? ? ? ? ? ? 相似歌曲:根據doc的topic分布計算相似度

? ? ? ? ? ? ? 生成歌單:每個topic下概率最大的doc

? ? ?頻率比較低的詞學習的效果不好

3、word2vec

? ?1)由來:

? ? ? ?傳統的N-gram統計語言模型:最大化轉移概率:w = argmax P(w|History);將詞看作原子單位,相互獨立;不考慮詞之間的相似性;效果受限于語料規模;大多數情況下語料不足,需要平滑

? ? ? 神經網絡語言模型:最大化最大似然估計:w = argmax P(w|content);詞的分布式表示:詞向量;超越n-gram模型-通過上下文,即周圍的環境來表示詞

? ? ? 其它方法:

? ? ? ? ? ? ? ? ? ?LSA:Latent Sematic Analysis 沒有線性規則;LDA:Latent Dirichlet Allocation 大數據訓練太慢

?2)實現方法:

? ? ? ? ? ? ? ? ? ? ?? ? ?

? ? ?Skip-Ngram是根據word來預測上下文的概率P(context|word)

? ? ?CBOW(continuous Bag of Words):根據context來預測word概率P(word|context)

3) 訓練

? ? ?Hierarchical Softmax:使用一顆二分Huffman樹表示,葉子節點是單詞,詞頻越高離根節點越低,優化計算效率O(logV)

? ? ?Negative Sampling:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

4)優勢

? 不丟失信息的情況下降低維度;矩陣及向量運算便于并行;向量空間具有物理意義;可以在多個不同的維度上具有相似性

? 線性規則:

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ????

4、DNN(Youtobe應用)

?1) embedding from DNN:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

2)DNN at Google

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

訓練training:通過分類任務學習出用戶向量和視頻向量,每個視頻作為一個類別,觀看完成是視頻作為一個正例;把最后一層隱層輸出作為用戶向量(U+C);video embedding:pre trained to feed or training together

服務serving:輸入用戶向量,查詢出與之向量相似度TopK高的視頻

3)DNN at Google 前人的一些經驗

? 隨機負采樣效果好于hierarchical soft-max

? 使用全量的數據而不是只使用推薦數據

? 每個用戶生成固定數量的樣本

? 丟棄搜索詞的序列性

? 輸入數據只使用歷史信息

上面主要說一下怎么獲取embedding幾種方法,其實即使你模型構建好啦,來了一個人,你通過模型給他返回一個可推薦物品列表,返回topK個item,想過這個模型之后選取topK等等過程工業界是怎么實現的嘛

這個部分叫做服務serving,想想去飯店吃飯服務員怎么服務的,其實是一個道理,來一個用戶你給他服務給他他最想看的幾個物品

下面看一下這個部分的通用框架:

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

下面框圖是一個參數服務器,說白啦就是一個集群,你把數據給它它分給好幾個機器處理,最后匯總一下返回,優點就是大數據量的情況下可以加快速度

DB部分:考慮到這種實時的要求,會采用NoSQL存儲系統:存儲鍵值對文檔,修改靈活;無join操作,操作簡單,速度快

kv存儲是NoSQL存儲的一種,hbase:分布式、持久化、常用于大數據存儲,redis:基于內存、速度快、常用于緩存

現在我接觸到的存儲:定時更新的庫會是hbase、hive,如果涉及到實時的話更多的使用redis和ES

?哈哈哈,我要去跑步啦,周末愉快~~~

? ?

?

參考:

1、http://net.pku.edu.cn/~cuibin/Papers/2015SIGMOD-tencentRec.pdf

2、https://www.cda.cn/uploadfile/image/20151220/20151220115436_46293.pdf

3、https://blog.csdn.net/huagong_adu/article/details/40710305

4、https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

5、https://datajobs.com/data-science-repo/Recommender-Systems-%5BNetflix%5D.pdf

6、https://www.researchgate.net/publication/262219034_FISM_factored_item_similarity_models_for_top-N_recommender_systems

7、https://www.cs.rochester.edu/twiki/pub/Main/HarpSeminar/Factorization_Meets_the_Neighborhood-_a_Multifaceted_Collaborative_Filtering_Model.pdf

8、https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf

9、https://www.sohu.com/a/212035397_612370

總結

以上是生活随笔為你收集整理的推荐系统中的召回算法--协同过滤的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 伊人小视频 | 黄色污网站在线观看 | 国产精品亚洲а∨天堂免在线 | 中文字幕视频在线观看 | 国产一级自拍视频 | 波多野结衣av片 | 最新国产毛片 | 高清无打码 | 国产精品com | 天天干狠狠操 | 欧美激情视频在线观看 | 亚洲天堂v | 丰满人妻一区二区三区53视频 | 夜夜撸网站 | 中文字幕国产视频 | 日韩欧美一本 | 欧美成人福利视频 | 木木影院| 强侵犯の奶水授乳羞羞漫虐 | 国产丝袜美腿一区二区三区 | 国产精品人人妻人人爽人人牛 | 少妇媚药按摩中文字幕 | 人妻在线一区二区三区 | 日日撸视频 | 台湾佬久久 | 99黄色网 | 国产美女无遮挡永久免费 | 懂色av蜜臀av粉嫩av喷吹 | 中文字幕91视频 | 99色综合网 | 欧美日韩一区二区三区在线 | 国产精品一区二区电影 | 91精品欧美一区二区三区 | 日日骚av | 综合久久国产 | 欧美日韩大片在线观看 | 国产精品一级片在线观看 | 欧美色xxxxx| 97caop| 啪啪免费网站 | 国产最新精品 | 成人国产在线观看 | 国产伦理一区二区 | 第四色影音先锋 | 亚洲av久久久噜噜噜熟女软件 | 成年丰满熟妇午夜免费视频 | 亚洲色图欧美自拍 | 久久人人爽人人爽人人 | 欧美黄色一级网站 | 男人添女人下部高潮全视频 | 国产美女久久 | 久久国产精品精品国产色婷婷 | 色人阁在线视频 | 国产精品成人国产乱一区 | 96超碰在线 | 玖玖在线观看 | 久久久国产亚洲 | 日本va欧美va欧美va精品 | 草久在线观看视频 | 性按摩玩人妻hd中文字幕 | 麻豆网站免费看 | 污视频在线观看网址 | 免费成人蒂法网站 | 亚洲卡一| 国产女人18毛片水真多1 | 非洲一级黄色片 | 无码任你躁久久久久久久 | 一女双乳被两男吸视频 | 色视av| 亚洲AV成人无码久久精品巨臀 | 国产二级一片内射视频播放 | 国产精品 日韩 | 成人激情免费视频 | 国产精品亚洲lv粉色 | 尹人综合| 在线观看的网站 | 日韩精品在线视频观看 | 免费一级黄色片 | 未满十八18禁止免费无码网站 | 日韩久久成人 | 成人黄色小说视频 | 久久久久久久人妻无码中文字幕爆 | 亚洲一区二区三区四区五区xx | 精品人妻无码一区二区色欲产成人 | 黄色不雅视频 | 午夜国产一区二区 | 精品无码久久久久久久 | 欧美日本高清视频 | 欧美三级在线观看视频 | 尤物视频在线观看免费 | 调教驯服丰满美艳麻麻在线视频 | 国产精品xx | 裸体的日本在线观看 | 激情视频区 | 在线视频免费观看 | 日本黄频 | 成人一二三四区 | 51吃瓜网今日吃瓜 | 免费在线不卡视频 |