行为画像
用戶畫像在推薦系統(tǒng)中扮演著重要的角色,這篇文章主要是閱讀《用戶網(wǎng)絡(luò)行為畫像》一書的讀書摘要,該書較老,感覺更加適合產(chǎn)品經(jīng)理或者不懂推薦的人看,如果讀者本身就是一個推薦從業(yè)者的話,只需要看書的前半部分,對用戶畫像有個本質(zhì)的理解即可,后半部分可忽略。
用戶描述分為三種情況
-
用戶畫像(User Portrait),更傾向于對同一類用戶進行不同維度的刻畫
-
用戶角色(User Persona),更傾向于業(yè)務(wù)系統(tǒng)中不同用戶的角色區(qū)分
-
用戶屬性(User Profile),更傾向于對用戶屬性層面的刻畫和描述
一般將用戶畫像和用戶角色合稱為用戶畫像,而用戶屬性則是用戶畫像的子集。
用戶畫像分為:靜態(tài)屬性部分和 動態(tài)屬性部分。因為用戶畫像包含動態(tài)變化部分,所以要設(shè)計合理有效的動態(tài)更新機制,從而精確的刻畫用戶。
用戶畫像的時效性和空間性
-
用戶畫像對于時效性非常敏感,某一時刻的用戶畫像對該時刻的推薦結(jié)果最為有效,距離時間越遠,推薦結(jié)果的精確性越低,參考價值越差。
-
用戶畫像在不同的應(yīng)用領(lǐng)域有不同的側(cè)重點,比如營銷領(lǐng)域的用戶畫像側(cè)重于用戶的消費習(xí)慣,而在視頻推薦領(lǐng)域,用戶畫像則主要側(cè)重于用戶的觀影喜好。
用戶畫像建模
-
用戶畫像建模往往就是用戶信息的標簽化
-
用戶畫像通常包含
-
定量畫像:主要包括用戶基礎(chǔ)變量,興趣偏好等可量化的數(shù)據(jù)特征
-
定性畫像:主要包括用戶的基本特征,行為刻畫,興趣建模和表征向量
-
用戶畫像的表現(xiàn)形式眾多, 常見的有:
-
關(guān)鍵詞法,即一組代表用戶屬性的特征詞
-
評分矩陣法,以二維矩陣的行為表示用戶,列表示特征項目,行列的交叉點為某用戶對某特征項目的評分
-
向量空間表示法,給出一組關(guān)鍵詞及對應(yīng)的比重
-
本體表示法,以本體模型存儲用戶的屬性和關(guān)系
用戶畫像的存儲
-
關(guān)系型數(shù)據(jù)庫(便于理解、通用的SQL語言使得操作庫比較方便,維護成本低,如果達到了TB數(shù)量級,如果能夠正確設(shè)計索引,并根據(jù)數(shù)據(jù)的時效性做進一步的分級緩存,減小緩存粒度,改進緩存機制也可以做到非???#xff09;
-
NoSQL數(shù)據(jù)庫。鍵值(Key-value)存儲數(shù)據(jù)集,比如Redis、Accumulo、BerkleyDB、LevelDB、Dynamo等;列存儲數(shù)據(jù)庫,主要應(yīng)用分布式的海量數(shù)據(jù)存儲,比如Sybase IQ、Hbase、BigTable等;文檔型數(shù)據(jù)庫(主要存儲文檔、半結(jié)構(gòu)化的文檔數(shù)據(jù)、以及特定格式的數(shù)據(jù)),比如CouchDB、MongoDB;圖形數(shù)據(jù)庫,比如Neo4J、InfoGrid、Infinite Graph
-
數(shù)據(jù)倉庫,是一個面向主題的、集成的、隨時間變化的數(shù)據(jù)集合,用以更好的支持企業(yè)或組織的決策分析處理。比較適合用戶畫像的存儲、管理和分析
用戶畫像的查詢
-
用戶畫像的用途決定了是以查詢?yōu)橹?#xff0c;因此強調(diào)需要有極高的并發(fā)查詢性能,且同時對聚合性能要求很高。
-
避免查詢重復(fù),利用緩存技術(shù)
用戶畫像的更新
-
觸發(fā)更新
-
定期更新
設(shè)計用戶畫像時,注意要有一個唯一的id表示用戶,如果有多個,注意數(shù)據(jù)間的同步。
-
主流推薦算法分類
-
CF
-
基于內(nèi)容
-
基于知識
-
混合推薦
-
-
推薦系統(tǒng)的評測方法
-
離線評測;評分準確度-MAE(平均絕對誤差),評分準確度-MSE、NMAE、RMSE,評分準確度-預(yù)測評分關(guān)聯(lián)度(Pearnson積距、Spearman相關(guān)方法、Kendall's Tau),排序準確度、平均準確度、NDCG(Normalized Discounted Cumulative Gain),分類準確度(準確率、召回率、F值、AUC曲線),覆蓋率、多樣性、新穎性
-
用戶調(diào)查
-
在線評測;ABTest/點擊率/轉(zhuǎn)化率
-
-
常見的評測指標
-
點擊率&轉(zhuǎn)化率
-
用戶滿意度
-
預(yù)測準確度
-
覆蓋率
-
多樣性
-
新穎性
-
適應(yīng)性
-
擴展性
-
-
SVD算法
-
SVD的基本原理是將給定的矩陣分解成3個矩陣的乘積形式,即
-
分解出的矩陣和被分別稱為左、右奇異矩陣,其本質(zhì)是酉矩陣,即與他們各自的共軛轉(zhuǎn)置矩陣相乘后會得到單位矩陣
-
矩陣?為對角矩陣,其對角線上的值即為矩陣的奇異值
-
混合推薦方法
-
整體式混合設(shè)計
-
特征組合(從多種推薦數(shù)據(jù)源中獲取特征,將這些特征組合起來放入單一的推薦算法中)
-
特征補充(將一種推薦算法輸出的特征信息作為另一種推薦算法的輸入特征信息)
-
-
并行式混合設(shè)計
-
加權(quán)式(對多種推薦算法的計算結(jié)果進行加權(quán)平均處理,產(chǎn)生出單一的推薦結(jié)果)
-
混雜式(同時呈現(xiàn)出多種推薦算法的推薦結(jié)果)
-
切換式(在不同的推薦算法中進行切換以適應(yīng)當前的推薦情境)
-
-
流水線式混合設(shè)計
-
層疊式(一種推薦算法對另一種推薦算法的推薦結(jié)果進行提煉)
-
級聯(lián)式(一種推薦算法學(xué)習(xí)到的模型作為另一種推薦算法的輸入)
-
A/BTest(線上普遍使用),其宗旨為
-
同時運行兩個或者兩個以上方案
-
兩個方案只有一個變量不變,其他條件均相同
-
有明確的評價指標用于評價兩套方案的優(yōu)劣
-
實驗過程中,同一個用戶從始至終都應(yīng)該只接觸一個方案
總結(jié)
- 上一篇: 201421440018王坤的作业一
- 下一篇: 掌握这些PDF转Word方法,从此你就是