论文阅读——个性化实体推荐: 一种异构信息网络方法
論文名稱:《Personalized Entity Recommendation: A Heterogeneous Information Network Approach》
作者:Xiao Yu, Xiang Ren, Yizhou Sun, Quanquan Gu, Bradley Sturt, Urvashi Khandelwal, Brandon Norick, Jiawei Han
原文鏈接:http://hanj.cs.illinois.edu/pdf/wsdm14_xyu.pdf
摘要
??????在各種混合推薦技術(shù)中,基于網(wǎng)絡(luò)的實體推薦方法利用用戶或項目之間的關(guān)系信息,近年來受到越來越多的關(guān)注。之前這類研究大多只考慮單一的關(guān)系類型,比如社交網(wǎng)絡(luò)中的friendship。在大多數(shù)場景中,實體推薦問題存在與異構(gòu)網(wǎng)絡(luò)之中,用不同類型的關(guān)系提高推薦質(zhì)量。具體來說,本文提出了對每個用戶的異構(gòu)關(guān)系信息進(jìn)行不同地組合,以及利用用戶隱式反饋數(shù)據(jù)來提供高質(zhì)量推薦結(jié)果和個性化推薦模型。
??????為了充分利用信息網(wǎng)絡(luò)中的關(guān)系異構(gòu)性,我們首先引入基于meta-path的隱含特征來代表用戶和項目在不同路徑上的連接性,然后我們在全局和個性化級別上分別定義了推薦模型,并使用Bayesian ranking優(yōu)化技術(shù)估計所提出的模型。
1. Introduction
??????過去的研究存在的問題
??????以往的研究表明,利用額外的用戶或項目關(guān)系信息可以提高推薦系統(tǒng)的質(zhì)量。我們的研究屬于混合推薦系統(tǒng)的范疇。我們的工作與其他基于鏈接的混合方法的區(qū)別在于,以前的大多數(shù)研究只利用單一類型的關(guān)系,如trust relationship,friend relationship等。我們提出在上述異構(gòu)網(wǎng)絡(luò)環(huán)境中研究實體推薦問題,旨在同時利用不同類型的關(guān)系信息。
??????以往的研究針對所有的用戶使用相同的推薦模型,他們依賴個性化評分或者用戶反饋數(shù)據(jù)來實現(xiàn)推薦的個性化。然而,這樣的方法不能全面地區(qū)分用戶的興趣和偏好,因此導(dǎo)致令人不滿意的結(jié)果。例如,Alice和Bob觀看了電影Pacific Rim,Alice觀看這個電影是因為她喜歡robot/monster故事,而Bob是因為他的朋友也觀看了這個電影。如果我們不理解和區(qū)分用戶的動機和興趣,使用相同的推薦模型,那么推薦結(jié)果可能不能使不同的用戶滿意。
??????本文的改進(jìn)
??????在本文中,我們使用隱式反饋數(shù)據(jù)引進(jìn)了一個新的實體推薦框架。我們以協(xié)同過濾的方式將用戶反饋與不同類型的實體關(guān)系結(jié)合起來。通過考慮用戶的隱式反饋數(shù)據(jù),建立針對不同用戶的個性化推薦模型,實現(xiàn)推薦結(jié)果的個性化。
??????為了利用信息網(wǎng)絡(luò)的關(guān)系異構(gòu)性,我們首先將觀察到的用戶隱式反饋沿著不同的元路徑進(jìn)行擴散,從而在相應(yīng)的用戶興趣語義假設(shè)下生成可能的推薦候選項。我們將矩陣分解技術(shù)應(yīng)用于擴散的用戶偏好上(diffused user performance),來計算用戶和項目的潛在表示。然后結(jié)合這些潛在的特征,定義一個全局推薦模型。為了進(jìn)一步區(qū)分用戶的興趣,我們建議建立個性化的推薦模型,即,針對不同的用戶建立不同的實體推薦模型。我們采用貝葉斯排序優(yōu)化技術(shù)進(jìn)行模型估計。在IMDB - MovieLens - 100k和Yelp這兩個真實世界數(shù)據(jù)集中的實證研究表明,所提出的推薦模型優(yōu)于幾個最先進(jìn)的隱式反饋推薦系統(tǒng)。
??????本文主要貢獻(xiàn):
?????? 1. 研究了異構(gòu)信息網(wǎng)絡(luò)中用戶隱式反饋的個性化實體推薦問題。
?????? 2. 為了利用關(guān)系的異構(gòu)性(relationship heterogenity),我們提出將用戶偏好分散到信息網(wǎng)絡(luò)中不同的元路徑上,以生成用戶和項目的潛在特征。
?????? 3. 我們提出的框架能夠高效地為不同的用戶生成個性化的推薦模型。
?????? 在MovieLens100K和Yelp這兩個數(shù)據(jù)集的實證研究上證實了我們的方法。
2. Background
2.1 Binary User Feedback
對于m個用戶和n個項目,我們定義以下的隱式反饋矩陣R
注意到,1代表了用戶和項目之間的交互,如:用戶觀看了某個電影或者瀏覽了某個餐廳的網(wǎng)頁。1不表明用戶喜歡此項目,因為用戶買了這個電影票,但是觀影之后可能討厭這個電影。0也不意味著用戶不喜歡這個項目,它是負(fù)面反饋(用戶不喜歡此item)和暫無交互(用戶還沒注意到這個item)的混合。之前的一些研究對隱式反饋數(shù)據(jù)有額外的假設(shè),例如,用戶-項目交互頻率,或每個交互的駐留時間。為了不偏離本研究的目的,我們使用前面定義的原始形式的二進(jìn)制用戶反饋。但是,如前所述的其他信息可以相應(yīng)地添加到所提議的模型的因數(shù)分解過程中。
2.2 Heterogeneous Information Network
異構(gòu)網(wǎng)絡(luò)定義省略
例子:
2.3 Matrix Factorization for Implicit Feedback
在以往的研究中,矩陣分解技術(shù)(通過學(xué)習(xí)用戶和項目的低秩矩陣表示)已經(jīng)被用來解釋隱式用戶反饋。就是用低秩矩陣的乘積近似隱式反饋矩陣R:R≈UVTR \approx UV^T R≈UVTU是m行d列的,V是n行d列的,U和V分別代表用戶和項目的潛在特征表示,d<min(m,n)。用戶uiu_iui?和項目eje_jej?之間的recommendation score可以用低秩矩陣來表示:r(ui,ej)=UiVjTr(u_i,e_j) =U_iV_j^Tr(ui?,ej?)=Ui?VjT? UiU_iUi?表示矩陣U的第i行,VjV_jVj?表示矩陣V的第j列,通過對項目的recommendation score進(jìn)行排序,我們可以得到用戶以前沒有接觸過的項目top-k個項目。
我們應(yīng)該注意到我們提出的模型是與因子分解技術(shù)正交的(our models are orthogonal to factorization techniques???),即利用先進(jìn)的因子分解技術(shù)可以很容易地擴展我們所提出的模型。在本研究中,為了提出一個通用的推薦框架,我們使用基本的NMF方法定義特征和模型。利用先進(jìn)的因子分解方法,由于上述正交性,我們的方法的性能可以得到相應(yīng)的提高。
2.4 Problem Definition
給定一個用用戶隱式反饋R表示的異構(gòu)信息網(wǎng)絡(luò)G,我們旨在建立一個個性化推薦模型,將用戶可能感興趣的項目排序列表推薦給他。
3 Meta-path Based Latent Features
這個部分旨在利用豐富但尚未發(fā)現(xiàn)的信息網(wǎng)絡(luò),提出一種基于用戶偏好擴散(user preference diffusion)的特征生成方法,此方法結(jié)合了用戶隱式反饋和異構(gòu)實體關(guān)系。我們利用全局層次的潛在特征定義了一個推薦函數(shù),全局(global)代表了這個推薦過程對于所有用戶來說是相同的。
3.1 Meta-path
從信息網(wǎng)絡(luò)的角度來看,實體推薦問題就是尋找用戶和項目之間的連接性(connectivity),在信息網(wǎng)絡(luò)中,兩個實體可以通過不同的路徑連接(以Figure 3為例),為了描述異構(gòu)信息網(wǎng)絡(luò)中的路徑類型,我們引入了【1】提出的meta-path,meta-path是在信息網(wǎng)絡(luò)模式的范圍內(nèi)定義的,并描述了如何通過不同類型的路徑連接兩個實體類型。
- Example1
對于Figure3,給定如下的兩條路徑,在Figure3中,藍(lán)色實線電表P1,紅色實線代表P2,這兩條路徑用不同的語義連接了用戶和電影。P1利用社會關(guān)系,利用了電影演員的鏈接關(guān)系,通過衡量用戶和電影基于不同路徑的相似度,我們可以從不同語義角度為用戶做出電影推薦。
當(dāng)表示較長的元路徑時,在不引起歧義的情況下關(guān)系類型可以省略,元路徑的遞歸部分可以用指數(shù)符號進(jìn)行壓縮,如P2可以簡化為:user?(movie?actor?movie)2user-(movie-actor-movie)^2user?(movie?actor?movie)2
3.2 User Preference Diffusion
如前所述,隱式反饋表示用戶和項目交互的交互情況。隱式反饋中的值1表示用戶對相應(yīng)的項比對其他項更感興趣。我們使用術(shù)語user preference 來表示隱式反饋數(shù)據(jù)中的用戶興趣。直觀地說,如果我們能夠理解user preference 的語義含義,并找到與用戶感興趣的相似的項目,那么根據(jù)所發(fā)現(xiàn)的語義,我們就可以對這些用戶做出相應(yīng)的實體推薦。
根據(jù)這一觀察結(jié)果和第2節(jié)中給出的問題定義,在本文中,我們將重點討論以user?item???itemuser - item -*- itemuser?item???item格式的元路徑,以建立推薦模型。我們的直覺是,我們希望將隱式反饋數(shù)據(jù)中觀察到的用戶偏好分散到不同的元路徑上,這樣用戶就可以與其他項目連接。通過定義目標(biāo)用戶和不同元路徑上所有可能項目之間的 user preference di?usion score,我們現(xiàn)在可以測量在不同語義條件下未觀察到的(用戶-項目)交互的可能性。對于給定的元路徑,我們擴展PathSim方法以計算 user preference diffusion score,計算方法如下:
s(ui,ej∣P)s(u_i,e_j|P)s(ui?,ej?∣P)表示沿著元路徑P下用戶uiu_iui?和項目eje_jej?的diffusion score,pe→ejp_{e→e_j}pe→ej??代表eee和eje_jej?之間的1條路徑,pe→ep_{e→e}pe→e?代表eee和eee之間的1條路徑,pej→ejp_{e_j→e_j}pej?→ej??代表eje_jej?和eje_jej?之間的1條路徑。這個得分包括兩個部分:① 與用戶uiu_iui? 相關(guān)的、已觀測到的用戶-項目交互;② uiu_iui? 感興趣的項目和潛在偏好項(即式子中的eje_jej?)之間的連接性。項目之間的連接性被定義為這些項目之間沿著元路徑P的路徑數(shù)量,用Example 2演示用戶偏好擴散過程。
- Example2
假設(shè)只有兩個用戶,三部電影和五名演員,這些實體間的聯(lián)系如Figure 4所示,紅色鏈路表示已觀測到的用戶隱式反饋,紫色鏈路表示擴散的用戶偏好,我們使用user?movie?actor?movieuser-movie-actor-movieuser?movie?actor?movie作為元路徑以計算diffusion score。基于隱式反饋矩陣R,我們可以得知用戶1觀看了電影2;基于信息網(wǎng)絡(luò)結(jié)構(gòu),可以得到電影1和電影2之間有1條路徑,電影1和電影1之間有2條路徑,電影2和電影2之間有2條路徑。將上述隱式反饋數(shù)據(jù)和路徑數(shù)帶入diffusion score的計算式可以得到元路徑P下用戶偏好擴散得分為0.5,其他同理。
通過計算所有用戶和項目之間的diffusion score,我們產(chǎn)生一個diffused user matrix R′R^{'}R′,重復(fù)此過程,利用L條不同的元路徑,我們可以計算L個不同的diffused user matrix R(1)′R^{'}_{(1)}R(1)′?,R(2)′R^{'}_{(2)}R(2)′?,…R(L)′R^{'}_{(L)}R(L)′?
3.3 Global Recommendation Model
根據(jù)矩陣分解推薦方法的直覺和原理,我們可以從每個擴散的偏好矩陣中得到相應(yīng)的低秩用戶矩陣和項目矩陣。這些低秩矩陣是用戶和項目在相應(yīng)元路徑語義意義下的潛在表示。利用矩陣分解技術(shù)分解diffused matrix:
我們使用NMF技術(shù)完成式(3),得到L對用戶-項目的特征表示,每一對特征在一定關(guān)系語義下代表了用戶和項目。當(dāng)使用這些潛在特性定義推薦模型時,不同的特性對可能具有不同的重要性。例如,用戶在選擇電影時更有可能追隨某些演員,而不是考慮這些電影是由哪些電影公司制作的。根據(jù)這一觀察,根據(jù),我們定義了一個全局推薦模型如下:
θq是第q個<user,item>低秩表示的權(quán)重,基于非負(fù)屬性的特性,我們添加θq≥0作為優(yōu)化約束。利用式(4)中的推薦模型,給定一個用戶,我們現(xiàn)在可以為所有item分配推薦分?jǐn)?shù),然后對這些item進(jìn)行相應(yīng)的排序。我們返回top-K結(jié)果作為推薦結(jié)果。我們將在第5節(jié)中討論如何估計推薦模型中的參數(shù)。
4. Personalized Recommendation Model
Section 3所述模型沒有區(qū)分用戶興趣和行為模式,例如:全局模型可能會建議大多數(shù)用戶觀看由著名演員主演的流行電影,但這一規(guī)則可能并不適合所有人。因此,此部分將全局模型擴展到更細(xì)的粒度級別,旨在為不同的用戶計算不同的推薦模型,以捕捉其興趣和偏好,提出了personalized model。一種直接的方法是僅使用某用戶自己的隱式反饋數(shù)據(jù)計算式(4),但每個用戶的反饋矩陣服從power law distribution,這意味著我們沒有足夠的數(shù)據(jù)學(xué)習(xí)personalized model。
雖然用戶行為因人而異,但一組用戶可能具有相似的興趣,比如:漫畫迷對超級英雄、奇幻和冒險電影感興趣,而斯蒂芬·斯皮爾伯格的粉絲則追隨他的電影。基于以上觀察,我們首先根據(jù)用戶的興趣對他們進(jìn)行集群,然后在每個集群中學(xué)習(xí)一個推薦模型。請注意,一個用戶可以屬于不同的用戶集群(一個用戶可以同時是comic fan和Spielberg fan)。推薦時,我們通過結(jié)合相關(guān)用戶群的推薦模型,計算出目標(biāo)用戶的個性化推薦模型,再結(jié)合目標(biāo)用戶的個性化模型計算出推薦結(jié)果。對于用戶uiu_iui?的Personalized Model定義如下:
C代表了與用戶UiU_iUi?相關(guān)的用戶集群,sim(.,.)sim(.,.)sim(.,.)函數(shù)定義了集群CkC_kCk?中心和UiU_iUi?之間的余弦相似度,θqkθ^{k}_qθqk?代表了定義在用戶集群CkC_kCk?中的推薦模型。與全局模型相比,個性化模型具有c×Lc×Lc×L個參數(shù),利用較大的參數(shù)空間,我們可以高效地生成個性化的推薦模型,有效地表現(xiàn)不同的用戶興趣或行為模式。第5節(jié)詳細(xì)討論了用戶聚類和模型學(xué)習(xí)算法。
此處集群數(shù)量十分重要,集群數(shù)太小,就無法很好地區(qū)分用戶興趣,集群數(shù)太多,我們可能沒有足夠的數(shù)據(jù)訓(xùn)練模型。可以通交叉驗證估計最優(yōu)jiq
5. Model Learning With Implicit Feedback
在本節(jié)中,我們將介紹用于全局和個性化推薦模型的學(xué)習(xí)算法。首先討論了全局推薦模型的參數(shù)估計方法(式(4)),然后將學(xué)習(xí)算法擴展到個性化推薦模型。
本文提出的推薦模型充分利用了信息網(wǎng)絡(luò)中的異構(gòu)實體關(guān)系。更具體地說,我們將基于網(wǎng)絡(luò)擴散的潛在特征與代表推薦過程中相應(yīng)元路徑重要性的參數(shù)相結(jié)合。為了了解潛在特征的重要性,我們使用用戶隱式反饋作為訓(xùn)練數(shù)據(jù)。如第2節(jié)所述,隱式反饋數(shù)據(jù)中的值1表示正反饋,0代表負(fù)反饋的集合(用戶對這個item不感興趣,或者用戶沒有注意到這個item),傳統(tǒng)的學(xué)習(xí)方法采用分類或者learning-to-rank的目標(biāo)函數(shù),通常將數(shù)據(jù)集中的1視為positives,把0視為objectis,如前所述,這些方法不適合隱式反饋數(shù)據(jù)的定義,也不能生成高質(zhì)量的推薦模型。
在[21]的激勵下,我們采用了一種不同的學(xué)習(xí)方法: 通過考慮正確的item pair orders,我們定義一個目標(biāo)函數(shù),對每個用戶,我們將1 values排在0 values之前,這個目標(biāo)函數(shù)背后的設(shè)想是:比起其他items,用戶對value為1的items更感興趣。
5. Model Learning With Implicit Feedback
在此部分,介紹了全局模型和個性化模型的訓(xùn)練方法,首先討論了全局模型的參數(shù)估計方法,然后將其推廣到個性化模型中。受【2】的影響,我們使用一種不同的訓(xùn)練方法,我們定義一個目標(biāo)函數(shù),將值為1的項目排在值為0的之前,這背后的假設(shè)是:相比于其余項目,用戶對隱式反饋矩陣中值為1的項目更加感興趣。
5.1 Bayesiam Ranking-Based Optimization
我們使用P(eae_aea?>ebe_beb?;uiu_iui?| θ)代表用戶更喜歡eae_aea?而不是ebe_beb?的概率,優(yōu)化準(zhǔn)則的貝葉斯公式是最大化后驗概率,如下所示
θ={θ1,……,θL}θ =\{θ_1,……,θ_L\}θ={θ1?,……,θL?}代表全局模型參數(shù),p(R∣θ)p(R |θ)p(R∣θ)代表所有item pairs排名都正確的概率, 即,對于每個用戶,反饋1的項可以排在反饋0的項之前。
假設(shè)用戶偏好和項目對都是獨立的,我們可以得到如下似然函數(shù):
P(eae_aea?>ebe_beb?;uiu_iui?| θ)的定義如下:
σ\sigmaσ是sigmoid函數(shù),基于以上假設(shè)我們得到目標(biāo)函數(shù):
本文使用SGD進(jìn)行參數(shù)估計。
5.2 Learning Personalized Recommendation Models
此前的部分說到,對于個性化模型,我們需要先根據(jù)用戶興趣對其進(jìn)行分組。對于NMF得到的低維用戶矩陣U,我們使用帶有余弦函數(shù)的k-means算法作為用戶之間的相似度度量,然后將用戶聚類,對于每個集群,我們使用之前的討論的方法訓(xùn)練出一個推薦模型,訓(xùn)練算法如Algorithm 1所示,在估計推薦模型的參數(shù)后,對于給定的目標(biāo)用戶,我們可以利用式(5)計算出相應(yīng)的個性化推薦模型,并根據(jù)個性化推薦模型和用戶的個人反饋數(shù)據(jù)進(jìn)行個性化實體推薦。
Reference
【1】 Y. Sun, J. Han, X. Yan, S. P. Yu, and T. Wu. PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks. In VLDB, 2011.
【2】 S. Rendle, C. Freudenthaler, Z. Gantner, and L. Schmidt-Thieme. Bpr: Bayesian personalized ranking from implicit feedback. In UAI, 2009.
總結(jié)
以上是生活随笔為你收集整理的论文阅读——个性化实体推荐: 一种异构信息网络方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习笔记——利用CC++语言计算二重积分
- 下一篇: Lecture 12: Iterated