當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文阅读——个性化实体推荐: 一种异构信息网络方法

發(fā)布時間：2023/12/8 编程问答 67 豆豆

生活随笔收集整理的這篇文章主要介紹了论文阅读——个性化实体推荐: 一种异构信息网络方法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

論文名稱：《Personalized Entity Recommendation: A Heterogeneous Information Network Approach》
作者：Xiao Yu, Xiang Ren, Yizhou Sun, Quanquan Gu, Bradley Sturt, Urvashi Khandelwal, Brandon Norick, Jiawei Han
原文鏈接：http://hanj.cs.illinois.edu/pdf/wsdm14_xyu.pdf

摘要

??????在各種混合推薦技術(shù)中，基于網(wǎng)絡(luò)的實體推薦方法利用用戶或項目之間的關(guān)系信息，近年來受到越來越多的關(guān)注。之前這類研究大多只考慮單一的關(guān)系類型，比如社交網(wǎng)絡(luò)中的friendship。在大多數(shù)場景中，實體推薦問題存在與異構(gòu)網(wǎng)絡(luò)之中，用不同類型的關(guān)系提高推薦質(zhì)量。具體來說，本文提出了對每個用戶的異構(gòu)關(guān)系信息進(jìn)行不同地組合，以及利用用戶隱式反饋數(shù)據(jù)來提供高質(zhì)量推薦結(jié)果和個性化推薦模型。
??????為了充分利用信息網(wǎng)絡(luò)中的關(guān)系異構(gòu)性，我們首先引入基于meta-path的隱含特征來代表用戶和項目在不同路徑上的連接性，然后我們在全局和個性化級別上分別定義了推薦模型，并使用Bayesian ranking優(yōu)化技術(shù)估計所提出的模型。

1. Introduction

??????過去的研究存在的問題
??????以往的研究表明，利用額外的用戶或項目關(guān)系信息可以提高推薦系統(tǒng)的質(zhì)量。我們的研究屬于混合推薦系統(tǒng)的范疇。我們的工作與其他基于鏈接的混合方法的區(qū)別在于，以前的大多數(shù)研究只利用單一類型的關(guān)系，如trust relationship，friend relationship等。我們提出在上述異構(gòu)網(wǎng)絡(luò)環(huán)境中研究實體推薦問題，旨在同時利用不同類型的關(guān)系信息。
??????以往的研究針對所有的用戶使用相同的推薦模型，他們依賴個性化評分或者用戶反饋數(shù)據(jù)來實現(xiàn)推薦的個性化。然而，這樣的方法不能全面地區(qū)分用戶的興趣和偏好，因此導(dǎo)致令人不滿意的結(jié)果。例如，Alice和Bob觀看了電影Pacific Rim，Alice觀看這個電影是因為她喜歡robot/monster故事，而Bob是因為他的朋友也觀看了這個電影。如果我們不理解和區(qū)分用戶的動機和興趣，使用相同的推薦模型，那么推薦結(jié)果可能不能使不同的用戶滿意。
??????本文的改進(jìn)
??????在本文中，我們使用隱式反饋數(shù)據(jù)引進(jìn)了一個新的實體推薦框架。我們以協(xié)同過濾的方式將用戶反饋與不同類型的實體關(guān)系結(jié)合起來。通過考慮用戶的隱式反饋數(shù)據(jù)，建立針對不同用戶的個性化推薦模型，實現(xiàn)推薦結(jié)果的個性化。
??????為了利用信息網(wǎng)絡(luò)的關(guān)系異構(gòu)性，我們首先將觀察到的用戶隱式反饋沿著不同的元路徑進(jìn)行擴散，從而在相應(yīng)的用戶興趣語義假設(shè)下生成可能的推薦候選項。我們將矩陣分解技術(shù)應(yīng)用于擴散的用戶偏好上（diffused user performance），來計算用戶和項目的潛在表示。然后結(jié)合這些潛在的特征，定義一個全局推薦模型。為了進(jìn)一步區(qū)分用戶的興趣，我們建議建立個性化的推薦模型，即，針對不同的用戶建立不同的實體推薦模型。我們采用貝葉斯排序優(yōu)化技術(shù)進(jìn)行模型估計。在IMDB - MovieLens - 100k和Yelp這兩個真實世界數(shù)據(jù)集中的實證研究表明，所提出的推薦模型優(yōu)于幾個最先進(jìn)的隱式反饋推薦系統(tǒng)。
??????本文主要貢獻(xiàn)：
?????? 1. 研究了異構(gòu)信息網(wǎng)絡(luò)中用戶隱式反饋的個性化實體推薦問題。
?????? 2. 為了利用關(guān)系的異構(gòu)性(relationship heterogenity)，我們提出將用戶偏好分散到信息網(wǎng)絡(luò)中不同的元路徑上，以生成用戶和項目的潛在特征。
?????? 3. 我們提出的框架能夠高效地為不同的用戶生成個性化的推薦模型。
?????? 在MovieLens100K和Yelp這兩個數(shù)據(jù)集的實證研究上證實了我們的方法。

2. Background

2.1 Binary User Feedback

對于m個用戶和n個項目，我們定義以下的隱式反饋矩陣R

注意到，1代表了用戶和項目之間的交互，如：用戶觀看了某個電影或者瀏覽了某個餐廳的網(wǎng)頁。1不表明用戶喜歡此項目，因為用戶買了這個電影票，但是觀影之后可能討厭這個電影。0也不意味著用戶不喜歡這個項目，它是負(fù)面反饋（用戶不喜歡此item）和暫無交互（用戶還沒注意到這個item）的混合。之前的一些研究對隱式反饋數(shù)據(jù)有額外的假設(shè)，例如，用戶-項目交互頻率，或每個交互的駐留時間。為了不偏離本研究的目的，我們使用前面定義的原始形式的二進(jìn)制用戶反饋。但是，如前所述的其他信息可以相應(yīng)地添加到所提議的模型的因數(shù)分解過程中。

2.2 Heterogeneous Information Network

異構(gòu)網(wǎng)絡(luò)定義省略
例子：

2.3 Matrix Factorization for Implicit Feedback

在以往的研究中，矩陣分解技術(shù)（通過學(xué)習(xí)用戶和項目的低秩矩陣表示）已經(jīng)被用來解釋隱式用戶反饋。就是用低秩矩陣的乘積近似隱式反饋矩陣R： $\approx UV^T$ U是m行d列的，V是n行d列的，U和V分別代表用戶和項目的潛在特征表示，d<min(m,n)。用戶 $u_i$ 和項目 $e_j$ 之間的recommendation score可以用低秩矩陣來表示： $r(u_i,e_j) =U_iV_j^T$ $U_i$ 表示矩陣U的第i行， $V_j$ 表示矩陣V的第j列，通過對項目的recommendation score進(jìn)行排序，我們可以得到用戶以前沒有接觸過的項目top-k個項目。
我們應(yīng)該注意到我們提出的模型是與因子分解技術(shù)正交的（our models are orthogonal to factorization techniques？？？），即利用先進(jìn)的因子分解技術(shù)可以很容易地擴展我們所提出的模型。在本研究中，為了提出一個通用的推薦框架，我們使用基本的NMF方法定義特征和模型。利用先進(jìn)的因子分解方法，由于上述正交性，我們的方法的性能可以得到相應(yīng)的提高。

2.4 Problem Definition

給定一個用用戶隱式反饋R表示的異構(gòu)信息網(wǎng)絡(luò)G，我們旨在建立一個個性化推薦模型，將用戶可能感興趣的項目排序列表推薦給他。

3 Meta-path Based Latent Features

這個部分旨在利用豐富但尚未發(fā)現(xiàn)的信息網(wǎng)絡(luò)，提出一種基于用戶偏好擴散（user preference diffusion）的特征生成方法，此方法結(jié)合了用戶隱式反饋和異構(gòu)實體關(guān)系。我們利用全局層次的潛在特征定義了一個推薦函數(shù)，全局（global）代表了這個推薦過程對于所有用戶來說是相同的。

3.1 Meta-path

從信息網(wǎng)絡(luò)的角度來看，實體推薦問題就是尋找用戶和項目之間的連接性（connectivity），在信息網(wǎng)絡(luò)中，兩個實體可以通過不同的路徑連接（以Figure 3為例），為了描述異構(gòu)信息網(wǎng)絡(luò)中的路徑類型，我們引入了【1】提出的meta-path，meta-path是在信息網(wǎng)絡(luò)模式的范圍內(nèi)定義的，并描述了如何通過不同類型的路徑連接兩個實體類型。

Example1
對于Figure3，給定如下的兩條路徑，在Figure3中，藍(lán)色實線電表P1，紅色實線代表P2，這兩條路徑用不同的語義連接了用戶和電影。P1利用社會關(guān)系，利用了電影演員的鏈接關(guān)系，通過衡量用戶和電影基于不同路徑的相似度，我們可以從不同語義角度為用戶做出電影推薦。

當(dāng)表示較長的元路徑時，在不引起歧義的情況下關(guān)系類型可以省略，元路徑的遞歸部分可以用指數(shù)符號進(jìn)行壓縮，如P2可以簡化為： $user-(movie-actor-movie)^2$

3.2 User Preference Diffusion

如前所述，隱式反饋表示用戶和項目交互的交互情況。隱式反饋中的值1表示用戶對相應(yīng)的項比對其他項更感興趣。我們使用術(shù)語user preference 來表示隱式反饋數(shù)據(jù)中的用戶興趣。直觀地說，如果我們能夠理解user preference 的語義含義，并找到與用戶感興趣的相似的項目，那么根據(jù)所發(fā)現(xiàn)的語義，我們就可以對這些用戶做出相應(yīng)的實體推薦。
根據(jù)這一觀察結(jié)果和第2節(jié)中給出的問題定義，在本文中，我們將重點討論以 $u s e r ? i t e m ? ? ? i t e m$ 格式的元路徑，以建立推薦模型。我們的直覺是，我們希望將隱式反饋數(shù)據(jù)中觀察到的用戶偏好分散到不同的元路徑上，這樣用戶就可以與其他項目連接。通過定義目標(biāo)用戶和不同元路徑上所有可能項目之間的 user preference di?usion score，我們現(xiàn)在可以測量在不同語義條件下未觀察到的（用戶-項目）交互的可能性。對于給定的元路徑，我們擴展PathSim方法以計算 user preference diffusion score，計算方法如下：

$s(u_i,e_j|P)$ 表示沿著元路徑P下用戶 $u_i$ 和項目 $e_j$ 的diffusion score， $p_{e→e_j}$ 代表 $e$ 和 $e_j$ 之間的1條路徑， $p_{e→e}$ 代表 $e$ 和 $e$ 之間的1條路徑， $p_{e_j→e_j}$ 代表 $e_j$ 和 $e_j$ 之間的1條路徑。這個得分包括兩個部分：① 與用戶 $u_i$ 相關(guān)的、已觀測到的用戶-項目交互；② $u_i$ 感興趣的項目和潛在偏好項（即式子中的 $e_j$ ）之間的連接性。項目之間的連接性被定義為這些項目之間沿著元路徑P的路徑數(shù)量，用Example 2演示用戶偏好擴散過程。

Example2
假設(shè)只有兩個用戶，三部電影和五名演員，這些實體間的聯(lián)系如Figure 4所示，紅色鏈路表示已觀測到的用戶隱式反饋，紫色鏈路表示擴散的用戶偏好，我們使用 $u s e r ? m o v i e ? a c t o r ? m o v i e$ 作為元路徑以計算diffusion score。基于隱式反饋矩陣R，我們可以得知用戶1觀看了電影2；基于信息網(wǎng)絡(luò)結(jié)構(gòu)，可以得到電影1和電影2之間有1條路徑，電影1和電影1之間有2條路徑，電影2和電影2之間有2條路徑。將上述隱式反饋數(shù)據(jù)和路徑數(shù)帶入diffusion score的計算式可以得到元路徑P下用戶偏好擴散得分為0.5，其他同理。

通過計算所有用戶和項目之間的diffusion score，我們產(chǎn)生一個diffused user matrix $R^{'}$ ，重復(fù)此過程，利用L條不同的元路徑，我們可以計算L個不同的diffused user matrix $R^{'}_{(1)}$ ， $R^{'}_{(2)}$ ，… $R^{'}_{(L)}$

3.3 Global Recommendation Model

根據(jù)矩陣分解推薦方法的直覺和原理，我們可以從每個擴散的偏好矩陣中得到相應(yīng)的低秩用戶矩陣和項目矩陣。這些低秩矩陣是用戶和項目在相應(yīng)元路徑語義意義下的潛在表示。利用矩陣分解技術(shù)分解diffused matrix：

我們使用NMF技術(shù)完成式(3)，得到L對用戶-項目的特征表示，每一對特征在一定關(guān)系語義下代表了用戶和項目。當(dāng)使用這些潛在特性定義推薦模型時，不同的特性對可能具有不同的重要性。例如，用戶在選擇電影時更有可能追隨某些演員，而不是考慮這些電影是由哪些電影公司制作的。根據(jù)這一觀察，根據(jù)，我們定義了一個全局推薦模型如下:

θq是第q個<user,item>低秩表示的權(quán)重，基于非負(fù)屬性的特性,我們添加θq≥0作為優(yōu)化約束。利用式(4)中的推薦模型，給定一個用戶，我們現(xiàn)在可以為所有item分配推薦分?jǐn)?shù)，然后對這些item進(jìn)行相應(yīng)的排序。我們返回top-K結(jié)果作為推薦結(jié)果。我們將在第5節(jié)中討論如何估計推薦模型中的參數(shù)。

4. Personalized Recommendation Model

Section 3所述模型沒有區(qū)分用戶興趣和行為模式，例如：全局模型可能會建議大多數(shù)用戶觀看由著名演員主演的流行電影，但這一規(guī)則可能并不適合所有人。因此，此部分將全局模型擴展到更細(xì)的粒度級別，旨在為不同的用戶計算不同的推薦模型，以捕捉其興趣和偏好，提出了personalized model。一種直接的方法是僅使用某用戶自己的隱式反饋數(shù)據(jù)計算式(4)，但每個用戶的反饋矩陣服從power law distribution，這意味著我們沒有足夠的數(shù)據(jù)學(xué)習(xí)personalized model。
雖然用戶行為因人而異，但一組用戶可能具有相似的興趣，比如：漫畫迷對超級英雄、奇幻和冒險電影感興趣，而斯蒂芬·斯皮爾伯格的粉絲則追隨他的電影。基于以上觀察，我們首先根據(jù)用戶的興趣對他們進(jìn)行集群，然后在每個集群中學(xué)習(xí)一個推薦模型。請注意，一個用戶可以屬于不同的用戶集群(一個用戶可以同時是comic fan和Spielberg fan)。推薦時，我們通過結(jié)合相關(guān)用戶群的推薦模型，計算出目標(biāo)用戶的個性化推薦模型，再結(jié)合目標(biāo)用戶的個性化模型計算出推薦結(jié)果。對于用戶 $u_i$ 的Personalized Model定義如下：

C代表了與用戶 $U_i$ 相關(guān)的用戶集群， $s i m (., .)$ 函數(shù)定義了集群 $C_k$ 中心和 $U_i$ 之間的余弦相似度， $θqkθ^{k}_q$ 代表了定義在用戶集群 $C_k$ 中的推薦模型。與全局模型相比，個性化模型具有 $c \times L$ 個參數(shù)，利用較大的參數(shù)空間，我們可以高效地生成個性化的推薦模型，有效地表現(xiàn)不同的用戶興趣或行為模式。第5節(jié)詳細(xì)討論了用戶聚類和模型學(xué)習(xí)算法。
此處集群數(shù)量十分重要，集群數(shù)太小，就無法很好地區(qū)分用戶興趣，集群數(shù)太多，我們可能沒有足夠的數(shù)據(jù)訓(xùn)練模型。可以通交叉驗證估計最優(yōu)jiq

5. Model Learning With Implicit Feedback

在本節(jié)中，我們將介紹用于全局和個性化推薦模型的學(xué)習(xí)算法。首先討論了全局推薦模型的參數(shù)估計方法(式(4))，然后將學(xué)習(xí)算法擴展到個性化推薦模型。
本文提出的推薦模型充分利用了信息網(wǎng)絡(luò)中的異構(gòu)實體關(guān)系。更具體地說，我們將基于網(wǎng)絡(luò)擴散的潛在特征與代表推薦過程中相應(yīng)元路徑重要性的參數(shù)相結(jié)合。為了了解潛在特征的重要性，我們使用用戶隱式反饋作為訓(xùn)練數(shù)據(jù)。如第2節(jié)所述，隱式反饋數(shù)據(jù)中的值1表示正反饋，0代表負(fù)反饋的集合(用戶對這個item不感興趣，或者用戶沒有注意到這個item)，傳統(tǒng)的學(xué)習(xí)方法采用分類或者learning-to-rank的目標(biāo)函數(shù)，通常將數(shù)據(jù)集中的1視為positives，把0視為objectis，如前所述，這些方法不適合隱式反饋數(shù)據(jù)的定義，也不能生成高質(zhì)量的推薦模型。
在[21]的激勵下，我們采用了一種不同的學(xué)習(xí)方法: 通過考慮正確的item pair orders，我們定義一個目標(biāo)函數(shù)，對每個用戶，我們將1 values排在0 values之前，這個目標(biāo)函數(shù)背后的設(shè)想是：比起其他items，用戶對value為1的items更感興趣。

5. Model Learning With Implicit Feedback

在此部分，介紹了全局模型和個性化模型的訓(xùn)練方法，首先討論了全局模型的參數(shù)估計方法，然后將其推廣到個性化模型中。受【2】的影響，我們使用一種不同的訓(xùn)練方法，我們定義一個目標(biāo)函數(shù)，將值為1的項目排在值為0的之前，這背后的假設(shè)是：相比于其余項目，用戶對隱式反饋矩陣中值為1的項目更加感興趣。

5.1 Bayesiam Ranking-Based Optimization

我們使用P( $e_a$ > $e_b$ ; $u_i$ | θ)代表用戶更喜歡 $e_a$ 而不是 $e_b$ 的概率，優(yōu)化準(zhǔn)則的貝葉斯公式是最大化后驗概率，如下所示

$θ =\{θ_1,……,θ_L\}$ 代表全局模型參數(shù), $p (R ∣ θ)$ 代表所有item pairs排名都正確的概率, 即，對于每個用戶，反饋1的項可以排在反饋0的項之前。
假設(shè)用戶偏好和項目對都是獨立的，我們可以得到如下似然函數(shù)：

P( $e_a$ > $e_b$ ; $u_i$ | θ)的定義如下：

$σ\sigma$ 是sigmoid函數(shù)，基于以上假設(shè)我們得到目標(biāo)函數(shù)：

本文使用SGD進(jìn)行參數(shù)估計。

5.2 Learning Personalized Recommendation Models

此前的部分說到，對于個性化模型，我們需要先根據(jù)用戶興趣對其進(jìn)行分組。對于NMF得到的低維用戶矩陣U，我們使用帶有余弦函數(shù)的k-means算法作為用戶之間的相似度度量，然后將用戶聚類，對于每個集群，我們使用之前的討論的方法訓(xùn)練出一個推薦模型，訓(xùn)練算法如Algorithm 1所示，在估計推薦模型的參數(shù)后，對于給定的目標(biāo)用戶，我們可以利用式(5)計算出相應(yīng)的個性化推薦模型，并根據(jù)個性化推薦模型和用戶的個人反饋數(shù)據(jù)進(jìn)行個性化實體推薦。

Reference

【1】 Y. Sun, J. Han, X. Yan, S. P. Yu, and T. Wu. PathSim: Meta Path-Based Top-K Similarity Search in Heterogeneous Information Networks. In VLDB, 2011.
【2】 S. Rendle, C. Freudenthaler, Z. Gantner, and L. Schmidt-Thieme. Bpr: Bayesian personalized ranking from implicit feedback. In UAI, 2009.

總結(jié)

以上是生活随笔為你收集整理的论文阅读——个性化实体推荐: 一种异构信息网络方法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：学习笔记——利用CC++语言计算二重积分
下一篇： Lecture 12: Iterated

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

论文阅读——个性化实体推荐: 一种异构信息网络方法

摘要

1. Introduction

2. Background

2.1 Binary User Feedback

2.2 Heterogeneous Information Network

2.3 Matrix Factorization for Implicit Feedback

2.4 Problem Definition

3 Meta-path Based Latent Features

3.1 Meta-path

3.2 User Preference Diffusion

3.3 Global Recommendation Model

4. Personalized Recommendation Model

5. Model Learning With Implicit Feedback

5. Model Learning With Implicit Feedback

5.1 Bayesiam Ranking-Based Optimization

5.2 Learning Personalized Recommendation Models

Reference

總結(jié)