當前位置：首頁 > 运维知识 > windows >内容正文

windows

推荐系统: 数据、问题与算法

發布時間：2024/8/23 windows 43 豆豆

生活随笔收集整理的這篇文章主要介紹了推荐系统: 数据、问题与算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

網絡的迅速發展帶來了信息量的大幅增長，使得用戶在面對大量信息時無法從中獲得對自己真正有用的那部分信息，對信息的使用效率反而降低了，導致信息超載（information overload）問題。
解決信息超載問題一個非常有潛力的辦法是推薦系統，它是根據用戶的信息需求、興趣等，將用戶感興趣的信息、產品等推薦給用戶的個性化系統。和搜索引擎相比推薦系統通過研究用戶的興趣偏好，進行個性化計算，由系統發現用戶的興趣點，從而引導用戶發現自己的信息需求。一個好的推薦系統不僅能為用戶提供個性化的服務，還能和用戶之間建立密切關系，讓用戶對推薦產生依賴。
推薦系統現已廣泛應用于很多領域，其中最典型并具有良好的發展和應用前景的領域就是電子商務領域。同時學術界對推薦系統的研究熱度一直很高，逐步形成了一門獨立的學科。
一些名詞能很好的刻畫推薦系統，如千人千面、猜你喜歡等。

數據

推薦系統包括一些基礎數據與附加信息。

基礎數據

令用戶數量為 $n$ , 商品數量為 $m$ . 用戶對商品評分構成的矩陣 $R=(rij)n×m\mathbf{R} = (r_{ij})_{n \times m}$ . 如下表所示：

分兩種情況討論:

如果僅知道用戶是否瀏覽過商品, $r_{ij}$ 的取值范圍為 ${0, 1\}$ ， $R\mathbf{R}$ 表示瀏覽矩陣， $r_{ij} = 1$ 表示用戶 $u_i$ 瀏覽過商品 $t_j$ ， $r_{ij} = 0$ 表示用戶 $u_i$ 沒有瀏覽過商品 $t_j$ ，這種評分也被稱為隱式評分（implicit ratings）.
如果用戶給購買過的商品進行評分， $R\mathbf{R}$ 表示評分矩陣， $r_{ij}$ 代表用戶 $u_i$ 對商品 $t_j$ 的評分，?一般的取值范圍為 ${0, 1, 2, 3, 4, 5\}$ ,0分表示用戶沒有購買過商品，1分表示用戶不喜歡該商品，5分表示用戶特別喜歡該商品.

用戶及商品信息

用戶有自身信息, 如: 性別、國籍、信仰、年齡、職業等等.
商品有自身信息, 以電影為例, 包括: 出品時間、導演、主演、類型 (愛情片、動畫片、喜劇片、懸疑片等，可多選)、片長等等.
以飯店為例, 有位置 (城市、街道)、營業時間、類別 (川菜、粵菜、魯菜).

社交網絡

用戶與用戶之間存在著信任關系（或稱為好友），這樣就構成了一個基于信任的社交網絡，這些社交關系有利于給用戶進行畫像.

用戶評論/點贊

用戶不僅要給商品打分, 還會給用戶/商品寫一些評論或點贊. 這些評論或點贊可能比分數提供更豐富的語義信息.

其它信息

推薦系統應用廣泛，如新聞、商品、音樂、視頻等，都可以作為推薦的對象，針對不同應用場景，會收集很多相關信息，后續根據不同應用場景再補充。

問題

推薦系統的核心問題就是預測用戶對商品的偏好。這種偏好可以用一個評分來表示，也可以用是否有瀏覽/購買的意愿來表示。針對具體的應用場景，需要說明輸入、輸出、優化目標、約束條件。

基于瀏覽矩陣的推薦

問題：瀏覽/購買預測
輸入：訓練矩陣 $Rt=(rijt)n×m\mathbf{R}^t = (r_{ij}^t)_{n \times m}$ ，所有評分矩陣 $R=(rij)n×m\mathbf{R} = (r_{ij})_{n \times m}$ .
輸出：預測矩陣 $P=(pij)n×m\mathbf{P} = (p_{ij})_{n \times m}$ .
優化目標：最大化準確率
$max?acc(Rt,P,R)=∣{(i,j)∈R∣rijt=0,rij=1,pij=rij}∣∣{(i,j)∈R∣rijt=0,rij=1}∣\max acc(\mathbf{R}^t, \mathbf{P}, \mathbf{R}) = \frac{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} = 1, p_{ij} = r_{ij}\}|}{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} = 1\}|}$ .
其中：

R\mathbf{R}

用于測試階段評價推薦算法的準確率, 不能用于訓練.

完備矩陣

R\mathbf{R}

在現實中并不存在.

0 具有了有同解釋 (語義), 在訓練集

Rt\mathbf{R}^t

中表示未知, 在預測矩陣

P\mathbf{P}

中表示不喜歡或不購買, 在完備矩陣

R\mathbf{R}

中既可能表示未知, 也可能表示不喜歡.

基于評分矩陣的預測

問題：評分預測
輸入：訓練矩陣 $Rt=(rijt)n×m\mathbf{R}^t = (r_{ij}^t)_{n \times m}$ ，所有評分矩陣 $R=(rij)n×m\mathbf{R} = (r_{ij})_{n \times m}$ .
輸出：預測矩陣 $P=(pij)n×m\mathbf{P} = (p_{ij})_{n \times m}$ .
優化目標：

最小化平均絕對誤差 (mean absolute error)
$min?mae(Rt,P,R)=Σ(i,j)∈{(i,j)∈R∣rijt=0,rij>0}∣pij?rij∣∣{(i,j)∈R∣rijt=0,rij>0}∣\min mae(\mathbf{R}^t, \mathbf{P}, \mathbf{R}) = \frac{\Sigma_{(i,j) \in \{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} > 0\}}|p_{ij} - r_{ij}|}{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} > 0\}|}$
最小化均方誤差 (root mean square error)
$min?rsme(Rt,P,R)=Σ(i,j)∈{(i,j)∈R∣rijt=0,rij>0}(pij?rij)2∣{(i,j)∈R∣rijt=0,rij>0}∣\min rsme(\mathbf{R}^t, \mathbf{P}, \mathbf{R}) =\sqrt{ \frac{\Sigma_{(i,j) \in \{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} > 0\}}(p_{ij} - r_{ij})^2}{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} > 0\}|}}$

基于評分矩陣的推薦

問題：基于評分矩陣的推薦
輸入：訓練矩陣 $Rt=(rijt)n×m\mathbf{R}^t = (r_{ij}^t)_{n \times m}$ ，所有評分矩陣 $R=(rij)n×m\mathbf{R} = (r_{ij})_{n \times m}$ , 推薦閾值 $r_l$ .
輸出：預測矩陣 $P=(pij)n×m\mathbf{P} = (p_{ij})_{n \times m}$ .
優化目標：最大化準確率
$max?acc(Rt,P,R)=∣{(i,j)∈R∣rijt=0,rij≥rl,pij≥rl}∣∣{(i,j)∈R∣rijt=0,rij≥rl}∣\max acc(\mathbf{R}^t, \mathbf{P}, \mathbf{R}) = \frac{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} \ge r_l, p_{ij} \ge r_{l}\}|}{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} \ge r_l\}|}$ .

交互推薦

在實際應用場景中，交互推薦是主流的推薦方式，推薦系統都會根據用戶的選擇優化推薦列表，也就是說用戶這一輪的選擇會影響下一輪的推薦列表。比如推薦系統一次給用戶推薦20個商品，用戶在本輪推薦中選擇了商品1、3、5；這樣的選擇就會反饋給系統，系統根據用戶的選擇優化下一輪的推薦。交互式推薦用英文表達為 conversational recommendation.
場景描述:
對每個用戶

登錄系統; do{獲得系統推薦的一組項目 (固定為k個);用戶在其中選擇喜歡的所有項目; }while(喜歡的項目為0個)

對系統

while(true){接收用戶的選擇，并將用戶的選擇寫入灰列表(grey list);if(用戶是不成熟用戶){采用基于流行度的算法產生推薦列表;}else{采用基于矩陣分解的算法產生推薦列表;} }

通過用戶瀏覽/購買商品的數量達到某個閾值來表示用戶的成熟度。如果達到某個閾值，則稱該用戶為成熟用戶，否則為不成熟用戶。
問題：交互式推薦
輸入：訓練矩陣 $Rt=(rijt)n×m\mathbf{R}^t = (r_{ij}^t)_{n \times m}$ ，所有評分矩陣 $R=(rij)n×m\mathbf{R} = (r_{ij})_{n \times m}$ .
輸出：預測矩陣 $P=(pij)n×m\mathbf{P} = (p_{ij})_{n \times m}$ .
優化目標：最大化準確率
$max?acc(Rt,P,R)=∣{(i,j)∈R∣rijt=0,rij=1,pij=rij}∣∣{(i,j)∈R∣rijt=0,rij=1}∣\max acc(\mathbf{R}^t, \mathbf{P}, \mathbf{R}) = \frac{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} = 1, p_{ij} = r_{ij}\}|}{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} = 1\}|}$ .

三支推薦

推薦行為除了推薦和不推薦之外，實際上還存在著推廣的行為，為了模擬這種行為，我們引入了三支推薦。
我們以下圖為例來說明這個場景：

（1）我們設置了一個 $\times 2$ 的代價敏感矩陣，行表示系統對用戶采取的行為，包括推薦(Recommend)、推廣(Promote)、不推薦(Not recommend)，列表示用戶的偏好，包括喜歡(Like)，不喜歡(Dislike)。根據三支決策理論，利用該代價矩陣可以計算出推薦閾值 $α?\alpha^*$ 和 $β?\beta^*$ ；
（2）利用隨機森林我們可以預測出用戶 $u_i$ 喜歡商品 $t_j$ 的程度，用概率 $p_{ij}$ 來表示；
（3）當 $pij>α?p_{ij} \gt \alpha^*$ ，系統將推薦(Recommend)商品 $t_j$ 給用戶 $u_i$ ；當 $pij<β?p_{ij} \lt \beta^*$ ，系統將不推薦(Not recommend)商品 $t_j$ 給用戶 $u_i$ ；當 $β?≤pij≤α?\beta^* \le p_{ij} \le \alpha^*$ ，系統將給用戶 $u_i$ 分發優惠券進行推廣(promote)商品 $t_j$ .
（4）為了描述下面的問題，我們需要用下面的公式進行映射：

根據偏好閾值 $r_l$ 將用戶的評分映射為偏好:
$ψ(rij,rl)=1,當rij>rl\psi(r_{ij}, r_l) = 1, 當r_{ij} \gt r_l$ ;
$ψ(rij,rl)=2,當rij≤rl\psi(r_{ij}, r_l) = 2, 當r_{ij} \le r_l$ ;
將預測值映射為推薦(Recommend)、推廣(Promote)、不推薦(Not recommend)
$?(pij,α?,β?)=1,當pij>α?\phi(p_{ij}, \alpha^*, \beta^*) = 1, 當p_{ij} \gt \alpha^*$ ;
$?(pij,α?,β?)=2,當β?≤pij≤α?\phi(p_{ij}, \alpha^*, \beta^*) = 2, 當\beta^* \le p_{ij} \le \alpha^*$ ;
$?(pij,α?,β?)=3,當pij<β?\phi(p_{ij}, \alpha^*, \beta^*) = 3, 當p_{ij} \lt \beta^*$ .
問題：三支推薦
輸入：訓練矩陣 $Rt=(rijt)n×m\mathbf{R}^t = (r_{ij}^t)_{n \times m}$ ，所有評分矩陣 $R=(rij)n×m\mathbf{R} = (r_{ij})_{n \times m}$ , 代價矩陣 $(c_{kl})_{3 \times 2}$ .
輸出：預測矩陣 $P=(pij)n×m\mathbf{P} = (p_{ij})_{n \times m}$ .
優化目標：最小化代價
$min?cost(Rt,P,R,C)=∑k∈{1,2,3},l∈{1,2}ckl×∣{(i,j)∈R∣?(pij,α?,β?)=k,ψ(rij,rl)=l}∣∣{(i,j)∈R∣rijt=0,rij>0}∣\min cost(\mathbf{R}^t, \mathbf{P}, \mathbf{R}, C) = \frac{\sum_{k \in \{1,2,3\}, l \in \{1, 2\}} c_{kl} \times |\{(i, j) \in \mathbf{R} | \phi(p_{ij}, \alpha^*, \beta^*) = k, \psi(r_{ij}, r_l) = l\}|}{|\{(i, j) \in \mathbf{R} | r_{ij}^t = 0, r_{ij} > 0\}|}$ .

[1] Three-way recommender systems based on random forests

[2] Regression-based three-way recommendation

推薦系統的魔法邊界

在很多時候，我們很想知道，給定一個推薦系統的數據集，它的精度上限（或者誤差下限，為了更容易被記住，又取名為魔法邊界）是多少，一旦知道了這個值，我們就可以確定算法到底還有多大的優化空間。換句話來說，就是數據質量本身決定了算法的精度上限，一旦數據集給定，這個魔法邊界就確定了。
問題描述如下：

令 $O=(oij)n×m\mathbf{O} = (o_{ij})_{n \times m}$ 為一個理想的評分數據集(ideal rating data)，即假設用戶在給商品評分的時候沒有受到情緒波動、外界環境等因素影響，用戶的偏好是恒定的；
令 $R=(rij)n×m\mathbf{R} = (r_{ij})_{n \times m}$ 為一個實際的評分數據集(real rating data), 用戶在評分的時候受到情緒波動、外界環境等因素影響，會帶入一些自然噪聲(nature noise)；
令 $=|\{(i, j) \in \mathbf{R} | 1 \le i \le n, 1 \le j \le m, r_{ij} >0\}$ |；
基于MAE評價指標的魔法邊界定義為： $\frac{|\mathbf{O} - \mathbf{R}|}{N}$
基于RSME評價指標的魔法邊界定義為： $\frac{||\mathbf{O} - \mathbf{R}||_2}{N}$
我們認為魔法邊界就是由于自然噪聲引起的偏差。要估計這個魔法邊界是一個很有挑戰性的工作，因為實際環境中理想數據集 $O=(oij)n×m\mathbf{O} = (o_{ij})_{n \times m}$ 是采集不到的。
針對理想數據集的問題，有很多學者在這個方面做了一些嘗試，目前主要有經驗方法和理論方法兩大類。
經驗方法的學者通過采集同一用戶對同一商品的多次評分，然后利用多次評分的平均來作為用戶 $u_i$ 對商品 $t_j$ 的理想評分 $o_{ij}$ 。很顯然，這種方法有很多缺陷，一方面同一用戶對同一商品進行多次評分非常的無趣（boring），另一方面多次評分會帶來新的噪聲。
為了解決經驗方法帶來的問題，我們提出了一些理論方法（見已發表的論文)

[3] Magic barrier estimation models for recommended systems under normal distribution
[4] A Mixture-of-Gaussians model for estimating the magic barrier of the recommender system. Applied Soft Computing. (2022-114)108162

我們做了如下假設：
$∣O?R∣N≤min?∣P?R∣N\frac{|\mathbf{O} - \mathbf{R}|}{N} \le \min \frac{|\mathbf{P} - \mathbf{R}|}{N}$
或
$∣∣O?R∣∣2N≤min?∣∣P?R∣∣2N\frac{||\mathbf{O} - \mathbf{R}||_2}{N} \le \min \frac{||\mathbf{P} - \mathbf{R}||_2}{N}$
該假設可以解讀為：用戶對商品的自然噪聲所帶來的偏差低于預測所帶來的偏差。因為用戶對商品的自然噪聲是用戶自己所導致的，而預測通常是利用其他用戶對目標商品或者目標用戶對其它商品的評分來估計目標用戶對目標商品的評分，所以我們又可以解讀為用戶自身比別人更了解自己。
（和學生討論后，發現還可以這樣來理解這個假設，就是等式左邊是自然噪聲帶來的偏差，等式右邊不僅包含了自然噪聲帶來的偏差，還包含了預測算法帶來的偏差，所以應該是小于等于。）
（今天又和閔老師討論了一下，認為不能用噪聲，而應該用數據本身分布帶來的不確定性，因為概率本身就是不確定性的描述，最好用信息量，information entropy之類的統計信息來描述）
（所以，我暫時改為：等式左邊是數據本身分布帶來的不確定性，等式右邊不僅包含了數據本身分布帶來的不確定性，還包含了預測算法帶來的不確定性，所以應該是小于等于。

我們的工作

三支推薦

基于隨機森林的三支推薦(Three-way recommender systems based on random forests)
三支回歸推薦(Regression-based three-way recommendation)

交互推薦

交互場景下的二支推薦
交互場景下的三支推薦

魔法邊界估計

基于高斯假設的估計(Magic barrier estimation models for recommended systems under normal distribution)
基于混合高斯(MoG)的估計
基于混合指數分布(MoEP)的估計

提高效率的推薦

M-Distance
多通道特征向量(MCFV）

可解釋性推薦

矩陣分解： $R\mathbf{R}$ 由兩個子矩陣 $X\mathbf{X}$ 和 $Y\mathbf{Y}$ 來表達，即 $R=XY\mathbf{R} = \mathbf{X}\mathbf{Y}$ . 其中向量 $x_i$ 表示用戶 $u_i$ 的特征向量，向量 $y_j$ 表示商品 $t_j$ 的特征向量；
可解釋性矩陣分解：當用戶 $u_i$ 偏好于商品 $t_j$ 時，兩者具有強相關性，其用戶特征向量 $x_i$ 與商品特征向量 $y_j$ 在潛在空間上應互相接近,即 $∥xi?yj∥→0\|x_i -y_j \| \rightarrow 0$ 。

參考文獻

[1] 張恒汝，閔帆，Three-way recommender systems based on random forests, Knowledge-Based Systems, 2016, 91: 275-286.
[2] 張恒汝，閔帆，石兵，Regression-based three-way recommendation，Information Sciences, 2017, 378, 444-461.
[3] 張恒汝, 閔帆等. Magic barrier estimation models for recommended systems under normal distribution, Applied Intelligence, 2018: 1-8.
[4] 張恒汝等. A Mixture-of-Gaussians model for estimating the magic barrier of the recommender system. Applied Soft Computing. (2022-114)108162

總結

以上是生活随笔為你收集整理的推荐系统: 数据、问题与算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：二维码研究综述--传统图像处理方法
下一篇： windows10 计算文件的HASH（

生活随笔

生活随笔

windows

推荐系统: 数据、问题与算法

數據

基礎數據

用戶及商品信息

社交網絡

用戶評論/點贊

其它信息

問題

基于瀏覽矩陣的推薦

基于評分矩陣的預測

基于評分矩陣的推薦

交互推薦

三支推薦

推薦系統的魔法邊界

推薦算法分類

根據推薦原則分類

根據推薦是否個性化分類

根據實時性分類

根據數據源分類（或根據策略分類Strategies）

我們的工作

三支推薦

交互推薦

魔法邊界估計

提高效率的推薦

可解釋性推薦

參考文獻

總結