當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架

發布時間：2024/7/5 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆記整理：李爽，天津大學

鏈接：https://dl.acm.org/doi/pdf/10.1145/3397271.3401174

動機

交互式推薦系統(IRS)以其靈活的推薦策略和考慮最佳的長期用戶體驗而備受關注。為了處理動態用戶偏好，研究人員將強化學習(reinforcement learning，RL)引入到IRS中。然而，RL方法有一個普遍的樣本效率問題，即訓練有效的推薦策略需要大量的交互數據，這是由于稀疏的用戶響應和由大量候選項組成的大的行為空間造成的。此外，在網絡環境中，通過探索性政策收集大量數據是不可行的，這可能會損害用戶體驗。在這項工作中，作者研究了利用知識圖譜(KG)來處理IRS RL方法存在的這些問題，它為推薦決策提供了豐富的側面信息。在兩個真實世界的數據集上進行全面的實驗，證明了作者提出的方法與先進技術相比有顯著的改進。

亮點

KGQR的亮點主要包括：

1.通過利用KG中的先驗知識進行候選項選擇和從稀疏用戶反饋中學習用戶偏好，KGQR可以提高基于RL的IRS模型的樣本效率；2.采用圖神經網絡的方法，考慮項目之間的語義相關性，能夠更準確地表示用戶的動態偏好。

概念及模型

模型的整體框架如下圖所示。

?KG增強的狀態表示

在IRS場景中，不可能直接獲得用戶的狀態，可以直接觀察到的是記錄的用戶系統交互歷史。

（1）圖卷積嵌入層

為了將圖中的結構和語義知識提取為低維稠密的節點表示，作者使用了圖卷積網絡（GCN）。在單個圖卷積嵌入層中，節點表示的計算分為兩步：聚合和集成。這兩個過程可以擴展到多跳，使用符號k來標識第k跳。在每個層中，首先聚合給定節點h的相鄰節點的表示：

其中N(h)=N(head)={tail | (head,relation,tail)∈G} 是h的相鄰節點集合。其次，將鄰居的表示與h的表示集成為

（2）行為聚合層

由于交互式推薦是一個連續的決策過程，因此在每一步中，模型都需要用戶的當前觀察作為輸入，并提供推薦項作為輸出。作者使用帶有門控循環單元（GRU）的RNN作為網絡單元，以聚合用戶的歷史行為并提取用戶的狀態s_t (G)。GRU單元的更新函數定義為

?基于鄰居的候選項選擇

作者基于KG中的k-hop鄰居執行采樣策略。在每個時間步中，用戶的歷史交互項充當種子集E_t^0={i_1,i_2,…,i_n}。從種子實體開始的k-hop鄰居集表示為

然后，將當前用戶狀態的候選操作集定義為

?學習深度Q-Network

在對用戶狀態s_t (G)進行建模并獲得候選集I_t (G)后，需要設計Q-Network來結合這些信息，并改進交互式推薦過程的推薦策略。

（1）深度Q-Network

使用兩個網絡分別計算值函數V(i_t (G))和優勢函數A(i_t (G),s_t (G))，Q值可以計算為，

（2）模型訓練

在交互式推薦過程中，在時間步t，推薦代理從用戶的觀察結果o_t中獲取用戶的狀態s_t，并通過?-貪婪策略推薦項目i_t。然后，代理從用戶的反饋中接收獎勵r_t，并將經驗(o_t, i_t, r_t, o_(t+1))存儲在緩沖區D中。從D開始，對小批量的經驗進行采樣，并最小化均方損失函數以改進Q-Network，定義為

為了緩解原始DQN中的過擬合問題，利用了目標網絡Q′和在線網絡Q（即雙DQN結構）。在線網絡在每個訓練步驟反向傳播和更新其權重。目標網絡是在線網絡的副本，并隨訓練延遲更新其參數。然后，在線網絡更新的目標值更改為

理論分析

實驗

作者通過兩個真實的基準數據集Book-Crossing和Movielens-20M對模型進行評估。實驗中采用了三種指標進行評估：

① Average Reward：

② Average Cumulative Precision@T：

③ Average Cumulative Recall@T：

上表顯示了KGQR與幾種基線模型性能比較的結果。可以看出，KGQR始終在所有環境設置上獲得了最好的性能。對于傳統的評價指標，KGQR在兩個數據集中分別將Precision@32提高了0.5%和1.9%。這表明，利用KG中的先驗知識顯著提高了推薦性能。在大多數情況下，非RL方法的表現都不如基于RL的方法。一方面，除了GRU4Rec外，其他非RL方法在不考慮序列信息的情況下，對用戶偏好建模的能力有限。另一方面，它們專注于即時道具獎勵，而不將整個序列的整體表現的值帶入當前決策中，這使得這些模型在給予更多未來獎勵的環境中表現更差。

利用KG的動機之一是在基于RL的推薦中提高樣本效率，即減少實現相同性能所需的交互數據量。作者分析了每個基于DRL的模型實現相同性能所需的交互次數，如下圖表所示。

可以看出， KGQR可以用最少的交互次數實現與其他基于RL的方法相同的性能，這一結果驗證了利用語義和相關信息提高樣本效率的有效性。

在KGQR中，有三個利用KG的組件可能會影響KGQR的性能：KG增強的項目表示、狀態表示中的GCN傳播和基于鄰居的候選項選擇。為了研究這些成分的有效性，作者評估了四種不同的KGQR變體，即KGQR_(-KG)，KGQR_(-CS)，KGQR_(-GCN-CS)和KGQR。下表顯示了這四種變體的性能。

為了研究基于鄰居的候選項大小的影響，在{1000, 2000, 3000, 5000, 10000}范圍內改變候選項大小，并將推薦性能呈現在下圖中。

可以觀察到推薦性能首先隨著候選大小的增加而增長，因為較小的候選大小限制了推薦算法的可能選擇。然而，由于基于鄰居的候選選擇預先過濾了一些不相關的項目，候選大小的進一步增加會降低性能。這些不相關的項目被推薦和收集反饋的機會非常有限，這使得它們無法通過推薦算法很好地學習，最終對性能產生負面影響。

總結

文章提出了一個用于交互式推薦的知識圖譜增強Q-learning框架（KGQR）。這是首次在基于RL的交互式推薦系統中利用KG的工作，在很大程度上解決了樣本復雜性問題，并顯著提高了性能。此外，作者利用知識圖譜的結構信息直接縮小行為空間，有效地解決了行為空間大的問題。在基于兩個真實數據集的實驗表明，與現有技術相比，該模型具有更高的采樣效率和更高的性能。

OpenKG

OpenKG（中文開放知識圖譜）旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包，并促進知識圖譜算法、工具及平臺的開源開放。

點擊閱讀原文，進入 OpenKG 網站。

總結

以上是生活随笔為你收集整理的论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：开源开放 | 一个融合多元关系和事件表示
下一篇：论文浅尝 - CIKM2021 | DT