當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）

發布時間：2024/7/5 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文轉載自公眾號：程序媛的日常。

利用知識庫、知識圖譜來完善問答系統，有非常廣闊的實際應用場景。當用戶提出一個問題時，有時候僅用知識庫中的某一個三元組事實（fact triple）即可回答。但當問題比較復雜時，而知識庫中又經常是不完備的（incomplete），這時就需要結合多個事實、進行知識圖譜上的推理，才能找到正確實體答案（entity）。舉個例子來說，用戶提出一個問題后，可以轉換成如下的結構化查詢：

進行這樣一個查詢并找到答案可能就需要訪問知識圖譜中的許多結點和邊：

這樣一個尋找答案的過程可以建模為一個序列化決策問題，也就自然可以用增強學習來解決。今天要分享的工作包括：

[1] Xiong et al., "DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning". EMNLP 2017.

[2] Das et al., "Go for a Walk and Arrive at the Answer: Reasoning Over Paths in Knowledge Bases using Reinforcement Learning". ICLR 2018.

[1] 提出的 DeepPath，是第一篇比較完整的用增強學習做知識庫推理的工作，其將問題建模成一個馬爾科夫決策過程 <S, A, P, R>。與以往工作不同的是，其狀態空間 S 是連續的：[1] 利用 TransE 等模型預訓練了整個知識圖譜的表達，并將知識圖譜兩個實體之間的差表示為狀態：

可以看到，這樣建模就需要提前知道目標實體（也就是實體答案）。[1] 中的動作空間 A 就自然而然地定義為知識圖譜中的所有關系。最后，獎勵 R 的定義上他們采用了三種獎勵函數：

這三種函數主要是為了讓訓練過程更加高效，讓學習到的策略更快捷。有了這樣的建模后，整個問題的解決過程就如下圖所示：

雖然這個過程比較直觀，但是用增強學習做知識圖譜推理存在著一個很大的難點就是其動作空間比較大。在我們比較熟悉的其它使用增強學習的任務中，比如 Atari games (Mnih et al., 2015)，一般只有 4~18 valid actions；而前兩年名聲大噪的 AlphaGo (Silver et al. 2016)，也“只有” 250 valid actions。但對于常見的知識圖譜推理來說，有 >= 400 actions。[1] 給出的解決辦法除了剛才特殊設計的獎勵函數，還有像 AlphaGo 一樣先用有監督學習進行預訓練，這里的細節請參閱原論文。

可以看到這篇工作的效果還是不錯的，這是一些學到的推理路徑（horn-clauses)：

剛才提到，[1] 的工作中使用的建模方法必須要求提前知道推理的目標實體，也就是實體答案，并用這個目標實體去指導尋找推理路徑的過程。這個“局限性”不僅存在于 [1] 這個基于增強學習做知識推理的工作中，也存在于過去幾個非增強學習的基于路徑（path-based）的工作里（如 Neelakantan et al., 2015; Toutanova et al., 2016）。而同樣是基于增強學習，[2] 中提出的 MINERVA 模型就避免了這樣的建模要求。換句話說，DeepPath [1] 做的是事實判斷（fact prediction），也就是去判斷某個三元組是否是正確的；而 MINERVA [2] 是做問答（query answering），是在知識圖譜中的全部實體中找正確答案。盡管前者的算法可以應用到后者，但是這就需要去把所有可能的實體組合到三元組中，遍歷一遍，很耗計算；而后者則希望盡量避免遍歷，直接找出最合適的答案。直觀上來講，后者的問題就更難一些。

MINERVA [2] 的建模方法也就自然和 DeepPath [1] 不太一樣。其“理想的”狀態空間 S 包含了當前“走”到的實體結點 e_t，還有已知查詢中的 e_{1q} 和 r_q，以及答案 e_{2q}。可是如前所說，[2] 中不需要提前知道答案結點。所以 [2] 將整個過程建模為一個 partially observed MDP（POMDP）。MINERVA [2] 的動作空間也做了精簡，其每一時刻的可能動作是當前 e_t 的外出邊（outgoing edge）。這點帶來的效率上的優勢在后續的實驗中得到了印證。

為了解決這樣一個 POMDP 過程，[2] 將觀測序列和歷史決策序列用 LSTM 建模表示，并讓策略網絡的學習基于這樣的歷史信息：

可以看到，MINERVA [2] 的方法還是比較簡單的，不需要提前知道答案，不需要任何預訓練，獎勵函數不需要特殊設計，僅僅是用 LSTM 來做歷史狀態的表達。其優點也比較明顯，這個工作對路徑沒有太多的限制，也沒有對路徑長度的限制，實驗結果也表示其在路徑比較長的情況下依然表現得很好。

從主要實驗結果上來看，首先，MINERVA [2] 因為不斷地利用了問題中的關系（query relation）和過去的歷史狀態信息，使得其的表現遠遠超過了非增強學習的基于隨機游走的模型：

而其和 DeepPath [1] 也進行了比照：

盡管 MINERVA [2] 有很多優點，其也存在一個比較明顯的弊端：MINERVA [2] 假設了一定存在一個推理路徑，當推理路徑不存在（問題不對）時，并不能做出特殊處理。

其實在這個知識圖譜推理上還有很多工作，未來有時間會繼續跟大家分享。

OpenKG.CN

中文開放知識圖譜（簡稱OpenKG.CN）旨在促進中文知識圖譜數據的開放與互聯，促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文，進入 OpenKG 博客。

總結

以上是生活随笔為你收集整理的论文浅尝 | 用增强学习进行推理：问答与知识库完善（KBC）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文浅尝 | Know-Evolve:
下一篇： [中文事件抽取]DCFEE: A Doc