如何使用知识图谱增强信息检索模型?
?PaperWeekly 原創 ·?作者|劉布樓
學校|清華大學博士生
研究方向|表示學習
傳統的信息檢索模型中,文本通常使用詞袋模型表示。該方法有兩個較為明顯的缺陷:1)只能通過 TF-IDF 等相關信號判斷查詢-文本相關性;2)模型沒有深入理解查詢和文本的語義信息,而是更多地依賴于特征工程的方法。?
近年來流行的方法主要可以分為兩大類:1)通過知識圖譜引入背景信息和先驗知識;2)通過深度學習技術從大規模的數據中學到信息的隱性表示。?
本文主要針對第一種思路進行探討:通過引入知識圖譜中的實體以及實體的描述信息豐富語義,從而優化信息檢索模型。知識圖譜中的實體可以是一些概念、人名地名等等,這些實體排除介詞的干擾,賦予查詢和文本更簡潔的表示,并引入知識圖譜中的語義信息,增強信息檢索模型的語義理解能力。?
本文內容將介紹五篇通過知識圖譜優化信息檢索模型的論文,分別是:1)基于知識圖譜的學術檢索模型;2)詞袋和實體的結合表示優化排序;3)結合查詢實體鏈接特征優化排序;4)基于核方法的實體重要性建模和排序優化;5)基于實體的神經信息檢索模型。
基于知識圖譜的學術檢索模型
論文鏈接:http://www.cs.cmu.edu/~cx/papers/Explicit_Semantic_Ranking.pdf
論文概述
當前學術檢索系統面臨的主要挑戰是檢索系統無法理解學術概念而限制了學術檢索的效果。例如“Softmax Categorization”和“Softmax Classification”表達的含義相同,但是詞袋模型無法將其歸為一類;而“Dynamic programming segmentation”在圖像處理領域中表示語義分割,在自然語言處理領域中表示分詞,但是詞袋模型無法區分這兩種概念。?
本提出的方法是借助知識圖譜,在實體空間中對查詢和文本進行表示,然后通過他們的知識圖譜嵌入表示建立語義連接,從而優化查詢的效果。
算法詳解?
該算法主要分為兩個部分,第一部分是建立知識圖譜,第二部分是根據查詢對學術論文進行語義排序。?
建立知識圖譜(Knowledge Graph Construction):
建立知識圖譜首先需要獲取實體,論文給出兩種途徑:從 S2's corpus 中抽取關鍵詞和從 freebase 里面獲得;然后將論文中出現的 surface form 鏈接到實體;再后對每個實體建立四種邊,分別是作者 (author), 上下文 (context), 描述 (desc),發表刊物 (venue);最后根據這四種邊所連接的對象分別用 skip-gram 的方法得到實體嵌入表示。
語義排序(Explicit Semantic Ranking):?
該部分首先將查詢和文本鏈接的實體兩兩計算語義相似度:
然后在查詢詞維度上做 max-pooling 操作(相當于針對每個文本實體僅考慮和它語義相關性最大的查詢實體):
再后在文本維度上做 bin-pooling 操作(將不同范圍內的語義匹配信號各自相加,從而概括查詢實體和文本實體之間的匹配情況):
最后以此為特征輸入全連接層計算得到最后的分數:
具體的算法流程如圖所示:
創新和發現?
建立輔助學術檢索的知識圖譜,包括兩個重要發現:使用的 edge2vec 的方法是一種效率高且效果好的知識圖譜嵌入表示方法;使用 freebase 獲得的實體相比于直接從 S2's corpus 中抽取關鍵詞效果更好。
使用 bin-pooling 操作抽取聚合相關性信號:該方法結合了直接匹配 (exact matching) 信號和軟匹配 (soft matching) 信號,并將不同范圍內的語義匹配信號各自相加,更有效的發掘查詢和文本之間的語義相關信息。
詞袋和實體的結合表示優化排序
論文鏈接:https://arxiv.org/abs/1706.06636
論文概述?
在 ESR 論文中,查詢和文本的表示僅考慮了鏈接實體而忽略了原有的詞,導致了一定的信息損失。?
本文提出了一種將詞袋和知識圖譜鏈接到的實體相結合,從而優化信息檢索的框架。采用的方法是首先通過基于詞袋的表示和基于實體的表示對查詢和文本建模,然后利用詞袋空間交互信息、實體空間交互信息和跨空間交互信息生成排序特征,最后使用注意力機制消除實體注釋過程中產生的噪音信息,生成最終的相關性分數。?
算法詳解?
該算法的主要流程分為三個部分,即第一部分是生成基于詞袋和實體的表示,第二部分是詞袋-實體表示結合的相關性抽取,第三部分是注意力機制聚合相關性信息。?
生成基于詞袋和實體的表示 (word and entity based representations):?
該部分將查詢和文本表示為詞袋和實體兩種形式(即每次詞/實體及其出現的頻率)。其中實體的篩選過程包括兩個步驟:獲取 surface form (spotting) 和選取最有可能的候選實體 (disambiguation)。?
詞袋-實體表示結合的相關性抽取 (matching with word-entity duet):?
該部分首先基于四種交互方式(查詢詞-文本詞、查詢實體-文本詞、查詢詞-文本實體、查詢實體-文本實體)生成特征,前三者主要基于統計特征,實體-實體交互特征基于 ESR 模型生成的排序特征。?
查詢詞-文本詞具體構造方法:
查詢實體-文本詞具體構造方法:
查詢詞-文本實體具體構造方法:
查詢實體-文本實體具體構造方法:
注意力機制聚合相關性信息 (attention features):?
針對于查詢實體可能不準確的問題,該方法針對交互特征使用注意力機制生成注意力特征(即各個特征的權重),該注意力特征主要從歧義特征和查詢重要性兩個方面生成,具體表示如下:
因此對查詢詞交互特征和查詢實體相關特征進行區分,查詢詞注意力分數設置為 1,查詢實體注意力分數根據注意力特征獲得,具體表示如下:
然后使用一維 CNN 聚合交互特征和注意力特征,并將二者相乘得到最后的相關性分數:
具體算法流程圖如圖所示:
創新和發現
將詞袋表示和實體表示相結合,克服了僅適用詞袋表示時語義信息不豐富和僅適用實體表示時造成信息損失的缺點,優化了知識圖譜增強信息檢索模型的結構。
針對查詢實體引入了注意力特征,為生成的排序信號賦予權重,從而解決了引入的查詢實體不準確的問題,特別在查詢實體較多的情況下體現出較好的效果。
結合查詢實體鏈接特征優化排序
論文鏈接:http://www.cs.cmu.edu/~cx/papers/JointSem.pdf
論文概述?
在原有的方法構建排序特征的過程中,實體鏈接往往只是一個預處理的步驟,而沒有 將鏈接的信息作為特征加入到排序模型里。?
本文提出了一種將查詢實體鏈接和基于實體的文本排序模型結合起來構造語義相似度排序模型的辦法。采用的方法是利用獲取 surface form (spotting) 的信息和鏈接 (linking) 信息表示候選實體的重要性,從而通過鏈接實體的過程優化文本排序的特征。?
算法詳解?
該算法的流程相對較為簡單,主要是分為兩個步驟,第一步生成三種特征(surface form 特征,鏈接特征和基于實體的文本排序特征),第二步根據這些特征計算排序分數。特征生成(surface form 特征,鏈接特征和基于實體的文本排序特征):?
Surface form 特征:首先將查詢劃分為能在 surface form 字典里面查找到的最大的 ngrams,然后根據每個 surface form 和候選實體之間的關系構造特征。例如和語料庫中的每個實體分別連接的概率、連接概率最大的實體和第二大的實體之間概率的差值、自身的長度等等。?
鏈接特征:將每個實體對齊到第一步所得到的 surface form 的過程中獲取。例如和每個 surface form 之間連接的概率,和查詢詞之間通過嵌入表示計算的相似度以及和每個查詢詞的最匹配實體之間通過嵌入表示計算的相似度等。?
基于實體的文本排序特征:通過普通的檢索模型得到的文本排序特征,例如 BM25, TF-IDF 等等。
具體三種特征的表示如下:
相關性分數計算:?
Surface form 的重要性表示如下:
對齊實體的重要性表示如下:
文本排序特征表示如下:
最終的相關性分數計算方法如下:
創新和發現
本文通過抽取實體鏈接過程中的特征,賦予鏈接實體不同的權重,從而優化基于實體的文本排序模型。?
針對 surface form 選取鏈接性靠前的幾個實體,相比于只選取一個實體,排序的效果可以得到提升。
基于核方法的實體重要性建模和排序優化
論文鏈接:https://arxiv.org/abs/1805.01334
論文概述
在原來的工作中,實體重要性建模主要停留在查詢實體的層面上,而文本實體重要性主要通過出現頻率確定。
本文提出的方法更好地估計文本中的實體重要性。具體來說,首先使用知識圖譜中的描述信息豐富實體表示,再利用核方法對目標實體和文本中的詞、實體進行交互式建模,最后將交互式特征聚合估計實體重要性。?
在該方法的基礎上可以優化信息檢索模型的效果。具體來說,可以將查詢實體和目標文本中的詞和實體以核方法進行交互式建模得到特征作為排序特征,從而計算相關性分數。?
算法詳解?
該模型獲取交互式特征的過程可以分為兩個步驟:加入知識的實體表示 (Knowledge Enriched Embedding) 和基于核方法的交互式建模 (KerneI Interaction Model)。隨后將該特征輸入全連接網絡可以用于實體重要性估計任務和信息檢索任務。?
加入知識的實體表示 (Knowledge Enriched Embedding):
該步驟首先使用 CNN 對實體描述信息建模得到新的實體描述表示:
然后將實體表示和實體描述表示拼接并聚合得到加入知識的實體表示:
完整的加入知識的實體表示生成流程如下圖所示:
基于核方法的交互式建模 (Kernel Interaction Model):?
該步驟首先將目標實體和文本詞使用核方法進行交互式建模:
然后將目標實體和文本實體使用核方法進行交互式建模:
最后將二者拼接獲得交互式特征:
完整基于核方法的交互式建模流程如下:
實體重要性打分:計算實體相對于文本的重要性程度只需將交互式特征輸入全連接層即可:
檢索模型應用:計算查詢實體和文本的匹配程度只需將查詢實體輸入該模型建模得到交互式特征,并在交互式特征的每個維度上計算 log sum 得到統一的交互式特征,并輸入全連接層得到最終的相關分數:
完整的檢索模型應用流程圖如下:
創新和發現
在頻繁使用的實體和較少使用的實體之間具有較好的平衡型,這是對實體頻率模型最重要的改進。
該方法在短文中的效果相比于原來方法有較大的提高。
在信息檢索的過程中,可以輔助判斷查詢實體的重要性(提及還是強調),有利于增強模型對查詢的理解。
基于實體的神經信息檢索模型
論文鏈接:https://www.aclweb.org/anthology/P18-1223
源碼鏈接:https://github.com/thunlp/EntityDuetNeuralRanking
論文概述?
在以上介紹的方法中,均是通過知識圖譜提取人工特征,而沒有利用神經網絡自動提取知識圖譜的語義信息。?
本文將知識圖譜中的實體信息作為先驗知識加入神經信息檢索已有的較好模型 (KNRM [6], Conv-KNRM [7])中,提出 EDRM 模型,從而達到提升信息檢索泛化能力的效果。?
算法詳解?
該方法分為兩個部分,第一部分是生成四個相關信號矩陣:查詢詞-文本詞矩陣、查詢實體-文本詞矩陣、查詢詞-文本實體矩陣、查詢實體-文本實體矩陣,第二部分是結合 KNRM 和 Conv-KNRM 等神經信息檢索模型聚合相關信號矩陣得到相關分數。?
相關信號矩陣生成:?
該步驟需要根據詞向量和實體語義向量分別計算相似度矩陣。其中查詢詞嵌入和文本詞嵌入的方法和神經信息檢索的方法是完全一樣的,如果使用 K-NRM 則直接使用原本的詞向量,如果使用 Conv-KNRM 則根據卷積核的大小變化得到 unigrams, bigrams, trigrams 的向量。實體語義向量需要計算三個向量并聚合得到,分別是實體向量,描述向量和類型向量。?
實體向量直接使用實體本身的向量即可:
描述向量需要將實體描述的詞向量通過卷積神經網絡的計算得到:
類型向量需要將實體的類型向量通過注意力機制計算得到:
將三種向量聚合得到實體語義向量:
最后計算四個相關信號矩陣:查詢詞-文本詞矩陣、查詢實體-文本詞矩陣、查詢詞-文本實體矩陣、查詢實體-文本實體矩陣,并拼接得到排序特征:
神經信息檢索模型聚合相關信號:?
神經信息檢索模型 K-NRM 通過核池化函數抽取不同范圍內的相關信號,將每個相似度矩陣輸入可以得到排序特征:
對于 Conv-KNRM 模型,需要構造基于 n-grams 的相似度矩陣:
最后將核池化函數提取的相關性特征作為全連接層的輸入得到相關性分數:
創新和發現
EDRM 模型具有較好的泛化能力,相較于原來的神經信息檢索模型有更好的排序效果。
在信息較難提取的情況(如查詢文本長度較短)下:EDRM 相較于原來的神經信息檢索模型有較大突破,這說明該模型可以在信息較少的情況下結合知識圖譜中的信息提高查詢的效果。
總結
通過知識圖譜引入背景信息和先驗知識已經在信息檢索模型中取得了較好的效果,證明實體語義對于理解查詢意圖、優化排序結果有很大的幫助,未來的研究可以從引入知識圖譜的關系入手,建立更豐富、更智能化的知識指導式信息檢索模型,而不僅僅局限于知識圖譜中的實體語義信息。
參考文獻
[1] Chenyan Xiong, Russell Power, Jamie Callan. Explicit Semantic Ranking for Academic Search via Knowledge Graph Embedding. WWW (2017)?
[2] Chenyan Xiong, Jamie Callan, and Tie-Yan Liu. Word-entity duet representations for document ranking. SIGIR (2017)?
[3] Chenyan Xiong, Zhengzhong Liu, Jamie Callan, Eduard Hovy. JointSem: Combining Query Entity Linking and Entity based Document Ranking. CIKM (2017)?
[4] Chenyan Xiong, Zhengzhong Liu, Jamie Callan, Tie-Yan Liu. Towards Better Text Understanding and Retrieval through Kernel Entity Salience Modeling. SIGIR (2018)?
[5] Zhenghao Liu, Chenyan Xiong, Maosong Sun, Zhiyuan Liu. Entity-Duet Neural Ranking: Understanding the Role of Knowledge Graph Semantics in Neural Information Retrieval. ACL (2018)?
[6] Chenyan Xiong, Zhuyun Dai, Jamie Callan, Zhiyuan Liu, and Russell Power. End-to-end neural ad-hoc ranking with kernel pooling. SIGIR (2017)?
[7] Zhuyun Dai, Chenyan Xiong, Jamie Callan, and Zhiyuan Liu. Convolutional neural networks for softmatching n-grams in ad-hoc search. WSDM (2018)
點擊以下標題查看更多往期內容:?
知識圖譜實體鏈接:一份“由淺入深”的綜述
BERT+知識圖譜:知識賦能的K-BERT模型
從 Word2Vec 到 BERT
后 BERT 時代的那些 NLP 預訓練模型
從三大頂會論文看百變Self-Attention
從 EMNLP 2019 看知識圖譜領域最新進展
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的如何使用知识图谱增强信息检索模型?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 伟星伽乐瓷砖胶P20执行标准后面数字C1
- 下一篇: ICLR 2020 开源论文 | 多关系