WWW 2021|基于图神经网络的分级相关性匹配
?PaperWeekly 原創 ·?作者|金金
單位|阿里巴巴研究實習生
研究方向|推薦系統
論文標題:
Graph-based Hierarchical Relevance Matching Signals for Ad-hoc Retrieval
論文來源:
WWW 2021
論文鏈接:
https://arxiv.org/abs/2102.11127
簡介
本文由中科院發表于 WWW 2021。ad-hoc retrieval 是根據查詢和文檔集合對相關文檔進行排名。研究界已經提出了一系列基于深度學習的方法來解決該問題。
但是,本文作者認為它們忽略了長距離文檔級單詞關系。為了解決該問題,作者通過圖結構顯式地建立文檔級單詞關系的模型,并通過圖神經網絡捕獲信息。
另外,由于文檔收集的復雜性和規模,探索不同粒度的層次匹配信號是相當重要的。因此,作者提出了一種基于圖的分層相關性匹配模型(GHRM),通過該模型可以同時捕獲細微和通用的分層匹配信號。作在兩個代表性的 ad-hoc retrieval 數據集驗證了 GHRM 的有效性。
模型
本文大致的思想是在匹配的過程中,大部分的模型沒有考慮長距離單詞關系和不同粒度的相關信息。所以作者總結了如下的匹配流程:首先根據 query-document 的匹配,建立 word-word 的圖,從而建立長距離的單詞關系;在此基礎上對于每個部分選擇中心詞,并去除不重要的詞,從而考慮不同粒度的相關信息。
基于這樣的思想,作者構造了如下模型,該模型主要包括三個部分:第一部分是圖的構造;第二部分是基于圖的分級匹配;第三部分是相關信號的讀出和聚合。
第一部分圖的聚合,作者將每個 document word 作為一個節點,并將他們分別和 query term 計算余弦相似度,作為節點特征向量,并使用固定大小的滑動窗口,統計 word-word 的共現次數構建鄰接矩陣。
第二部分分級匹配,作者首先使用類似于 GRU 的圖神經網絡更新節點的表示,在此基礎上添加了作者自定義的 pooling 層,每次通過 GNN 層后,作者使用 attention 層計算每個節點的注意力分數,并通過 hard-pooling(保留固定比例的節點)和 soft-pooling(根據注意力分數保留每個節點的部分特征分數)兩種方式篩選重要的節點。
第三部分相關信號讀出和聚合,作者對每張圖中的節點選擇 top-k 的特征,并將其拼接后通過前饋神經網絡,最后使用 query term 的 idf 值通過 softmax 后的數值作為權重,計算最后的匹配分數。
訓練階段,作者采用了信息檢索中較為普遍的 pair-wise learning,即每次選取一個正樣本和一個負樣本,使模型盡可能計算得到的正樣本分數大于負樣本分數。
實驗
本文實驗在 Robust 和 Clueweb09 上進行,通過和已有的傳統式檢索模型(如BM25),神經信息檢索模型(如 Co-PACRR)和基于 BERT 的模型(如 BERT-MaxP)進行對比,我們可以發現提出的基于圖神經網絡的分級匹配模型的效果均優于上述模型。
結論
在本文中,作者介紹了一種基于圖的分層相關性匹配方法 GHRM,通過利用層次圖神經網絡對不同粒度的匹配信號進行建模,我們可以準確地捕獲細微和通用的層次交互匹配信號。在兩個代表性的 ad-hoc retrieval 數據集上的實驗證明了 GHRM 在各種基準上的有效性,這驗證了將基于圖的層次結構匹配信號應用于 ad-hoc retrieval 的優勢。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的WWW 2021|基于图神经网络的分级相关性匹配的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: boss直聘pc端登录权限
- 下一篇: 小半圆体积计算公式(半圆的计算公式是什么