SIGIR 2020 | 相似问题判定的二次匹配模型
?PaperWeekly 原創(chuàng) ·?作者|金金
單位|阿里巴巴研究實習生
研究方向|推薦系統(tǒng)
論文標題:Match2: A Matching over Matching Model for Similar Question Identification
論文來源:SIGIR 2020
論文鏈接:https://arxiv.org/pdf/2006.11719.pdf
簡介
本文由中科院計算所團隊發(fā)表于 SIGIR 2020。在社區(qū)問答中,根據 user question 找到已存在的 archived question 對于問題搜索和冗余消除都有較大意義,本文提出了一種相似問題的二次匹配模型,將 archived question 的回答作為連接二者的橋梁,輔助判定 archived question 是否與 user question 相似。該模型相比于已有的 SOTA 相似問題匹配模型取得了更好的效果。
算法
該模型包括三個部分:Representation-based Similarity module 用于生成兩個問題的相似性向量;Matching Pattern-based Similarity module 使用 archived question 的回答,生成兩個問題的匹配模式;Aggregation module 結合二者的輸出生成匹配分數,模型的整體框架圖如下:
2.1 Representation-based Similarity Module
該部分類似于普通的相似問題判定模型,將 user question 和 archived question 作為輸入,得到二者的相似性表示向量。具體來說,該模型將兩個問題拼接輸入 BERT,得到 [CLS] 向量 和序列 token 表示 如下:
2.2 Matching Pattern-based Similarity Module
該部分使用 archived question 的答案作為橋梁,建立 user question 和 archived question 之間的匹配模式。具體來說,該部分主要分為以下三個模塊。
第一模塊是 Matching Pattern Layer,該模塊分別計算兩個問題與答案直接的相似性表示。具體來說,以 user question 舉例,首先將 user question 和 archived answer 拼接輸入 BERT,為每一個 token 得到 L 層的 embedding,user question 的 embedding 表示為 ,archived answer 的 embedding 表示為 :
此后,將二者的 embedding 做逐層的內積運算,得到的每一層的匹配模式 :
最后將每一層的表示拼接得到總體的匹配模式 ,同理計算可得 archived question 和 archived answer 的匹配模式 :
第二模塊是 Pattern Similarity Layer,該模塊計算以上兩種匹配模式之間的相似性 作為兩個問題的相似性表示,具體來說作者考慮五種相似度計算方法,以計算兩種匹配模式之間的逐元素相似性,分別是內積、余弦相似度、L1 距離、L2 距離以及 Jesene-Shannon 系數,作者在通過超參實驗證明,內積的匹配效果最好:
第三模塊是 Compression Layer,考慮到 的維度較高,不易于和 Representation-based Similarity Module 的輸出融合,作者使用兩層 BN-ReLU-Conv 網絡以及全局平均池化層,將 壓縮為低維向量 。
2.3 Aggregation Module
該部分使用類似于 GRU 中的門控機制,控制 Representation-based Similarity Module 輸出 和 Matching Pattern-based Similarity Module 輸出 在最終相似性判斷中所占的比例,從而得到總體的相似性向量 如下:
最后使用 MLP 層計算兩個問題的相似性分數:
2.4 Model Training and Inference
該部分采用多任務學習機制訓練模型,除了使用 cross entropy loss 優(yōu)化相似問題的分類準確性以外,同時使用將 Matching Pattern-based Similarity Module 中 Matching Pattern Layer 輸出的兩個 [CLS] token(即 BERT 輸出的 user question、archived question 與 archived answer 的相似性向量)分別輸入 MLP 層,優(yōu)化目標為該 [CLS] token 能更好地判斷該答案是否能回答該問題,使用的損失函數仍然是 cross entropy loss。
實驗
該論文的實驗在 CQADupStack 和 QuoraQP-a 兩個廣泛應用的社區(qū)問答數據集上進行,采用的 baseline 包括僅使用 question 的深度文本匹配模型和將 archived answer 直接作為 archived question 擴展的 one-side 模型。
3.1 整體實驗結果
本論文提出的模型的分類效果超過了所有的 baseline 模型的分類效果,所以由此證明了該匹配方法的有效性,另外,將 archived answer 直接作為 archived question 擴展的模型效果普遍優(yōu)于僅使用 question 進行匹配的模型,這說明 archived answer 引入的更豐富信息的確提升了模型的效果,但是本文提出的二次匹配方法顯然更加高效。
3.2 消融實驗
本論文最后將僅使用 Representation-based Similarity Module、僅使用 Matching Pattern-based Similarity Module、用注意力機制替換門控機制三種情況和原模型進行了對比。實驗結果顯示,當去除任何一個模塊的情況下,模型的效果都有顯著的下降;另外,使用注意力機制的效果也略弱于門控機制,但也比近使用單一模塊好不少。
結論
本文首先分析了問題答案在相似問題判定任務中的作用,認為答案應該作為兩個問題的橋梁而不是簡單的問題擴展;然后提出了一種全新的相似問題判定模型,該模型在真實數據集上取得了 SOTA 的效果,證明了該方法的有效性。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的SIGIR 2020 | 相似问题判定的二次匹配模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你有哪些吃一次就记一辈子的美食推荐?
- 下一篇: 2025 款一汽红旗 H5“玄影版”轿车