當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

SIGIR 2020 | 相似问题判定的二次匹配模型

發(fā)布時間：2024/10/8 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 SIGIR 2020 | 相似问题判定的二次匹配模型小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者｜金金

單位｜阿里巴巴研究實習生

研究方向｜推薦系統(tǒng)

論文標題：Match2: A Matching over Matching Model for Similar Question Identification

論文來源：SIGIR 2020

論文鏈接：https://arxiv.org/pdf/2006.11719.pdf

簡介

本文由中科院計算所團隊發(fā)表于 SIGIR 2020。在社區(qū)問答中，根據 user question 找到已存在的 archived question 對于問題搜索和冗余消除都有較大意義，本文提出了一種相似問題的二次匹配模型，將 archived question 的回答作為連接二者的橋梁，輔助判定 archived question 是否與 user question 相似。該模型相比于已有的 SOTA 相似問題匹配模型取得了更好的效果。

算法

該模型包括三個部分：Representation-based Similarity module 用于生成兩個問題的相似性向量；Matching Pattern-based Similarity module 使用 archived question 的回答，生成兩個問題的匹配模式；Aggregation module 結合二者的輸出生成匹配分數，模型的整體框架圖如下：

2.1 Representation-based Similarity Module

該部分類似于普通的相似問題判定模型，將 user question 和 archived question 作為輸入，得到二者的相似性表示向量。具體來說，該模型將兩個問題拼接輸入 BERT，得到 [CLS] 向量和序列 token 表示如下：

2.2 Matching Pattern-based Similarity Module

該部分使用 archived question 的答案作為橋梁，建立 user question 和 archived question 之間的匹配模式。具體來說，該部分主要分為以下三個模塊。

第一模塊是 Matching Pattern Layer，該模塊分別計算兩個問題與答案直接的相似性表示。具體來說，以 user question 舉例，首先將 user question 和 archived answer 拼接輸入 BERT，為每一個 token 得到 L 層的 embedding，user question 的 embedding 表示為，archived answer 的 embedding 表示為：

此后，將二者的 embedding 做逐層的內積運算，得到的每一層的匹配模式：

最后將每一層的表示拼接得到總體的匹配模式，同理計算可得 archived question 和 archived answer 的匹配模式：

第二模塊是 Pattern Similarity Layer，該模塊計算以上兩種匹配模式之間的相似性作為兩個問題的相似性表示，具體來說作者考慮五種相似度計算方法，以計算兩種匹配模式之間的逐元素相似性，分別是內積、余弦相似度、L1 距離、L2 距離以及 Jesene-Shannon 系數，作者在通過超參實驗證明，內積的匹配效果最好：

第三模塊是 Compression Layer，考慮到的維度較高，不易于和 Representation-based Similarity Module 的輸出融合，作者使用兩層 BN-ReLU-Conv 網絡以及全局平均池化層，將壓縮為低維向量。

2.3 Aggregation Module

該部分使用類似于 GRU 中的門控機制，控制 Representation-based Similarity Module 輸出和 Matching Pattern-based Similarity Module 輸出在最終相似性判斷中所占的比例，從而得到總體的相似性向量如下：

最后使用 MLP 層計算兩個問題的相似性分數：

2.4 Model Training and Inference

該部分采用多任務學習機制訓練模型，除了使用 cross entropy loss 優(yōu)化相似問題的分類準確性以外，同時使用將 Matching Pattern-based Similarity Module 中 Matching Pattern Layer 輸出的兩個 [CLS] token（即 BERT 輸出的 user question、archived question 與 archived answer 的相似性向量）分別輸入 MLP 層，優(yōu)化目標為該 [CLS] token 能更好地判斷該答案是否能回答該問題，使用的損失函數仍然是 cross entropy loss。

實驗

該論文的實驗在 CQADupStack 和 QuoraQP-a 兩個廣泛應用的社區(qū)問答數據集上進行，采用的 baseline 包括僅使用 question 的深度文本匹配模型和將 archived answer 直接作為 archived question 擴展的 one-side 模型。

3.1 整體實驗結果

本論文提出的模型的分類效果超過了所有的 baseline 模型的分類效果，所以由此證明了該匹配方法的有效性，另外，將 archived answer 直接作為 archived question 擴展的模型效果普遍優(yōu)于僅使用 question 進行匹配的模型，這說明 archived answer 引入的更豐富信息的確提升了模型的效果，但是本文提出的二次匹配方法顯然更加高效。

3.2 消融實驗

本論文最后將僅使用 Representation-based Similarity Module、僅使用 Matching Pattern-based Similarity Module、用注意力機制替換門控機制三種情況和原模型進行了對比。實驗結果顯示，當去除任何一個模塊的情況下，模型的效果都有顯著的下降；另外，使用注意力機制的效果也略弱于門控機制，但也比近使用單一模塊好不少。

結論

本文首先分析了問題答案在相似問題判定任務中的作用，認為答案應該作為兩個問題的橋梁而不是簡單的問題擴展；然后提出了一種全新的相似問題判定模型，該模型在真實數據集上取得了 SOTA 的效果，證明了該方法的有效性。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體，縮短讀者尋找優(yōu)質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā)，均會添加“原創(chuàng)”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發(fā)送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發(fā)布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的SIGIR 2020 | 相似问题判定的二次匹配模型的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

模型
SIGIR

上一篇：你有哪些吃一次就记一辈子的美食推荐？
下一篇： 2025 款一汽红旗 H5“玄影版”轿车