SIGIR 2019 开源论文 | 结合答案信息的重复问题检测方法
作者丨張琨?
學校丨中國科學技術大學博士生
研究方向丨自然語言處理
論文動機
社區問答一直是一個非常熱門的地方,人們在這里提出問題,尋找答案,例如知乎,Quora 等。但是社區問答一直有一個很嚴重的問題,那就是有很多重復性的問題,這就給搜索引擎帶來了很大的挑戰,如果過濾這些重復問題,為用戶提供更好的答案推薦是這類網站不斷探索的。
當前很多的方法更多的是關注如何構建問題的語義表征,通過這些語義表征區分相似問題和不相似問題。但這存在一些問題,有些問題雖然問的問題看起來不一樣,但是結合先驗知識就會發現他們其實問的是一個問題,例如下圖中的第一個例子。
這個時候答案就可以為我們提供這種先驗知識,通過答案就能發現兩個問題問的內容是相同的。而利用答案來增強對問題的理解是目前大多數工作沒有考慮到的。那么是否可以直接將答案和問題放到一起,然后進行分類呢?答案是否定的,某些情況下,答案雖然是相同的,但是針對的問題卻是完全不同的,例如下圖中的第二個例子,這時答案的引入反而會影響到對問題的判斷。
因此如何才能準確的利用答案的信息去增強對文本的理解,同時不會引入更多的噪聲呢?這就是本文想要解決的問題。
模型結構
為了解決以上兩個問題,本文設計了一個自適應的多頭注意力網絡,在引入答案信息的同時不會引入過多的噪聲,模型的整體結構如下:
Representation Layer
因為引入了答案信息,因此在該工作中,整個問題的輸入變成了兩個問題,以及對應的兩個答案。首先通過預訓練的詞向量,字符級別的詞向量,以及一些語法特征來表示每個詞,然后使用 Bi-LSTM 處理每個輸入,得到每個詞的情境信息豐富的向量表示,$Q1, A1, Q2, A2$。
Adaptive Multi-Attention Layer
在該層,作者使用了三種不同的注意力計算方法來將答案信息自適應的融入到問題的語義表示中,并且過濾不相關的信息,這三種注意力計算方法如下:
1. Self-Attention:這可以認為是一種常規操作,通過自注意力機制抽取句子的重要信息,并且解決了長依賴問題,最終得到一個句子級別的語義表示。以問題 1 為例,計算方法如下:
2. Cross Attention:這個操作是為了獲取問題之間的交互,在 sentence semantic matching 任務中,我們需要建模兩個句子之間的語義關系,因此一般會用 co-attention 來計算細粒度的相似性,具體方法如下:
也是一個比較常規的操作,通過這樣的方法,我們可以分別使用對方句子來表示己方句子,得到細粒度的語義表示內容,同樣的方法也可以得到兩個答案之間的語義交互
3. Adaptive Co-Attention:之前的操作并沒有將答案和問題結合起來,因此該操作主要做的就是利用答案信息來增強對問題語義的理解,同時過濾掉可能的噪聲,相關的結構圖如模型圖右側的圖所示,首先針對第 i 個詞,利用它做指導,挑選出對第 i 個問題詞的表示最重要的信息:
接下來使用相同的方法得到問題的新的表示:
此時通過對答案和問題的交互,分別得到了針對問題中的第i個詞的答案和問題的新的表示,那么接下來就是將這些信息融合到一起,這里作者使用了一種類似于 GRU 的門操作:
如前文提到的,答案信息可能會引入噪聲,干擾模型對文本的理解,因此,作者在這里加入了一個過濾門,用于整合上一步得到的融合特征以及原始的問題文本特征,從而避免了噪聲的干擾:
至此就得到了問題中第 i 個詞的增強表示。相同的操作應用于問題 1 中的其他詞和問題 2 中的所有詞,就得到了利用答案信息進行增強的問題語義表示
Interaction and Prediction Layer
在上一層得到了問題的語義增強表示,而本文針對的還是判斷兩個問題是否相同的分類問題,因此這一層就更加關注于兩個句子之間的交互,首先是對上一層得到的信息與原始的問題表示進行融合,常規操作,很好理解:
接下來作者使用了一個 Bi-LSTM 來處理這些序列表示,用于最后生成問題的句子級別語義表示:
接下來作者使用最大池化和均值池化來整合 Bi-LSTM 的隱層狀態表示,并將所有的結果拼接起來,得到最后的分類表示向量,接下來就是一個 MLP+softmax 進行分類:
以上就是整個模型的技術細節。
實驗
作者在兩個數據集上進行了模型效果的展示,在這里我們展示其中的一個實驗結果
從實驗結果上看,作者提出的模型達到了最優的效果,同時作者還在子類的分類上進行效果的驗證,作者提出的模型也基本上是全方位碾壓了當前最好的一些模型。同時作者還給出了在最前邊的例子上的實驗效果。
模型不僅能夠準確進行判斷,同時還能自適應的調整是否要使用答案信息,這是一個非常有意思的現象。
總結
社區問答算是一個比較老的問題了,但作者另辟蹊徑,通過答案來增強對問題的理解,而且并不是單純的將答案信息融入到模型中,而是通過一個過濾門來考慮答案信息是否是有用的,模型對注意力機制的使用具有很高的借鑒意義。同時,作者的文章書寫也非常具有參考價值,是一篇非常不錯的文章。
點擊以下標題查看更多往期內容:?
圖神經網絡綜述:模型與應用
ACL 2019 | 基于知識增強的語言表示模型
ACL 2019 | 基于上下文感知的向量優化
基于小樣本學習的意圖識別冷啟動
復旦大學邱錫鵬:詞法、句法分析研究進展綜述
ACL 2019?| 句對匹配的樣本選擇偏差與去偏方法
深度長文:NLP的巨人肩膀(上)
NLP 的巨人肩膀(下):從 CoVe 到 BERT
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的SIGIR 2019 开源论文 | 结合答案信息的重复问题检测方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知乎高赞回答:是否有必要系统学习概率图模
- 下一篇: 文末福利 | 国际前沿算法峰会报名进行中