日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2020 | 多跳问答的基于对齐的无监督迭代解释检索方法

發布時間:2024/10/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ACL 2020 | 多跳问答的基于对齐的无监督迭代解释检索方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|舒意恒

學校|南京大學碩士生

研究方向|知識圖譜

論文標題:Unsupervised Alignment-based Iterative Evidence Retrieval for Multi-hop Question Answering

論文來源:ACL 2020

論文鏈接:https://arxiv.org/abs/2005.01218

背景

機器學習算法的可解釋性仍然是機器學習在真實世界應用中的一個關鍵的未解決的問題。作者認為,當前許多 QA 的神經網絡方法的研究缺乏對推斷過程的人類可理解的解釋,而這阻礙了這些方法應用于真實的應用中。

該文關注于多跳、多項選擇的問答系統,并嘗試提供可解釋性。這類問答系統的特點是,答案文本可能不是來自于實際的知識庫文段;并且在給定問題時,要求該問答系統具有能夠將候選答案鏈接起來的推理能力。

該文將所提出的模型稱為 AIR (Alignment-based Iterative Retriever). 它嘗試從非結構化的知識庫中,檢索高質量的解釋語句。即該研究關注的是檢索到一個問答的解釋,而不是檢索到一個問題的答案。作者認為,該方法提供的解釋不僅有助于解釋回答一個問題的推理步驟,并且也能顯著提升問答系統本身的性能。

1.1 QA 的可解釋性

關注于可解釋性的 QA 方法可以大致分為三個主要類別:

  • 監督方法,要求訓練時標注解釋。然而,標簽數據不總是可用的,并且標簽當中可能含有噪音。

  • 潛在方法,根據答案質量抽取解釋,不需要顯式的訓練數據。例如強化學習和 PageRank 的思路。這類方法通常需要更多的問題-答案對數據。

  • 無監督方法,使用無監督算法來抽取解釋。

如圖是一個需要多跳推理的樣例問題。AIR 檢索到的兩個平行的解釋鏈條提供了不完美的,但是與給定問題相關的解釋。

方法

與監督方法不同,AIR 是完全無監督的,并且可以輕松地從小文本的候選解釋上擴展到大規模的知識庫。

該方法檢索解釋語句的過程可以簡單理解為一個迭代過程,在每輪迭代中,該方法使用對齊模型來找到針對當前查詢在嵌入空間中最接近的解釋語句。在每輪迭代后,該方法調整它的查詢,以關注當前解釋集合中缺失的信息。

該文所提出的 QA 方法包含兩個組件:

  • 無監督的迭代組件:在給定查詢時,檢索解釋鏈。

  • 答案分類組件:給定原問題和已檢索到的解釋,將候選答案分類為正確或錯誤。

下面分別對這兩個組件進行簡介。

2.1 迭代的解釋檢索

給定查詢,AIR 迭代地構建解釋鏈。AIR 初始化查詢為拼接后的問題和候選答案。然后,AIR 迭代地重復兩個步驟:

  • 它使用對齊 -IR 方法 [1] 檢索給定當前查詢的最突出的解釋句子。解釋句子來自于數據集特定的知識庫。

  • 它調整查詢以關注于缺失的信息,即當前解釋鏈條沒有覆蓋的關鍵詞。

AIR 可以動態地將新術語添加到查詢中。從之前檢索到的解釋中推導出多跳的檢索。這兩步反復進行,直到達到與參數無關的終止條件為止。

如圖展示了 AIR 在 MultiRC 上迭代檢索解釋句子的情況。

2.1.1 對齊

為了計算給定查詢和知識庫中的一個句子的相似度,AIR 使用一種已有的無監督的對齊方法 [1],它僅使用 GloVe 嵌入 [2]。作者表示,BERT 生成的嵌入效果顯著超越 GloVe,但它生成的代價是十分高的。

對齊方法計算查詢中的每個 token 和給定知識庫句子中的每個 token 的詞嵌入之間的余弦相似度,得到一個余弦相似度分數矩陣。對于每個查詢 token,算法通過最大池化選擇解釋文本中最類似的 token。

最終,計算此余弦相似度得分向量與包含查詢 token 的 IDF 值的向量之間的逐元素(element-wise)點積,以產生給定查詢 和支持段落 的整體對齊分數 :

其中, 對 起加權的作用。

2.1.2?剩余項

AIR 的查詢重構造是通過剩余項 驅動的,即暫時沒有被前 i 個解釋構成的集合覆蓋的查詢項的集合。

其中, 表示查詢項的非重復集合, 表示第 k 個解釋的非重復項集合, 表示 i 個解釋句子的集合。

作者將對齊方式的軟匹配用于包含操作:如果查詢項與對齊項的余弦相似度大于相似度閾值 (作者為所有實驗使用 = 0.95),則認為該查詢項包含在對齊項中,從而確保兩個術語在嵌入空間中相似。

2.1.3 覆蓋

作者提出一個指標用于度量查詢關鍵字被檢索到的解釋鏈 覆蓋的程度:

2.1.4 AIR 檢索過程

查詢重構造:在每次迭代 j,AIR 重新構造查詢 以包含未被當前解釋鏈條覆蓋的術語 。

停止條件:AIR 在滿足以下兩個條件中的任一條件時停止迭代地檢索解釋。

  • 上一次解釋檢索的迭代中,沒有發現新的查詢項,即

  • 所有查詢項都被解釋覆蓋,即?

2.2 答案分類

AIR 的解釋鏈可以輸入到任何監督的答案分類方法中,作者在實驗中使用 RoBERTa。

以 MultiRC 為例,作者將查詢(問題和候選答案文本組合而成)和解釋文本拼接,并在兩段文本中使用 [SEP]。然后對 [CLS] 標簽使用 sigmoid 函數執行二分類任務(正確答案與否)。

在依賴大知識庫的 QA 任務中,可能會出現:存在多個支持正確答案的解釋鏈。為了利用這種答案分類的冗余性,作者擴展 AIR 以提取平行的解釋鏈條。

即提取 N 條平行的解釋鏈條,運行 AIR N 次,且確保每條鏈條的第一個解釋句子是不同的。在檢索出 N 條平行解釋鏈后,該方法將所有單獨的解釋句子聯合起來,創建該候選答案的支持解釋文本。

實驗與分析

作者在 MultiRC [3] 和 QASC [4] 兩個數據集上進行了廣泛的實驗。

如圖是 MultiRC 數據集上開發和測試集的實驗結果。

AIR 在 MultiRC 上超越了以往的方法,包括有監督的方法,并且平行解釋鏈的方法提升了模型表現。

如圖是 QASC 數據集上的 QA 和解釋選擇的表現。AIR 在 QASC 上同樣取得了最優效果,并且平行解釋鏈的方法提升了模型表現。

3.1 基線算法

在之前介紹的算法外,作者還引入了一些基線算法。

MultiRC 上的 3 個基線算法:

  • 所有的段落文本饋送給 RoBERTa 分類器

  • 使用對齊方法 [5] 檢索得到 top-k 句子,該方法用于比較 AIR 的查詢重構造

  • 使用監督的 RoBERTa 分類器進行訓練,為每個查詢選擇正確的解釋

  • QASC 上的 2 個基線算法:

  • 不包含任何解釋

  • 使用對齊方法檢索得到 top-k 句子

  • 小結

    作者介紹了一種簡單的、無監督的問答解釋檢索方法。該方法結合了三個想法:(a) 一種無監督的對齊方法,利用 GloVe 嵌入將問題和答案與解釋句子進行軟對齊;(b) 一個迭代過程,該迭代過程將重點放在現有解釋未覆蓋的查詢剩余項上;(c) 一個簡單的停止條件,當給定問題和候選答案中的所有項都被檢索到的解釋句子集合覆蓋時,該迭代過程結束。

    作者認為,盡管該方法簡單,且只依賴于 GloVe 嵌入(不使用 BERT 的原因是生成嵌入的計算代價過高),但在兩個數據集上該方法在解釋選擇任務的表現上優于以往方法。

    參考文獻

    [1] Vikas Yadav, Steven Bethard, and Mihai Surdeanu. 2019a. Alignment over heterogeneous embeddings for question answering. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, (Long Papers), Minneapolis, USA. Association for Computational Linguistics.

    [2] Jeffrey Pennington, Richard Socher, and Christopher Manning. 2014. Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543.

    [3] Daniel Khashabi, Snigdha Chaturvedi, Michael Roth, Shyam Upadhyay, and Dan Roth. 2018a. Looking beyond the surface: A challenge set for reading comprehension over multiple sentences. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 252–262.

    [4] Tushar Khot, Peter Clark, Michal Guerquin, Peter Jansen, and Ashish Sabharwal. 2019a. Qasc: A dataset for question answering via sentence composition. arXiv preprint arXiv:1910.11473.

    [5] Sun Kim, Nicolas Fiorini, W John Wilbur, and Zhiyong Lu. 2017. Bridging the gap: Incorporating a semantic similarity measure for effectively mapping pubmed queries to documents. Journal of biomedical informatics, 75:122–127.

    更多閱讀

    #投 稿?通 道#

    ?讓你的論文被更多人看到?

    如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

    總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

    PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

    ?????來稿標準:

    ? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

    ? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

    ? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

    ?????投稿郵箱:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 所有文章配圖,請單獨在附件中發送?

    ? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

    ????

    現在,在「知乎」也能找到我們了

    進入知乎首頁搜索「PaperWeekly」

    點擊「關注」訂閱我們的專欄吧

    關于PaperWeekly

    PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    總結

    以上是生活随笔為你收集整理的ACL 2020 | 多跳问答的基于对齐的无监督迭代解释检索方法的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。