當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Facebook刷新开放域问答SOTA：模型训模型！Reader当Teacher！

發(fā)布時(shí)間：2024/7/5 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 Facebook刷新开放域问答SOTA：模型训模型！Reader当Teacher！小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | Sherry 不是小哀
編 | 小軼

一部問(wèn)答系統(tǒng)發(fā)展史就是一部人工智能發(fā)展史。早在1950年的圖靈測(cè)試就提出：如果人類無(wú)法通過(guò)問(wèn)答將機(jī)器和人區(qū)分開(kāi)，那么這個(gè)機(jī)器就可以被認(rèn)為具有智能。問(wèn)答系統(tǒng)和人工智能有著密不可分的關(guān)系。從基于規(guī)則和結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)問(wèn)答，到基于精細(xì)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的文本問(wèn)答，再到T5[1]將一切文本任務(wù)都轉(zhuǎn)化為問(wèn)答，我們足以看出自動(dòng)問(wèn)答系統(tǒng)在走向機(jī)器智能的過(guò)程中的重要性。

當(dāng)前主流的問(wèn)答系統(tǒng)主要分為幾類：FAQ檢索型、閑聊型、任務(wù)型、知識(shí)圖譜型、閱讀理解型等等。他們之間互相有些區(qū)別，但本質(zhì)上都可以被看作是從龐大的信息中找到想要答案的過(guò)程，方法上互相之間也有一些借鑒意義。

陳丹琦的DrQA[2]可以說(shuō)是利用深度學(xué)習(xí)解決開(kāi)放域問(wèn)答的開(kāi)山鼻祖了。我們也暫且將目光聚焦在這類開(kāi)放域問(wèn)答任務(wù)：基于一個(gè)巨大的文本庫(kù)（例如維基百科）建立自動(dòng)回答知識(shí)型問(wèn)題的系統(tǒng)。這樣的系統(tǒng)通常分為兩個(gè)部分：

檢索模型：負(fù)責(zé)從龐大的文本庫(kù)中篩選出與問(wèn)題最相關(guān)的文本；
閱讀模型：負(fù)責(zé)處理檢索模型篩選出的文本，從中精確地找出問(wèn)題的答案。

今天，我們來(lái)看一篇開(kāi)放域問(wèn)答系統(tǒng)的最新SOTA。Facebook在這篇paper中提出：在開(kāi)放域問(wèn)答中，閱讀理解模型的注意力權(quán)重可以提供更好的檢索模型訓(xùn)練信號(hào)，該方法刷新了開(kāi)放域問(wèn)答系統(tǒng)的SOTA，同時(shí)在EffcientQA榜單上刷新了6GB量級(jí)模型的記錄。

論文題目:?
DISTILLING KNOWLEDGE FROM READER TO RETRIEVER FOR QUESTION ANSWERING

論文鏈接:?
https://openreview.net/pdf?id=NTEz-6wysdb

Github:?
https://github.com/lucidrains/distilled-retriever-pytorch

Arxiv訪問(wèn)慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞【0127】下載論文PDF~

“現(xiàn)代”開(kāi)放域問(wèn)答

最開(kāi)始，DrQA[2]將基于TF-IDF的詞頻算法用作檢索模型，與當(dāng)時(shí)的SOTA閱讀模型結(jié)合，得到了開(kāi)放域問(wèn)答系統(tǒng)的雛形。基于詞頻的檢索模型的一大優(yōu)點(diǎn)就是簡(jiǎn)單有效：

對(duì)于大量文本，可以將所有段落的詞頻都提前統(tǒng)計(jì)出來(lái)，并儲(chǔ)存為向量的形式
對(duì)于給定問(wèn)題，通過(guò)向量近鄰搜索就可以快速查詢到最佳候選段落。

但是基于詞頻的檢索模型也有一些很明顯的缺點(diǎn)：

詞頻不能完全表示文本的含義，檢索出的文本質(zhì)量也因此受限，從而影響問(wèn)答系統(tǒng)整體的表現(xiàn)
基于詞頻的檢索模型不包含注意力機(jī)制，很難給關(guān)鍵程度不同的信息以不同的評(píng)分

為了解決這類檢索模型的缺點(diǎn)，常見(jiàn)的問(wèn)答系統(tǒng)先通過(guò)基于詞頻的檢索模型初篩出較大量候選段落，再應(yīng)用基于BERT的檢索模型，將問(wèn)題和段落拼接在一起進(jìn)行精細(xì)排序。

然而，這類分階段檢索的模型仍然存在一些問(wèn)題：它始終需要進(jìn)過(guò)基于詞頻的檢索，有信息損失；每次預(yù)測(cè)都需要將較大量的文本送入BERT進(jìn)行精排。能否在一開(kāi)始就用BERT這類效果更好的模型預(yù)先編碼好所有段落，在檢索的時(shí)候直接進(jìn)行向量搜索呢？

DPR - 加入了BERT的檢索模型

陳丹琦組在EMNLP 2020提出了Dense Passage Retrievel（DPR）[3]的方法來(lái)解決上述缺陷。由于BERT這類模型太過(guò)龐大，在預(yù)測(cè)的時(shí)候無(wú)法實(shí)時(shí)對(duì)所有段落進(jìn)行重編碼，因而問(wèn)題和段落需要分開(kāi)編碼。文中采用兩個(gè)不同的BERT模型分別編碼問(wèn)題和段落，問(wèn)題和段落編碼向量相似度即為檢索模型的打分。

DPR的一大創(chuàng)新點(diǎn)在于線下完成所有段落的編碼。訓(xùn)練段落編碼器時(shí)，將含有標(biāo)準(zhǔn)答案字串的候選段落作為編碼器的正例，其他段落作為負(fù)例。訓(xùn)練完成后，即可在預(yù)測(cè)前對(duì)所有段落進(jìn)行編碼。預(yù)測(cè)時(shí)只需要編碼問(wèn)題，即可通過(guò)向量搜索得到相關(guān)段落。

然而，DPR在監(jiān)督信息的獲取上是存在一定問(wèn)題的——這也是基于網(wǎng)絡(luò)的檢索模型訓(xùn)練的一大難點(diǎn)。DPR[3]是利用答案字符串是否出現(xiàn)在段落中的信號(hào)來(lái)定義編碼器的正負(fù)例。這個(gè)信號(hào)中包含了大量的噪聲：

包含答案的段落并不能回答當(dāng)前問(wèn)題

比如對(duì)問(wèn)題 “中國(guó)的首都是哪里？”而言，并非所有包含“北京”的段落都能用來(lái)回答這個(gè)問(wèn)題。

不包含答案的段落也可以回答當(dāng)前問(wèn)題

比如對(duì)問(wèn)題“圖靈測(cè)試是誰(shuí)提出的”而言，并非只有“阿蘭·圖靈”才是正確候選，由于音譯，省略等，其他字符串同時(shí)也可能是答案。

那么，如何能獲得更優(yōu)質(zhì)的檢索模型訓(xùn)練信號(hào)呢？

向閱讀器學(xué)習(xí)

專門為檢索模型訓(xùn)練標(biāo)注數(shù)據(jù)固然是一種獲得更好訓(xùn)練數(shù)據(jù)的方法，但我們能否自動(dòng)獲取更優(yōu)質(zhì)的監(jiān)督信號(hào)呢？Facebook AI的研究者們提出[4]，利用蒸餾閱讀模型中的注意力權(quán)重可以獲得更好的相似度信息。

除了訓(xùn)練檢索模型外，開(kāi)放域問(wèn)答的另外一個(gè)難點(diǎn)在于如何將檢索模型和閱讀模型的打分結(jié)合選出最終答案。閱讀模型的打分往往只基于被送入閱讀器的段落。想要獲得不同段落之間的交互信息，必須將所有候選段落拼接輸入閱讀器。但由于BERT的復(fù)雜度隨著序列長(zhǎng)度平方級(jí)增長(zhǎng)，拼接輸入并不高效。

在Fusion-in-Decoder model[5]中作者采用生成式（Encoder-Decoder）模型作為閱讀模型，他們將不同段落分別輸入Encoder獲得段落的的表示，然后將這些表示拼接在一起作為Decoder的輸入。這樣Encoder不需要用平方級(jí)的復(fù)雜度；Decoder在生成答案的時(shí)候也獲得了所有段落的信息。

而本文也采用這種閱讀模型。作者提出：在生成式閱讀模型中，Encoder和Decoder的交互注意力權(quán)重可看作預(yù)測(cè)時(shí)不同段落信息的重要度。

作者通過(guò)一個(gè)簡(jiǎn)單的實(shí)驗(yàn)證明了這一論點(diǎn)：給定一個(gè)問(wèn)題和100個(gè)已經(jīng)由DPR選出的相關(guān)段落，篩選出最好的10個(gè)段落后再通過(guò)閱讀理解模型，得到的端到端準(zhǔn)確率下降越少說(shuō)明篩選方法越好。基于前100個(gè)相關(guān)段落的問(wèn)答系統(tǒng)準(zhǔn)確率可以達(dá)到48.2EM；當(dāng)我們直接選擇前10個(gè)DPR篩選出的段落時(shí)，問(wèn)答系統(tǒng)的準(zhǔn)確率下降到了42.9 EM；但如果根據(jù)閱讀模型的注意力權(quán)重篩選出前10的段落，準(zhǔn)確率只下降到46.8 EM。

接下來(lái)，作者又進(jìn)一步利用知識(shí)蒸餾的方法，讓檢索模型學(xué)習(xí)閱讀模型的注意力信號(hào)。

將注意力轉(zhuǎn)化為相關(guān)度

我們利用知識(shí)蒸餾，讓檢索模型學(xué)習(xí)閱讀模型的知識(shí)。將檢索模型在不同段落上的預(yù)測(cè)概率與閱讀模型的注意力權(quán)重之間的KL-divergence作為蒸餾訓(xùn)練的損失函數(shù)。那么如何將注意力權(quán)重轉(zhuǎn)化為數(shù)值呢？

將矩陣轉(zhuǎn)化為數(shù)值的最直觀方法就是池化。公式中表示Decoder第i個(gè)token對(duì)Encoder第j個(gè)token，在第k層第h個(gè)注意力頭（head）的注意力權(quán)重，表示的是閱讀模型對(duì)這個(gè)問(wèn)題，段落對(duì)的注意力權(quán)重打分，表示檢索模型對(duì)問(wèn)題是檢索出段落的打分，也就是檢索模型的輸出。這樣，我們就可以讓檢索模型學(xué)習(xí)閱讀模型的注意力信息了。

文中試驗(yàn)了不同的設(shè)置，最終確定：Decoder的第0個(gè)token對(duì)于Encoder同一段落中所有token的注意力權(quán)重平均值是最佳設(shè)定。

實(shí)驗(yàn)

至此，我們已經(jīng)確定了訓(xùn)練檢索模型的損失函數(shù)。那么我們?nèi)绾伍_(kāi)始訓(xùn)練呢？訓(xùn)練采取迭代的方式進(jìn)行：

對(duì)于每個(gè)問(wèn)題，用檢索模型選取前k個(gè)相關(guān)段落，用于訓(xùn)練閱讀模型。

在相關(guān)段落上訓(xùn)練好閱讀模型后，對(duì)于每個(gè)問(wèn)題的候選段落計(jì)算池化之后的注意力權(quán)重。

利用注意力權(quán)重作為檢索模型的蒸餾訓(xùn)練信號(hào)，訓(xùn)練檢索模型。

從隨機(jī)初始化的檢索模型開(kāi)始訓(xùn)練無(wú)疑是效率很低的，初始的候選段落便顯得尤為重要。作者選取了不同的初始篩選方法（BM25，BERT，DPR）來(lái)確定第一步的相關(guān)段落集合。

實(shí)驗(yàn)發(fā)現(xiàn)從DPR方法選擇的初始相關(guān)段落可以讓模型達(dá)到最好的效果。由于BERT的預(yù)訓(xùn)練目標(biāo)和相關(guān)度排序相差甚遠(yuǎn)，因而用預(yù)訓(xùn)練好的BERT作為檢索模型的初始參數(shù)并選擇最初的相關(guān)段落集效果不佳。但作者提出的訓(xùn)練方法可以在4個(gè)迭代內(nèi)讓檢索模型大幅提升效果。

最終，如此構(gòu)建的問(wèn)答系統(tǒng)在NQ和TriviaQA數(shù)據(jù)集上都超越了之前的SOTA。這個(gè)方法在TriviaQA上達(dá)到了更好的效果，原因是NQ數(shù)據(jù)集中的段落是人工標(biāo)注的并用作了DPR的訓(xùn)練，但TriviaQA沒(méi)有提供段落相似度信息。這正說(shuō)明了本文方法在沒(méi)有相似度標(biāo)注數(shù)據(jù)的設(shè)定下十分有效。

總結(jié)

本文利用生成式閱讀器中的注意力權(quán)重作為相似度信息訓(xùn)練檢索模型，刷新了開(kāi)放域問(wèn)答系統(tǒng)的SOTA。該方法簡(jiǎn)單有效地解決了開(kāi)放域問(wèn)答系統(tǒng)中訓(xùn)練檢索模型缺乏標(biāo)注數(shù)據(jù)的問(wèn)題，為研究者們提供了新思路。

萌屋作者：Sherry 不是小哀。

本科畢業(yè)于復(fù)旦數(shù)院，轉(zhuǎn)行NLP目前在加拿大滑鐵盧大學(xué)讀CS PhD。經(jīng)歷了從NOIer到學(xué)數(shù)學(xué)再重回CS的轉(zhuǎn)變，卻堅(jiān)信AI的未來(lái)需要更多來(lái)數(shù)學(xué)和自認(rèn)知科學(xué)的理論指導(dǎo)。主要關(guān)注問(wèn)答，信息抽取，以及有關(guān)深度模型泛化及魯棒性相關(guān)內(nèi)容。

作品推薦：

無(wú)需人工！無(wú)需訓(xùn)練！構(gòu)建知識(shí)圖譜 BERT一下就行了！

Google Cloud TPUs支持Pytorch框架啦！

后臺(tái)回復(fù)關(guān)鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】

獲取ACL、CIKM等各大頂會(huì)論文集！

[1]Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.(https://arxiv.org/pdf/1910.10683)

[2]Reading Wikipedia to Answer Open-Domain Questions.(https://arxiv.org/pdf/1704.00051)

[3]Dense Passage Retrieval for Open-Domain Question Answering.(https://arxiv.org/pdf/2004.04906)

[4]DISTILLING KNOWLEDGE FROM READER TO RETRIEVER FOR QUESTION ANSWERING.(https://openreview.net/pdf?id=NTEz-6wysdb)

[5]Leveraging passage retrieval with generative models for open domain question answering.(https://arxiv.org/pdf/2007.01282)

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的Facebook刷新开放域问答SOTA：模型训模型！Reader当Teacher！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：推荐一个快速定位深度学习代码bug的炼丹
下一篇：一份从入门到精通NLP的完整指南｜ N