用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)
?作者 | 劉璐
學(xué)校 |?北京郵電大學(xué)
研究方向 |?問題生成與QA
論文標(biāo)題:
GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval
論文鏈接:
https://arxiv.org/abs/2112.07577
代碼鏈接:
https://github.com/UKPLab/gpl
Abstract
稠密檢索相比于稀疏檢索可以克服 lexical gap,可以得到更好的檢索結(jié)果。然而訓(xùn)練稠密檢索模型往往需要大量的數(shù)據(jù)。BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [1] 表明領(lǐng)域遷移會(huì)極大地影響稠密檢索模型的性能。
本文針對(duì)稠密檢索提出了一種先進(jìn)的無(wú)監(jiān)督領(lǐng)域適應(yīng)方法 Generative Pseudo Labeling(GPL),使用 query 生成模型與基于 cross-encoder 的匹配模型為目標(biāo)域構(gòu)造偽標(biāo)簽。實(shí)驗(yàn)結(jié)果證明了此方法的有效性,且相比于之前的領(lǐng)域遷移方法更加魯棒。
本文還探究了六種近期提出的預(yù)訓(xùn)練方法在稠密檢索領(lǐng)域遷移任務(wù)上的表現(xiàn),只有三種方法有促進(jìn)作用。其中效果最好的 TSDAE [2] 可以與 GPL 結(jié)合,進(jìn)一步提升模型性能。
Introduction
稠密檢索模型需要大量的訓(xùn)練數(shù)據(jù)才可表現(xiàn)優(yōu)異,研究表明其對(duì)領(lǐng)域遷移十分敏感。比如,在 MS MARCO 上訓(xùn)練的檢索模型在 COVID-19 相關(guān)文檔檢索任務(wù)中表現(xiàn)很差。MS MARCO 數(shù)據(jù)集是在 COVID-19 之前創(chuàng)建的,因此它不包括任何與 COVID-19 相關(guān)的主題,模型無(wú)法學(xué)習(xí)如何在向量空間中很好地表示該主題。
針對(duì)此問題,本文提出 Generative Pseudo Labeling(GPL),具體流程如下圖所示。
1. 首先使用預(yù)訓(xùn)練 T5 模型根據(jù)目標(biāo)域 passage 生成對(duì)應(yīng)的 query;
2. 之后使用稠密檢索模型為每個(gè) query 挖掘負(fù)樣本;
3. 最后,使用 cross-encoder 為每個(gè) query-passage 對(duì)打分,為目標(biāo)域稠密檢索模型的訓(xùn)練構(gòu)造偽標(biāo)簽。
流程中使用到的 T5、稠密檢索模型、cross-encoder 均為現(xiàn)有的在 MS MARCO 數(shù)據(jù)集上預(yù)訓(xùn)練過的模型。
Related Work
3.1 Pre-Training based Domain Adaptation
對(duì)于 transformer 模型,最常用的領(lǐng)域適應(yīng)方法是基于域自適應(yīng)的預(yù)訓(xùn)練,該方法的基本做法是在使用標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)之前,先使用目標(biāo)域數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練。然而對(duì)于檢索任務(wù),目標(biāo)域標(biāo)簽數(shù)據(jù)往往難以獲得,因此需進(jìn)行零樣本學(xué)習(xí)。除 MLM(Masked Language Modeling)外,還有一些針對(duì)稠密檢索的其他預(yù)訓(xùn)練策略,具體如下。
ICT(Latent Retrieval for Weakly Supervised Open Domain Question Answering?[3] , ACL 2019)通過從 passage 中隨機(jī)選擇一個(gè)句子作為 query,剩余的部分作為配對(duì)的 passage,生成 query-passage 對(duì)。
CD(Condenser: a Pre-training Architecture for Dense Retrieval?[4] , EMNLP 2021)提出針對(duì)稠密檢索的預(yù)訓(xùn)練模型 Condenser,改變現(xiàn)有 MLM 的結(jié)構(gòu)以迫使模型學(xué)習(xí)有意義的 CLS 表示。
SimCSE(SimCSE: Simple Contrastive Learning of Sentence Embeddings?[5] , EMNLP 2021)將同一句句子輸入到具有不同 dropout 的網(wǎng)絡(luò)中兩次,最小化兩次結(jié)果的距離。
CT(Semantic Re-tuning with Contrastive Tension, ICLR 2021)與 SimCSE 類似,不同的是其將句子輸入到不同的兩個(gè)模型中。
TSDAE(TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning?[6] , EMNLP 2021 finding)使用具有瓶頸的去噪自編碼器架構(gòu):從輸入文本中刪除單詞,并通過編碼器生成固定大小的 embedding,解碼器須重構(gòu)原始文本。
ICT、CD 僅被研究用于域內(nèi)的性能,即在預(yù)訓(xùn)練之后,有大量標(biāo)簽數(shù)據(jù)用于后續(xù)有監(jiān)督的微調(diào)。SimCSE, CT, TSDAE 僅用于無(wú)監(jiān)督的句子向量學(xué)習(xí)。直接使用利用這些策略學(xué)習(xí)到的句子表示用來(lái)檢索,其性能遠(yuǎn)遠(yuǎn)不足。
目前這些預(yù)訓(xùn)練方法是否可以用于稠密檢索的無(wú)監(jiān)督領(lǐng)域適應(yīng)還不明確。本文首先使用這些這些策略在目標(biāo)域文本上進(jìn)行預(yù)訓(xùn)練,之后在 MS MARCO 數(shù)據(jù)集上微調(diào)模型來(lái)實(shí)現(xiàn)稠密檢索的領(lǐng)域遷移,并探究其效果。
3.2 Query Generation
一些工作通過 query 生成來(lái)提升檢索模型的性能。
Doc2query(Document Expansion by Query Prediction [7]?)使用預(yù)測(cè)的查詢進(jìn)行文檔擴(kuò)展,之后使用 BM25 來(lái)檢索文檔。
QGen(Zero-shot Neural Passage Retrieval via Domain-targeted Synthetic Question Generation [8]?, EACL 2021)使用通用領(lǐng)域訓(xùn)練的query生成器在目標(biāo)域生成 query 構(gòu)造合成數(shù)據(jù),之后稠密檢索模型根據(jù)合成數(shù)據(jù)從零開始訓(xùn)練。
盡管 QGen 很有效,訓(xùn)練檢索模型時(shí)損失使用的是批內(nèi)負(fù)樣本的交叉熵?fù)p失,這僅提供了粗粒度的相關(guān)性,因此限制了模型的性能。本文使用考慮困難樣本的 cross-encoder 提供的偽標(biāo)簽來(lái)提升模型性能。
3.3 Other Methods
MoDIR(Zero-Shot Dense Retrieval with Momentum Adversarial Domain Invariant Representations [9])使用域?qū)褂?xùn)練(DAT)用于稠密檢索的無(wú)監(jiān)督領(lǐng)域適應(yīng)。
UDALM(UDALM: Unsupervised Domain Adaptation through Language Modeling [10]?, NAACL 2021)采用多階段訓(xùn)練,首先在目標(biāo)域使用 MLM 預(yù)訓(xùn)練,之后采用目標(biāo)域 MLM 與源域有監(jiān)督目標(biāo)進(jìn)行多任務(wù)學(xué)習(xí)。
3.4 Pseudo Labeling and Cross-Encoders
不同于雙塔式結(jié)構(gòu),cross-encoder 將 query 和 passage 進(jìn)行拼接后通過 cross-attention 預(yù)測(cè)相關(guān)性分?jǐn)?shù),通常用于精排階段。相關(guān)研究表明 cross-encoder 相比于稠密檢索模型具有更好的性能和領(lǐng)域適應(yīng)能力。但由于其較高的計(jì)算開銷,不太適用于檢索,但檢索模型可從 cross-encoder 中蒸餾知識(shí)以提升性能。
Method
Introduction 部分已介紹本文所提出 GPL 的基本結(jié)構(gòu),此處不再贅述。此處主要介紹本文方法相比于 QGen 的區(qū)別。
QGen 進(jìn)行 query 生成后,使用 MultipleNegativesRanking(MNRL)損失訓(xùn)練檢索模型:
其中 表示 query, 表示 passage, 表示 batch size, 控制 softmax 歸一化的尖銳程度。
QGen 存在一些弊端:MNRL 損失僅考慮了 query 與 passage 之間的粗粒度相關(guān)性;query 生成器可能生成不能被輸入 passage 回答的 query;存在其他passage可能與 query 相關(guān)的情況,即假負(fù)例的問題。
本文使用 cross-encoder 提供的偽標(biāo)簽和 MarginMSE 損失來(lái)訓(xùn)練模型,使稠密檢索模型模仿 query 與正負(fù) passage 之間的得分差異。
其中 ,為稠密檢索模型的得分差 。
MarginMSE 損失解決了兩個(gè)關(guān)鍵問題:當(dāng) query 生成器生成的 query 質(zhì)量較低時(shí),其 cross-encoder 分?jǐn)?shù)也會(huì)比較低,此時(shí)稠密檢索模型不會(huì)使 query 和 passage 在向量空間中過于接近。假負(fù)例會(huì)在cross-encoder中得到高分,相應(yīng)的向量也不會(huì)被拉得很遠(yuǎn)。
Experiments
選擇六個(gè)特定領(lǐng)域來(lái)檢測(cè)模型的領(lǐng)域適應(yīng)能力,包括 FiQA(financial domain), SciFact(scientific papers), BioASQ(biomedical Q&A), TREC-COVID(scientific papers on COVID-19), CQADupStack(12 StackExchange sub-forums), Robust04(news articles)。使用 nDCG@10 作為評(píng)估指標(biāo)。實(shí)驗(yàn)結(jié)果如下表所示,與多個(gè) baseline 相比可見 GPL 的有效性。
Analysis
此部分分析了訓(xùn)練步數(shù)、語(yǔ)料庫(kù)數(shù)量、query 生成、開始 checkpoint 對(duì) GPL 模型的影響。
Conclusion
本文提出 GPL,一種稠密檢索的無(wú)監(jiān)督領(lǐng)域適應(yīng)方法,通過 query 生成模型為目標(biāo)域 passage 生成 qurey 并使用 cross-encoder 構(gòu)造偽標(biāo)簽,克服了以往方法的兩個(gè)重要缺點(diǎn):query 質(zhì)量無(wú)法保證及假負(fù)例的問題。GPL 在所有目標(biāo)數(shù)據(jù)集上的表現(xiàn)超越了之前的方法。
本文還探究了多個(gè)預(yù)訓(xùn)練策略在領(lǐng)域適應(yīng)上的表現(xiàn),ICT 和 MLM 可以帶來(lái)少許提升,TSDAE 可以帶來(lái)較為明顯的提升,其他方法反而對(duì)性能有損。
模型的領(lǐng)域適應(yīng)本質(zhì)上是對(duì)源域訓(xùn)練的模型進(jìn)行修正或補(bǔ)充,因此設(shè)計(jì)與目標(biāo)任務(wù)更接近的預(yù)訓(xùn)練策略或?yàn)槟繕?biāo)任務(wù)構(gòu)造對(duì)模型修正有效的訓(xùn)練數(shù)據(jù)均可以提高模型在目標(biāo)域的表現(xiàn)。
參考文獻(xiàn)
[1] https://arxiv.org/abs/2104.08663
[2] https://aclanthology.org/2021.findings-emnlp.59/
[3] https://aclanthology.org/P19-1612.pdf
[4] https://aclanthology.org/2021.emnlp-main.75.pdf
[5] https://aclanthology.org/2021.emnlp-main.552.pdf
[6] https://aclanthology.org/2021.findings-emnlp.59.pdf
[7] https://arxiv.org/abs/1904.08375
[8] https://aclanthology.org/2021.eacl-main.92.pdf
[9] https://arxiv.org/abs/2110.07581
[10] https://aclanthology.org/2021.naacl-main.203.pdf
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信用卡如何提前还款
- 下一篇: 北京内推 | 美团用户平台NLP中心招聘