用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)
?作者 | 劉璐
學校 |?北京郵電大學
研究方向 |?問題生成與QA
論文標題:
GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval
論文鏈接:
https://arxiv.org/abs/2112.07577
代碼鏈接:
https://github.com/UKPLab/gpl
Abstract
稠密檢索相比于稀疏檢索可以克服 lexical gap,可以得到更好的檢索結果。然而訓練稠密檢索模型往往需要大量的數據。BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [1] 表明領域遷移會極大地影響稠密檢索模型的性能。
本文針對稠密檢索提出了一種先進的無監督領域適應方法 Generative Pseudo Labeling(GPL),使用 query 生成模型與基于 cross-encoder 的匹配模型為目標域構造偽標簽。實驗結果證明了此方法的有效性,且相比于之前的領域遷移方法更加魯棒。
本文還探究了六種近期提出的預訓練方法在稠密檢索領域遷移任務上的表現,只有三種方法有促進作用。其中效果最好的 TSDAE [2] 可以與 GPL 結合,進一步提升模型性能。
Introduction
稠密檢索模型需要大量的訓練數據才可表現優異,研究表明其對領域遷移十分敏感。比如,在 MS MARCO 上訓練的檢索模型在 COVID-19 相關文檔檢索任務中表現很差。MS MARCO 數據集是在 COVID-19 之前創建的,因此它不包括任何與 COVID-19 相關的主題,模型無法學習如何在向量空間中很好地表示該主題。
針對此問題,本文提出 Generative Pseudo Labeling(GPL),具體流程如下圖所示。
1. 首先使用預訓練 T5 模型根據目標域 passage 生成對應的 query;
2. 之后使用稠密檢索模型為每個 query 挖掘負樣本;
3. 最后,使用 cross-encoder 為每個 query-passage 對打分,為目標域稠密檢索模型的訓練構造偽標簽。
流程中使用到的 T5、稠密檢索模型、cross-encoder 均為現有的在 MS MARCO 數據集上預訓練過的模型。
Related Work
3.1 Pre-Training based Domain Adaptation
對于 transformer 模型,最常用的領域適應方法是基于域自適應的預訓練,該方法的基本做法是在使用標簽數據對模型進行微調之前,先使用目標域數據對模型進行預訓練。然而對于檢索任務,目標域標簽數據往往難以獲得,因此需進行零樣本學習。除 MLM(Masked Language Modeling)外,還有一些針對稠密檢索的其他預訓練策略,具體如下。
ICT(Latent Retrieval for Weakly Supervised Open Domain Question Answering?[3] , ACL 2019)通過從 passage 中隨機選擇一個句子作為 query,剩余的部分作為配對的 passage,生成 query-passage 對。
CD(Condenser: a Pre-training Architecture for Dense Retrieval?[4] , EMNLP 2021)提出針對稠密檢索的預訓練模型 Condenser,改變現有 MLM 的結構以迫使模型學習有意義的 CLS 表示。
SimCSE(SimCSE: Simple Contrastive Learning of Sentence Embeddings?[5] , EMNLP 2021)將同一句句子輸入到具有不同 dropout 的網絡中兩次,最小化兩次結果的距離。
CT(Semantic Re-tuning with Contrastive Tension, ICLR 2021)與 SimCSE 類似,不同的是其將句子輸入到不同的兩個模型中。
TSDAE(TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning?[6] , EMNLP 2021 finding)使用具有瓶頸的去噪自編碼器架構:從輸入文本中刪除單詞,并通過編碼器生成固定大小的 embedding,解碼器須重構原始文本。
ICT、CD 僅被研究用于域內的性能,即在預訓練之后,有大量標簽數據用于后續有監督的微調。SimCSE, CT, TSDAE 僅用于無監督的句子向量學習。直接使用利用這些策略學習到的句子表示用來檢索,其性能遠遠不足。
目前這些預訓練方法是否可以用于稠密檢索的無監督領域適應還不明確。本文首先使用這些這些策略在目標域文本上進行預訓練,之后在 MS MARCO 數據集上微調模型來實現稠密檢索的領域遷移,并探究其效果。
3.2 Query Generation
一些工作通過 query 生成來提升檢索模型的性能。
Doc2query(Document Expansion by Query Prediction [7]?)使用預測的查詢進行文檔擴展,之后使用 BM25 來檢索文檔。
QGen(Zero-shot Neural Passage Retrieval via Domain-targeted Synthetic Question Generation [8]?, EACL 2021)使用通用領域訓練的query生成器在目標域生成 query 構造合成數據,之后稠密檢索模型根據合成數據從零開始訓練。
盡管 QGen 很有效,訓練檢索模型時損失使用的是批內負樣本的交叉熵損失,這僅提供了粗粒度的相關性,因此限制了模型的性能。本文使用考慮困難樣本的 cross-encoder 提供的偽標簽來提升模型性能。
3.3 Other Methods
MoDIR(Zero-Shot Dense Retrieval with Momentum Adversarial Domain Invariant Representations [9])使用域對抗訓練(DAT)用于稠密檢索的無監督領域適應。
UDALM(UDALM: Unsupervised Domain Adaptation through Language Modeling [10]?, NAACL 2021)采用多階段訓練,首先在目標域使用 MLM 預訓練,之后采用目標域 MLM 與源域有監督目標進行多任務學習。
3.4 Pseudo Labeling and Cross-Encoders
不同于雙塔式結構,cross-encoder 將 query 和 passage 進行拼接后通過 cross-attention 預測相關性分數,通常用于精排階段。相關研究表明 cross-encoder 相比于稠密檢索模型具有更好的性能和領域適應能力。但由于其較高的計算開銷,不太適用于檢索,但檢索模型可從 cross-encoder 中蒸餾知識以提升性能。
Method
Introduction 部分已介紹本文所提出 GPL 的基本結構,此處不再贅述。此處主要介紹本文方法相比于 QGen 的區別。
QGen 進行 query 生成后,使用 MultipleNegativesRanking(MNRL)損失訓練檢索模型:
其中 表示 query, 表示 passage, 表示 batch size, 控制 softmax 歸一化的尖銳程度。
QGen 存在一些弊端:MNRL 損失僅考慮了 query 與 passage 之間的粗粒度相關性;query 生成器可能生成不能被輸入 passage 回答的 query;存在其他passage可能與 query 相關的情況,即假負例的問題。
本文使用 cross-encoder 提供的偽標簽和 MarginMSE 損失來訓練模型,使稠密檢索模型模仿 query 與正負 passage 之間的得分差異。
其中 ,為稠密檢索模型的得分差 。
MarginMSE 損失解決了兩個關鍵問題:當 query 生成器生成的 query 質量較低時,其 cross-encoder 分數也會比較低,此時稠密檢索模型不會使 query 和 passage 在向量空間中過于接近。假負例會在cross-encoder中得到高分,相應的向量也不會被拉得很遠。
Experiments
選擇六個特定領域來檢測模型的領域適應能力,包括 FiQA(financial domain), SciFact(scientific papers), BioASQ(biomedical Q&A), TREC-COVID(scientific papers on COVID-19), CQADupStack(12 StackExchange sub-forums), Robust04(news articles)。使用 nDCG@10 作為評估指標。實驗結果如下表所示,與多個 baseline 相比可見 GPL 的有效性。
Analysis
此部分分析了訓練步數、語料庫數量、query 生成、開始 checkpoint 對 GPL 模型的影響。
Conclusion
本文提出 GPL,一種稠密檢索的無監督領域適應方法,通過 query 生成模型為目標域 passage 生成 qurey 并使用 cross-encoder 構造偽標簽,克服了以往方法的兩個重要缺點:query 質量無法保證及假負例的問題。GPL 在所有目標數據集上的表現超越了之前的方法。
本文還探究了多個預訓練策略在領域適應上的表現,ICT 和 MLM 可以帶來少許提升,TSDAE 可以帶來較為明顯的提升,其他方法反而對性能有損。
模型的領域適應本質上是對源域訓練的模型進行修正或補充,因此設計與目標任務更接近的預訓練策略或為目標任務構造對模型修正有效的訓練數據均可以提高模型在目標域的表現。
參考文獻
[1] https://arxiv.org/abs/2104.08663
[2] https://aclanthology.org/2021.findings-emnlp.59/
[3] https://aclanthology.org/P19-1612.pdf
[4] https://aclanthology.org/2021.emnlp-main.75.pdf
[5] https://aclanthology.org/2021.emnlp-main.552.pdf
[6] https://aclanthology.org/2021.findings-emnlp.59.pdf
[7] https://arxiv.org/abs/1904.08375
[8] https://aclanthology.org/2021.eacl-main.92.pdf
[9] https://arxiv.org/abs/2110.07581
[10] https://aclanthology.org/2021.naacl-main.203.pdf
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)的全部內容,希望文章能夠幫你解決所遇到的問題。