日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)

發布時間:2024/10/8 编程问答 77 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者 | 劉璐

學校 |?北京郵電大學

研究方向 |?問題生成與QA

論文標題:

GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval

論文鏈接:

https://arxiv.org/abs/2112.07577

代碼鏈接:

https://github.com/UKPLab/gpl


Abstract

稠密檢索相比于稀疏檢索可以克服 lexical gap,可以得到更好的檢索結果。然而訓練稠密檢索模型往往需要大量的數據。BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [1] 表明領域遷移會極大地影響稠密檢索模型的性能。

本文針對稠密檢索提出了一種先進的無監督領域適應方法 Generative Pseudo Labeling(GPL),使用 query 生成模型與基于 cross-encoder 的匹配模型為目標域構造偽標簽。實驗結果證明了此方法的有效性,且相比于之前的領域遷移方法更加魯棒。

本文還探究了六種近期提出的預訓練方法在稠密檢索領域遷移任務上的表現,只有三種方法有促進作用。其中效果最好的 TSDAE [2] 可以與 GPL 結合,進一步提升模型性能。


Introduction

稠密檢索模型需要大量的訓練數據才可表現優異,研究表明其對領域遷移十分敏感。比如,在 MS MARCO 上訓練的檢索模型在 COVID-19 相關文檔檢索任務中表現很差。MS MARCO 數據集是在 COVID-19 之前創建的,因此它不包括任何與 COVID-19 相關的主題,模型無法學習如何在向量空間中很好地表示該主題。

針對此問題,本文提出 Generative Pseudo Labeling(GPL),具體流程如下圖所示。

1. 首先使用預訓練 T5 模型根據目標域 passage 生成對應的 query;

2. 之后使用稠密檢索模型為每個 query 挖掘負樣本;

3. 最后,使用 cross-encoder 為每個 query-passage 對打分,為目標域稠密檢索模型的訓練構造偽標簽。

流程中使用到的 T5、稠密檢索模型、cross-encoder 均為現有的在 MS MARCO 數據集上預訓練過的模型。


Related Work

3.1 Pre-Training based Domain Adaptation

對于 transformer 模型,最常用的領域適應方法是基于域自適應的預訓練,該方法的基本做法是在使用標簽數據對模型進行微調之前,先使用目標域數據對模型進行預訓練。然而對于檢索任務,目標域標簽數據往往難以獲得,因此需進行零樣本學習。除 MLM(Masked Language Modeling)外,還有一些針對稠密檢索的其他預訓練策略,具體如下。

  • ICT(Latent Retrieval for Weakly Supervised Open Domain Question Answering?[3] , ACL 2019)通過從 passage 中隨機選擇一個句子作為 query,剩余的部分作為配對的 passage,生成 query-passage 對。

  • CD(Condenser: a Pre-training Architecture for Dense Retrieval?[4] , EMNLP 2021)提出針對稠密檢索的預訓練模型 Condenser,改變現有 MLM 的結構以迫使模型學習有意義的 CLS 表示。

  • SimCSE(SimCSE: Simple Contrastive Learning of Sentence Embeddings?[5] , EMNLP 2021)將同一句句子輸入到具有不同 dropout 的網絡中兩次,最小化兩次結果的距離。

  • CT(Semantic Re-tuning with Contrastive Tension, ICLR 2021)與 SimCSE 類似,不同的是其將句子輸入到不同的兩個模型中。

  • TSDAE(TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning?[6] , EMNLP 2021 finding)使用具有瓶頸的去噪自編碼器架構:從輸入文本中刪除單詞,并通過編碼器生成固定大小的 embedding,解碼器須重構原始文本。

ICT、CD 僅被研究用于域內的性能,即在預訓練之后,有大量標簽數據用于后續有監督的微調。SimCSE, CT, TSDAE 僅用于無監督的句子向量學習。直接使用利用這些策略學習到的句子表示用來檢索,其性能遠遠不足。

目前這些預訓練方法是否可以用于稠密檢索的無監督領域適應還不明確。本文首先使用這些這些策略在目標域文本上進行預訓練,之后在 MS MARCO 數據集上微調模型來實現稠密檢索的領域遷移,并探究其效果。

3.2 Query Generation

一些工作通過 query 生成來提升檢索模型的性能。

  • Doc2query(Document Expansion by Query Prediction [7]?)使用預測的查詢進行文檔擴展,之后使用 BM25 來檢索文檔。

  • QGen(Zero-shot Neural Passage Retrieval via Domain-targeted Synthetic Question Generation [8]?, EACL 2021)使用通用領域訓練的query生成器在目標域生成 query 構造合成數據,之后稠密檢索模型根據合成數據從零開始訓練。

盡管 QGen 很有效,訓練檢索模型時損失使用的是批內負樣本的交叉熵損失,這僅提供了粗粒度的相關性,因此限制了模型的性能。本文使用考慮困難樣本的 cross-encoder 提供的偽標簽來提升模型性能。

3.3 Other Methods

  • MoDIR(Zero-Shot Dense Retrieval with Momentum Adversarial Domain Invariant Representations [9])使用域對抗訓練(DAT)用于稠密檢索的無監督領域適應。

  • UDALM(UDALM: Unsupervised Domain Adaptation through Language Modeling [10]?, NAACL 2021)采用多階段訓練,首先在目標域使用 MLM 預訓練,之后采用目標域 MLM 與源域有監督目標進行多任務學習。


3.4 Pseudo Labeling and Cross-Encoders

不同于雙塔式結構,cross-encoder 將 query 和 passage 進行拼接后通過 cross-attention 預測相關性分數,通常用于精排階段。相關研究表明 cross-encoder 相比于稠密檢索模型具有更好的性能和領域適應能力。但由于其較高的計算開銷,不太適用于檢索,但檢索模型可從 cross-encoder 中蒸餾知識以提升性能。


Method

Introduction 部分已介紹本文所提出 GPL 的基本結構,此處不再贅述。此處主要介紹本文方法相比于 QGen 的區別。

QGen 進行 query 生成后,使用 MultipleNegativesRanking(MNRL)損失訓練檢索模型:

其中 表示 query, 表示 passage, 表示 batch size, 控制 softmax 歸一化的尖銳程度。

QGen 存在一些弊端:MNRL 損失僅考慮了 query 與 passage 之間的粗粒度相關性;query 生成器可能生成不能被輸入 passage 回答的 query;存在其他passage可能與 query 相關的情況,即假負例的問題。

本文使用 cross-encoder 提供的偽標簽和 MarginMSE 損失來訓練模型,使稠密檢索模型模仿 query 與正負 passage 之間的得分差異。

其中 ,為稠密檢索模型的得分差 。

MarginMSE 損失解決了兩個關鍵問題:當 query 生成器生成的 query 質量較低時,其 cross-encoder 分數也會比較低,此時稠密檢索模型不會使 query 和 passage 在向量空間中過于接近。假負例會在cross-encoder中得到高分,相應的向量也不會被拉得很遠。


Experiments

選擇六個特定領域來檢測模型的領域適應能力,包括 FiQA(financial domain), SciFact(scientific papers), BioASQ(biomedical Q&A), TREC-COVID(scientific papers on COVID-19), CQADupStack(12 StackExchange sub-forums), Robust04(news articles)。使用 nDCG@10 作為評估指標。實驗結果如下表所示,與多個 baseline 相比可見 GPL 的有效性。


Analysis

此部分分析了訓練步數、語料庫數量、query 生成、開始 checkpoint 對 GPL 模型的影響。

Conclusion

本文提出 GPL,一種稠密檢索的無監督領域適應方法,通過 query 生成模型為目標域 passage 生成 qurey 并使用 cross-encoder 構造偽標簽,克服了以往方法的兩個重要缺點:query 質量無法保證及假負例的問題。GPL 在所有目標數據集上的表現超越了之前的方法。

本文還探究了多個預訓練策略在領域適應上的表現,ICT 和 MLM 可以帶來少許提升,TSDAE 可以帶來較為明顯的提升,其他方法反而對性能有損。

模型的領域適應本質上是對源域訓練的模型進行修正或補充,因此設計與目標任務更接近的預訓練策略或為目標任務構造對模型修正有效的訓練數據均可以提高模型在目標域的表現。

參考文獻

[1] https://arxiv.org/abs/2104.08663

[2] https://aclanthology.org/2021.findings-emnlp.59/

[3] https://aclanthology.org/P19-1612.pdf

[4] https://aclanthology.org/2021.emnlp-main.75.pdf

[5] https://aclanthology.org/2021.emnlp-main.552.pdf

[6] https://aclanthology.org/2021.findings-emnlp.59.pdf

[7] https://arxiv.org/abs/1904.08375

[8] https://aclanthology.org/2021.eacl-main.92.pdf

[9] https://arxiv.org/abs/2110.07581

[10] https://aclanthology.org/2021.naacl-main.203.pdf

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 丁香婷婷深情五月亚洲 | 丰满熟女人妻一区二区三区 | 丰满双乳秘书被老板狂揉捏 | 成品短视频泡芙 | 修女也疯狂3免费观看完整版 | 最近中文字幕在线中文视频 | 亚洲欧美另类自拍 | 精品美女久久 | 超碰在线伊人 | av资源导航 | 五月av综合av国产av | 相亲对象是问题学生动漫免费观看 | 久久久免费毛片 | 老师上课夹震蛋高潮了 | 久久久久国产精品无码免费看 | 欧美午夜一区二区 | 福利电影一区二区三区 | 玖玖爱在线观看 | 成人自拍视频网 | 99国产精品久久久久99打野战 | 99热激情 | 视频在线观看视频 | 婷婷在线播放 | 国产娇小hdxxxx乱 | 久久偷看各类女兵18女厕嘘嘘 | 美女扒开腿让男生捅 | 成人蜜桃视频 | 亚洲欧洲精品一区 | 久久久不卡国产精品一区二区 | av在线激情 | 精品影片一区二区入口 | 欧美自拍区| 91久久精品一区二区 | 人人草人人草 | 天天射视频 | 欧美日韩三级在线观看 | 日韩一级黄 | 就要操av | 视频区小说区图片区 | 大胸奶汁乳流奶水出来h | 日韩乱码人妻无码中文字幕久久 | 一区在线观看 | 国产精品午夜在线观看 | 免费看污视频的网站 | 一级黄色网址 | 在线激情av | 亚洲av无码专区在线播放中文 | 男人的天堂日韩 | 国产伦精品一区二区三区高清版禁 | 久久青青热 | 欧美色图888 | 欧美日韩激情视频 | 性欧美精品 | 亚洲另类色图 | 成人毛毛片 | 国产91精品久久久久 | 久艹在线观看视频 | 国产吞精囗交免费视频网站 | 在线观看精品视频 | 国产牛牛| 在线观看中文字幕码 | 嫩草视频在线观看视频 | 一级网站在线观看 | 性欧美ⅹxxxx极品护士 | 特级新鲜大片片 | 99久久精品国产一区色 | 久久天堂网 | 久久国产人妻一区二区免色戒电影 | jizz日韩| 麻豆传媒视频入口 | 久久国产精品首页 | 亚洲国产一区二区在线 | 成年激情网 | 2025韩国大尺度电影 | 大地资源影视在线播放观看高清视频 | 欧美日韩激情在线一区二区三区 | 日本人妻一区二区三区 | 凹凸av在线 | 久久久久久久国产精品毛片 | 久久aaa| 三级在线观看 | 女性裸体不遮胸图片 | 亚日韩在线 | 永久免费不卡在线观看黄网站 | 国产中文字幕在线视频 | 香蕉视频911 | 亚洲一区二区三区午夜 | 免费在线观看网址入口 | 福利片网址 | 久久久精品人妻一区二区三区四 | 国产精品国产精品国产专区不卡 | 国产一级做a爰片在线看免费 | 快播久久| 欧美亚洲一二三区 | 国产黄色网| 免费黄色一级视频 | 91免费版在线 | 亚洲色图吧 | 午夜视频在线免费 |