日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Back-Training: 用于问题生成和段落检索的全新领域自适应方法

發布時間:2024/10/8 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Back-Training: 用于问题生成和段落检索的全新领域自适应方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者?|?Maple小七

學校?|?北京郵電大學碩士生

研究方向?|?自然語言處理

本文提出了一種新的領域自適應方法:back-training,傳統的 self-training 生成的訓練數據的輸入是真實的,而輸出是生成的,back-training 生成的訓練數據的輸入是生成的,而輸出是真實的,作者通過實驗證明了相比于 self-training,back-training 生成的訓練數據可以在目標域上訓練出性能更好的模型。

論文標題:

Back-Training excels Self-Training at Unsupervised Domain Adaptation of Question Generation and Passage Retrieval

論文鏈接:

https://arxiv.org/abs/2104.08801

代碼鏈接:

https://github.com/McGill-NLP/MLQuestions

引言

構建高質量的垂直領域問答模型往往需要大量的人工標注數據,然而垂直領域的問答對的標注成本通常是非常高的,常常需要標注人員具有一定的領域知識,因此如何借助遷移學習(Transfer Learning)或領域自適應(Domain adaption)的方法來減少甚至消除人工標注成本,在目標域上訓練出泛化能力更好的模型,是一個受到了廣泛關注的問題。

一種最常用的領域自適應方法是 self-training,其基本思路很簡單,就是先在標注數據豐富的源域(source domain)上訓練可以為目標域(target domain)生成標注數據的模型,然后用該模型為目標域生成訓練數據(synthetic data),最后在這些生成的訓練數據上訓練我們想要的模型。為了提升生成數據的質量,通常還會加上一致性檢查(consistency check)和迭代優化(iterative refinement)的訓練技巧。

Back-training

然而遷移學習的效果往往差強人意,self-training 生成的數據并不一定能夠在目標域上訓練出足夠優秀的模型,本文提出了一種新的領域自適應方法:back-training,該方法的思想和機器翻譯中的 back-translation 很相似。

相比于 self-training,back-training 對目標域的無監督數據是有要求的,具體來說,假設我們希望在目標域上訓練出一個問題生成模型 ,那么 self-training 只要求目標域數據包含段落(paragraphs) 就行了,而 back-training 要求目標域數據不僅要有段落 ,還要有問題 ,但段落和問題并不需要對齊。

這樣的假設在實際應用中是很常見的,在一些垂直領域上,段落和問題都相對容易獲得,但對齊的段落和問題卻很難獲得,如果想要人工標注對齊的話,通常需要很強的領域知識。

本文重點關注問題生成(question generation)和段落檢索(passage retrieval) 任務,設源域數據集為 ,目標域數據集為 和 ,注意 和 是沒有對齊的,任務目標是學習出可以在目標域上表現良好的問題生成(QG)模型和段落檢索(IR)模型的參數 。

以問題生成任務為例,self-training 和 back-training 的訓練過程分別是:

  • self-training:首先在源域上訓練一個問題生成模型 ,然后用該模型為目標域的段落 生成問題 ,最后用生成的 來微調 得到最終的問題生成模型 。

  • back-training:首先在源域上訓練一個段落檢索模型 ,然后用該模型為目標域的問題 檢索段落 ,最后用生成的 來微調 得到最終的問題生成模型 。

我們可以發現 self-training 生成的數據為 ,而 back-training 生成的數據為 ,也就是說 self-training 生成的輸入是真實的,但輸出是有噪聲的,而 back-training 生成的輸入是有噪聲的,但輸出是真實的。直觀來看,輸出的真實性比輸入的真實性更為重要,因為輸出直接影響著后續的評估指標。

下面的訓練流程更清晰地展現了 self-training 和 back-training 的差異。

實驗

接下來,作者通過一個具體的任務來驗證了 back-training 相比于 self-training 的優越性。

3.1 數據集

源域數據集采用的是通用領域的 NaturalQuestions 數據集,目標域數據集采用的是作者自制的 MLQuestions 數據集,該數據集包含 35000 條采自 Google Search 的機器學習領域的問題和 50000 個采自 Wikipedia 的機器學習領域的段落,數據采集過程可參考原文。

從下表我們可以看出,這兩個數據集的分布是相當不同的,因此想用無監督的方法在目標域上訓練 QG 或 IR 模型是具有一定的挑戰性的。

3.2?模型

問題生成模型 采用 BART,段落檢索模型 采用 DPR,這兩個模型不用作過多介紹。

3.3 結果

3.3.1 Transfer from Source to Target Domain without Adaptation

如果直接將在 NaturalQuestions 數據集(IID)上訓練的模型用到 MLQuestions 數據集(OOD)上,對應的評估指標通常會掉一大半。

3.3.2?No-adaptation vs self-training vs back-training

下表展示了三種不同的訓練策略給出的模型表現,可以發現 back-training 比起 self-training 有明顯的性能提升。

3.3.3?Qualitative analysis of self-training and back-training

下圖展示了訓練過程中模型從源域遷移至目標域時,在生成數據集和測試數據集上生成問題的困惑度變化曲線,對于 back-training,模型在生成數據集和測試數據集上的困惑度是成正比的,即 back-training 生成的數據和目標域的真實分布更加接近,而 self-training 雖然在生成數據集上取得了較低的困惑度,但在測試數據集上的困惑度反而變高了,這說明 self-training 生成的數據集和真實分布不一樣,生成數據的分布更偏向于源域,因此產生了過擬合。

下圖展示了 self-training 和 back-training 生成數據的置信度分布,可以發現 back-training 生成的數據具有低均值,高方差的特點,這表明生成的數據更富有多樣性,而 self-training 生成的數據則缺少多樣性。

3.3.4?Consistency filters for Self-Training and Back-Training

在 self-training 中,人們通常會設置一個判別模型來過濾掉低置信度的生成樣本。作者嘗試了兩種過濾策略:

  • Self-Consistency:生成模型和判別模型是同一個模型,即過濾掉生成置信度較低的樣本;

  • Cross-Consistency:生成模型和判別模型不同,比如用額外的 QA 模型來判斷 QG 模型生成的 QA 對是否一致,該策略其實就是兩年前谷歌提出的 roundtrip consistency。

由于問題生成和段落檢索是對偶任務,因此這兩種過濾策略其實可以結合起來,再加上常用的 bootstrap 迭代優化,就形成了下圖所示的訓練流程:

3.3.5?Are consistency filters useful?

加入一致性過濾能帶來一定的效果提升,但目前實驗結果還不完整。

3.3.6?Is iterative refinement useful?

迭代優化的訓練過程對 back-training 是有用的,但是對self-training的作用不明顯。

3.3.7?Human Evaluation Results

作者也采用了人工評估的方式來評估不同訓練方法的效果,如下表所示,back-training 在各個評估維度上都有所改進。

3.3.8?Analysis of Question Types

源域和目標域的問題類別分布是不一樣的,從下圖我們可以發現模型生成了很多 Description 類的問題,較少地生成了 Explanation 和 Preference 類問題,這和 NaturalQuestions 數據集和 MLQuestions 數據集的分布差異是強相關的。

結論

back-training 利用到了問題生成任務和段落檢索任務之間的對偶性質,這樣的對偶任務其實并不少見,比如圖像問題生成(Visual Question Generation)和圖像檢索(Image Retrieval)也適用于 back-training,直觀上來說,back-training 相比于 self-training 引入了更多的信息,因此效果遠比 self-training 好,不過這些結論依舊缺乏更嚴謹的理論分析。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

?????稿件基本要求:

? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算

?????投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

????

現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的Back-Training: 用于问题生成和段落检索的全新领域自适应方法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 轻轻草在线视频 | 欧美亚洲福利 | 亚洲AV无码乱码国产精品色欲 | 国产综合视频一区 | 久久99国产精品久久99 | 精品人妻午夜一区二区三区四区 | 久久久欧美 | 天堂资源在线观看 | 中文字幕在线视频一区 | 久久免费久久 | 做暧暧视频在线观看 | 不卡一区二区在线视频 | 免费看黄禁片 | 青青草老司机 | 久久只有这里有精品 | 91av看片 | 法国空姐在线观看免费 | 亚洲欧洲日本在线 | 精品久久久久久一区二区里番 | 韩国性猛交╳xxx乱大交 | 欧美精品黄 | 亚洲丝袜av | 美女网站免费观看视频 | 国产欧美日韩另类 | 韩国伦理片在线播放 | 色多多av | 日韩最新中文字幕 | 国产精品手机视频 | 在线二区| 田中瞳av | 日韩成人免费 | 三级无遮挡 | 欧美日韩一级在线观看 | 国产精品毛片一区二区在线看 | aaa一区二区三区 | 天堂在线资源网 | 欧美在线二区 | 国产精品高潮呻吟久久 | 中文字幕永久视频 | 欧美夜夜 | 欧美成人精品在线观看 | 日本黄a | 欧美一区二区三区在线免费观看 | 男人深夜影院 | 91欧美激情一区二区三区成人 | 欧美极品jizzhd欧美仙踪林 | 亚洲av成人精品毛片 | 久久久久麻豆v国产精华液好用吗 | 精品一区二区三区免费视频 | 国产女18毛片多18精品 | 成人av资源在线 | 亚洲一区区| 国产二区精品 | 欧美日韩一区二区三区在线电影 | 成人精品网址 | 男女爽爽| 在线一区二区三区视频 | av一级 | 中文字幕一级 | 日韩一区二区不卡 | 欧美久久久久久久久久久久 | 欧美性猛交xxx乱大交3 | 丰满少妇xoxoxo视频 | 国产免费91 | 蜜桃视频色 | 欧美日韩一二区 | www.999av| 激情免费网站 | 日本亚洲一区二区三区 | 欧美激情在线免费观看 | 操综合网 | 人人草人人干 | 日本色www | youjizz国产 | 日本亚洲一区 | 成年视频在线 | 久草网站| 人人做人人爽人人爱 | 波多野结衣av片 | 久久夜色精品国产欧美乱极品 | 波多野结衣亚洲 | 亚洲国产视频一区二区三区 | 久操青青 | 日本寂寞少妇 | 国产无套内射普通话对白 | 一级黄视频| 夜夜操免费视频 | 日韩视频免费在线播放 | 亚洲欧美国产精品专区久久 | 麻豆传媒在线视频 | 打白嫩屁屁网站视频短裙 | 免费av观看网址 | 韩国一区二区三区在线观看 | 天啪| 波多野结衣福利 | 草av在线| 伊人狠狠干 | 福利片av| 欧美日韩免费高清 |