日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型提效的另一条路:数据增强

發布時間:2025/3/8 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模型提效的另一条路:数据增强 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

NLP提效,除了選擇合適的模型,就是數據增強了

作者:十方,公眾號:煉丹筆記

如何用有限的數據做出最佳的效果?除了一個優秀的模型以外,最有效的方法就是做數據增強了。自然語言處理(NLP)不同于圖像,可以做裁剪,反轉,縮放等操作來增強,而是有文本特別的處理方式。這篇論文《CODA: CONTRAST-ENHANCED AND DIVERSITYPROMOTING DATA AUGMENTATION FOR NATURAL LANGUAGE UNDERSTANDING》提出的CoDA方案號稱能在Roberta-large上平均提升2.2%的效果,那我們就來看看這篇到底提出了哪些方法吧。

數據增強

這篇論文主要探討如何在文本分類做數據增強,當然這些數據增強的方法一樣可以用在其他NLP任務中。

一句話概括數據增強,就是把原有訓練集合:

通過某種變換,轉變成新的訓練集合:

我們用這兩個集合的數據,去學習參數:

參考以往論文給出的數據增強的方法,可以概括為下圖:

back-translate(回譯)很容易理解,如上圖,英語翻譯成德語又翻譯回英語,作為訓練樣本。

Adversarial Training(對抗訓練):對抗訓練方法被用于文本數據提升模型的魯棒性。對抗訓練不需要任何額外的領域知識,只需要模型本身產出樣本,這些樣本都是模型最容易預測錯的樣本。下面是兩個最常用的對抗訓練的loss。

其實就是要找到模型認為相似的樣本加入到模型中訓練,但是在實際使用時,我們很難獲得準確的對抗樣本,因此可以用模型梯度構建相似的對抗樣本,如下公式所示:

提升多樣性

上述數據增強方法思路其實都很一致,找到已有樣本的相似樣本,訓練目標也較為一致。這時候思考一個問題,不同的數據增強方法是等同的,還是互補的呢?是否可以混合所有數據增強方法提升模型泛化能力呢?CV上已經證明是有效的,應用到文本就難多了,對文本輕微的可能會帶來語意上的巨大差異。

本文提出了多種混合數據增強的方法,如下圖所示:

這3種其實沒啥好說的,字面意思。

(a)就是在一個mini-batch中,采用一個隨機的數據增強方法把x變為x',

(b)是混合插值,是對兩個樣本的embedding ei和ej做操作,其中a是符合beta分布。

(c)就是把x用一系列的數據增強方法變成x'。

值得注意的是sequential stacking的方式,牽涉到各個增強方法的順序,并不是所有順序都是合理的,比如我們不可能在生成對抗訓練樣本后,去做回譯,正確的融合方式如下:

這種融合方式,可以簡單的用下面的公式表示:

先用xi做回譯得到xi',然后找到模型最難分辨的對抗樣本,最后計算原樣本和對抗樣本的loss。我們可以看到loss有3項,第一項就是正常的交叉熵,第二項是對抗loss,第三項是一致性的loss,即樣本和對抗樣本理應相似度較高,這里RCS定義如下:

對抗正則化

我們看上述loss的3項,反應了我們對抗樣本xi要和xi'預估結果要一致,然而卻沒反應xi'要和xj不一致。為了充分利用數據增強后的數據,論文又提出了對抗學習目標。考慮到xi'是由xi生成的,因此模型應該學到每個數據增強樣本的“爸爸”是誰。如下圖所示:

memory是用來存儲歷史embeding的,作為大量的負樣本。為了避免encoder更新過快(會導致embeding不一致),因此提出momentum key encoder,該 encoder不是通過梯度更新參數的,而是通過下式:

當有一個樣本xi,增強樣本xi',我們會得到3個embedding:

新的對抗學習目標如下式:

其中t是溫度,M就是memory bank,該式表達的意思也很簡單,就是樣本xi和增強樣本xi'和momentum key encoder產出的ki的相似度,要高于memory bank的負樣本。和之前的loss一整合,就成了我們最終的學習目標:

實驗

多種增強方式混搭的效果比較好,采用回譯+對抗訓練stack方式取得了最佳效果。關于調參的細節可以看原文。我們著重看下采用數據增強帶來的模型提效增益,從下圖可以看到,用CoDA的效果,還是很顯著的:

更多干貨,請關注微信公眾號:煉丹筆記

總結

以上是生活随笔為你收集整理的模型提效的另一条路:数据增强的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 91女神在线 | 99中文字幕 | 久久桃色| 97在线观视频免费观看 | 91好色先生tv | 人人超碰在线 | 欧美性生交大片免费看app麻豆 | 波多野结衣一区二区三区中文字幕 | 亚洲性图视频 | 亚洲欧美视频一区 | 涩涩视频免费观看 | 日本熟妇一区二区三区 | 日本三级视频在线 | 色接久久 | 天堂成人在线视频 | 古装做爰无遮挡三级聊斋艳谭 | 亚洲制服av | 最新av电影网站 | 国产好片无限资源 | 久久影视大全 | 成人免费网站视频 | 又黄又爽无遮挡 | 国产毛片基地 | 国产精品电影一区 | 亚洲aa视频| 91亚洲一线产区二线产区 | 精品国产乱码一区二区三区99 | 小视频在线看 | 一级片小视频 | 老司机成人免费视频 | 三年在线观看视频 | 欧美一级在线 | 免费视频毛片 | 香蕉在线视频播放 | 欧美激情性生活 | 亚洲AV无码成人精品区麻豆 | 91超碰人人 | 一卡二卡精品 | 99艹| 好吊色这里只有精品 | 日本美女性高潮 | 一区二区三区不卡在线观看 | 亚洲制服丝袜一区 | 成人区人妻精品一区二 | 天天干天天添 | а√天堂www在线天堂小说 | 99久久久国产精品无码性 | xxxx性视频| 天堂久久爱 | 欧洲成人在线观看 | 久久综合色88 | 亚洲欧美中文日韩在线v日本 | 边啃奶头边躁狠狠躁 | 五月天爱爱 | 中文字幕精品视频 | 欧美性猛交xxxx乱大交俱乐部 | 国产精品入口66mio | 日本国产亚洲 | 九九这里只有精品视频 | 中文字幕一二三区 | xxx黄色片| 强开乳罩摸双乳吃奶羞羞www | 成人两性视频 | 91日韩中文字幕 | 亚洲国产第一页 | www黄色av| 欧美黑粗硬 | 国产制服丝袜在线 | 亚洲黄在线观看 | 成人区精品一区二区婷婷 | 婷婷色基地 | 久久影 | 男女野外做受全过程 | 国产又粗又硬又长又爽的演员 | 国产一区2区 | 浮力影院国产第一页 | 亚洲综合狠狠 | 偷拍老头老太高潮抽搐 | 免费黡色av | 玩弄人妻少妇500系列视频 | 成人精品网 | 日韩中文字幕一区二区三区四区 | 在线中文字幕日韩 | 女人性高潮视频 | 告诉我真相俄剧在线观看 | 丰满少妇xoxoxo视频 | 永久免费视频网站直接看 | 成年人免费在线观看视频网站 | 美日韩一级 | 精品亚洲天堂 | 亚洲AV成人无码网站天堂久久 | 绿帽视频 | 精品动漫一区二区三区的观看方式 | www免费视频 | 黄色片网站视频 | 亚洲福利在线观看 | 国产精品午夜福利视频234区 | 大战熟女丰满人妻av | 久久国产网站 |