日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

ICML2021 | Self-Tuning: 如何减少对标记数据的需求?

發(fā)布時(shí)間:2024/7/5 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ICML2021 | Self-Tuning: 如何减少对标记数据的需求? 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | 王希梅,高敬涵,龍明盛,王建民
源 | THUML

本文介紹ICML2021的中稿論文:Self-Tuning for Data-Efficient Deep Learning,就“如何減少對(duì)標(biāo)記數(shù)據(jù)的需求”這一重要問題給出了我們的思考。

論文標(biāo)題:
Self-Tuning for Data-Efficient Deep Learning

論文鏈接:
http://ise.thss.tsinghua.edu.cn/~mlong/doc/Self-Tuning-for-Data-Efficient-Deep-Learning-icml21.pdf

GitHub鏈接:
https://github.com/thuml/Self-Tuning

引言

大規(guī)模標(biāo)記數(shù)據(jù)集推動(dòng)深度學(xué)習(xí)獲得了廣泛應(yīng)用,然而,在現(xiàn)實(shí)場(chǎng)景中收集足量的標(biāo)記數(shù)據(jù)往往耗時(shí)耗力。為了減少對(duì)標(biāo)記數(shù)據(jù)的需求,半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)的研究者們從兩個(gè)不同的視角給出了自己的思考:半監(jiān)督學(xué)習(xí)(Semi-supervised Learning, SSL)側(cè)重于同時(shí)探索標(biāo)記數(shù)據(jù)和無(wú)標(biāo)記數(shù)據(jù),通過挖掘無(wú)標(biāo)記數(shù)據(jù)的內(nèi)在結(jié)構(gòu)增強(qiáng)模型的泛化能力,而遷移學(xué)習(xí)(Transfer Learning, TL)旨在將預(yù)訓(xùn)練模型微調(diào)到目標(biāo)數(shù)據(jù)中,也就是我們耳熟能詳?shù)?strong>預(yù)訓(xùn)練-微調(diào)范式。

半監(jiān)督學(xué)習(xí)的最新進(jìn)展,例如UDA,FixMatch等方法,證明了自訓(xùn)練(Self-Training)的巨大潛力。通過弱增廣樣本為強(qiáng)增廣樣本生成偽標(biāo)記(pseudo-label),FixMatch就可以在Cifar10、SVHN、STL-10數(shù)據(jù)集上取得了令人耳目一新的效果。然而,細(xì)心的讀者會(huì)發(fā)現(xiàn),上述數(shù)據(jù)集都是類別數(shù)較少的簡(jiǎn)單數(shù)據(jù)集(都是10類),當(dāng)類別數(shù)增加到100時(shí),FixMatch這種從頭開始訓(xùn)練(train from scratch)的自訓(xùn)練方法的表現(xiàn)就差強(qiáng)人意了。進(jìn)一步地,我們?cè)贑UB200上將類別數(shù)從10逐漸增加到200時(shí),發(fā)現(xiàn)FixMatch的準(zhǔn)確率隨著偽標(biāo)簽的準(zhǔn)確率的下降而快速下降。這說(shuō)明,隨著類別數(shù)的增加,偽標(biāo)簽的質(zhì)量逐漸下降,而自訓(xùn)練的模型也被錯(cuò)誤的偽標(biāo)簽所誤導(dǎo),從而難以在測(cè)試數(shù)據(jù)集上取得可觀的效果。這一現(xiàn)象,被前人總結(jié)為自訓(xùn)練的確認(rèn)偏差(confirmation bias)問題,說(shuō)明Self-training雖然是良藥,偶爾卻有毒。

遷移學(xué)習(xí)在計(jì)算機(jī)視覺和自然語(yǔ)言處理中被廣泛使用,預(yù)訓(xùn)練-微調(diào)(fine-tuning)的范式也比傳統(tǒng)的領(lǐng)域適應(yīng)(domain adaptation)約束更少,更具落地價(jià)值。然而,現(xiàn)有的遷移學(xué)習(xí)方法專注于從不同角度挖掘預(yù)訓(xùn)練模型和標(biāo)記數(shù)據(jù),卻對(duì)更為容易獲取的無(wú)標(biāo)記數(shù)據(jù)熟視無(wú)睹。以遷移學(xué)習(xí)的最新方法Co-Tuning為例,它通過學(xué)習(xí)源領(lǐng)域類別和目標(biāo)領(lǐng)域類別的映射關(guān)系,實(shí)現(xiàn)了預(yù)訓(xùn)練模型參數(shù)的完全遷移。然而,因?yàn)閮H僅將預(yù)訓(xùn)練模型遷移到標(biāo)記數(shù)據(jù)中,Co-Tuning容易過擬合到有限的標(biāo)記數(shù)據(jù)上,測(cè)試準(zhǔn)確率隨著標(biāo)記數(shù)據(jù)比例的減少而迅速下降,我們將這一現(xiàn)象總結(jié)為模型漂移(model shift)問題。

為了擺脫遷移學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的困境,我們提出了一種稱為數(shù)據(jù)高效深度學(xué)習(xí)(data-efficient deep learning)的新場(chǎng)景, 通過同時(shí)挖掘預(yù)訓(xùn)練模型和無(wú)標(biāo)記數(shù)據(jù)的知識(shí),使他們的潛力得到充分釋放。這可能是遷移學(xué)習(xí)在工業(yè)界最為現(xiàn)實(shí)的落地場(chǎng)景:當(dāng)我們?cè)噲D獲得目標(biāo)領(lǐng)域的一個(gè)優(yōu)秀模型時(shí),源領(lǐng)域的預(yù)訓(xùn)練模型和目標(biāo)領(lǐng)域的無(wú)標(biāo)記數(shù)據(jù)幾乎唾手可得。同時(shí),為了解決前述的確認(rèn)偏差和模型漂移問題,我們提出了一種稱為Self-Tuning的新方法,將標(biāo)記數(shù)據(jù)和無(wú)標(biāo)記數(shù)據(jù)的探索與預(yù)訓(xùn)練模型的遷移融為一體,以及一種通用的偽標(biāo)簽組對(duì)比機(jī)制(Pseudo Group Contrast),從而減輕對(duì)偽標(biāo)簽的依賴,提高對(duì)偽標(biāo)簽的容忍度。在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)表明,Self-Tuning遠(yuǎn)遠(yuǎn)優(yōu)于半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)的同類方法。例如,在標(biāo)簽比例為15%的Stanford-Cars數(shù)據(jù)集上,Self-Tuning的測(cè)試精度比f(wàn)ine-tuning幾乎提高了一倍

如何解決確認(rèn)偏差問題?

為了找出自訓(xùn)練的確認(rèn)偏差(confirmation bias)問題的根源,我們首先分析了偽標(biāo)簽(pseudo-label)廣泛采用的交叉熵?fù)p失函數(shù)(Cross-Entropy, CE):

其中,是輸入生成的偽標(biāo)簽, 而是模型對(duì)于樣本。通常地,大多數(shù)自訓(xùn)練方法都會(huì)針對(duì)confidence做一個(gè)閾值過濾,只有大于閾值 (比如FixMatch中設(shè)置了0.95的閾值)的樣本的預(yù)測(cè)標(biāo)簽才會(huì)被視為合格的偽標(biāo)簽加入模型訓(xùn)練。然而,如圖2所示,由于交叉熵?fù)p失函數(shù)專注于學(xué)習(xí)不同類別的分類面,如果某些偽標(biāo)簽存在錯(cuò)誤,通過交叉熵?fù)p失函數(shù)訓(xùn)練的模型就會(huì)輕易地被錯(cuò)誤的偽標(biāo)簽所誤導(dǎo)。

為了解決交叉熵?fù)p失函數(shù)的類別鑒別(class discrimination)特性對(duì)自訓(xùn)練帶來(lái)的挑戰(zhàn),最近取得突破進(jìn)展的基于樣本鑒別(sample discrimination)思想的對(duì)比學(xué)習(xí)損失函數(shù)吸引了我們的注意。給定由輸入生成的查詢樣本,在不同數(shù)據(jù)增廣下生成的副本,以及個(gè)不同輸入生成的負(fù)樣本,則通過內(nèi)積度量相似性的對(duì)比學(xué)習(xí)(Constrastive Learning, CL)損失函數(shù)可以定義為

可以看出,對(duì)比學(xué)習(xí)旨在最大化同一樣本在兩個(gè)不同數(shù)據(jù)增廣下的表征相似性,而最小化不同樣本間的表征相似性,從而實(shí)現(xiàn)樣本鑒別,挖掘數(shù)據(jù)中隱藏的流形結(jié)構(gòu)。這種設(shè)計(jì)與偽標(biāo)簽無(wú)關(guān),天然地不受錯(cuò)誤的偽標(biāo)簽的影響。然而,標(biāo)準(zhǔn)的對(duì)比學(xué)習(xí)損失函數(shù)未能將標(biāo)簽和偽標(biāo)簽嵌入到模型訓(xùn)練中,從而使有用的鑒別信息束之高閣。

為了解決這一挑戰(zhàn),我們提出了一種通用的偽標(biāo)簽組對(duì)比機(jī)制(Pseudo Group Contrast, PGC)。對(duì)于任何一個(gè)查詢樣本,它的偽標(biāo)簽用表示。PGC將具有相同偽標(biāo)簽()的樣本都視為正樣本,而具有不同偽標(biāo)簽()的樣本則組成了負(fù)樣本,從而最大化查詢樣本與具有相同偽標(biāo)簽的正樣本的表征相似性,實(shí)現(xiàn)偽標(biāo)簽的組對(duì)比。

那么,為什么PGC機(jī)制就可以提高對(duì)錯(cuò)誤的偽標(biāo)簽的容忍度呢?我們認(rèn)為,這是因?yàn)镻GC采用了具有競(jìng)爭(zhēng)機(jī)制的softmax函數(shù),同一偽標(biāo)簽下的正樣本會(huì)互相競(jìng)爭(zhēng)。如果正樣本的偽標(biāo)簽是錯(cuò)誤的,這些偽標(biāo)簽的樣本也會(huì)在競(jìng)爭(zhēng)中落敗,因?yàn)槟切┚哂姓_偽標(biāo)簽的正例樣本的表征與查詢樣本的表征更相似。這樣的話,模型在訓(xùn)練過程中會(huì)更多地受到正確的偽標(biāo)簽的影響,而不是像交叉熵?fù)p失函數(shù)那樣直接地受到錯(cuò)誤的偽標(biāo)簽的誤導(dǎo)。我們?cè)贑UB數(shù)據(jù)集上的分析實(shí)驗(yàn)也證明了這一點(diǎn):1. 在模型訓(xùn)練伊始,Self-Tuning和FixMatch具有相似的偽標(biāo)簽準(zhǔn)確率,但是隨著模型逐漸趨于收斂,Self-Tuning的測(cè)試集準(zhǔn)確率明顯高于FixMatch。2. 在具有不同類別數(shù)的CUB數(shù)據(jù)集上,Self-Tuning的測(cè)試準(zhǔn)確率始終高于偽標(biāo)簽準(zhǔn)確率,而FixMatch的測(cè)試準(zhǔn)確率被偽標(biāo)簽準(zhǔn)確率給限制住了。

如何解決模型漂移問題?

如前所述,當(dāng)我們只在有限的標(biāo)記數(shù)據(jù)集上微調(diào)預(yù)訓(xùn)練模型時(shí),模型漂移問題往往難以避免。為了解決這個(gè)問題,近期發(fā)表的一篇名為SimCLRv2的論文提出可以綜合利用預(yù)訓(xùn)練模型、標(biāo)記數(shù)據(jù)和無(wú)標(biāo)記數(shù)據(jù)的信息。他們給出了一個(gè)有趣的解決方案:首先在標(biāo)記數(shù)據(jù)集()上微調(diào)預(yù)訓(xùn)練模型(),繼而在無(wú)標(biāo)記數(shù)據(jù)集()上進(jìn)行知識(shí)蒸餾。然而,通過這一從到再到的“序列化”方式,微調(diào)后的模型依然傾向于向有限的標(biāo)記數(shù)據(jù)偏移。我們認(rèn)為,應(yīng)該將標(biāo)記和未標(biāo)記數(shù)據(jù)的探索與預(yù)訓(xùn)練模型的遷移統(tǒng)一起來(lái)。

與SimCLRv2的“序列化”方式不同,我們提出了一種“一體化”的形式來(lái)解決模型漂移問題。首先,與半監(jiān)督學(xué)習(xí)從零開始訓(xùn)練模型的通用實(shí)踐不同,Self-Tuning的模型起點(diǎn)是一個(gè)相對(duì)準(zhǔn)確的大規(guī)模預(yù)訓(xùn)練模型,通過更準(zhǔn)確的初始化模型來(lái)提供一個(gè)更好的隱式正則。同時(shí),預(yù)訓(xùn)練模型的知識(shí)將并行地流入標(biāo)記數(shù)據(jù)和無(wú)標(biāo)記數(shù)據(jù)中,標(biāo)記數(shù)據(jù)和無(wú)標(biāo)記數(shù)據(jù)產(chǎn)生的梯度也會(huì)同時(shí)更新模型參數(shù)。這種“一體化”的形式有利于同時(shí)探索標(biāo)記數(shù)據(jù)的判別信息和無(wú)標(biāo)記數(shù)的內(nèi)在結(jié)構(gòu),大大緩解模型漂移的挑戰(zhàn)。

另一方面,在對(duì)比學(xué)習(xí)中,負(fù)樣本的規(guī)模越大,模型的效果往往越好。與MoCo類似,我們也通過引入隊(duì)列的方式將負(fù)樣本規(guī)模與批量大小(batch-size)解耦,使得負(fù)樣本規(guī)模可以遠(yuǎn)大于批量大小。另一方面,隊(duì)列的方式可以保證每次對(duì)比時(shí),每個(gè)偽類下的負(fù)樣本數(shù)目恒定,不受每個(gè)minibatch隨機(jī)采樣的影響。與標(biāo)準(zhǔn)的對(duì)比學(xué)習(xí)不同的是,由于偽標(biāo)簽的引入,PGC需要維護(hù)C個(gè)隊(duì)列,其中C是類別數(shù)。在每次模型迭代中,對(duì)于無(wú)標(biāo)記樣本,將根據(jù)他們的偽標(biāo)簽漸進(jìn)地替換對(duì)應(yīng)隊(duì)列里面最早的樣本。而對(duì)于標(biāo)記數(shù)據(jù),因?yàn)樗麄兲烊坏負(fù)碛袦?zhǔn)確的標(biāo)簽,則可以根據(jù)他們的標(biāo)簽來(lái)更新對(duì)應(yīng)的隊(duì)列。值得注意的是,我們?cè)跇?biāo)記數(shù)據(jù)和無(wú)標(biāo)記數(shù)據(jù)間共享了這些隊(duì)列。這一設(shè)計(jì)的好處在于:將標(biāo)記數(shù)據(jù)中寶貴的準(zhǔn)確標(biāo)簽嵌入到共享隊(duì)列中,從而提高了無(wú)標(biāo)記數(shù)據(jù)的候選樣本的偽標(biāo)簽準(zhǔn)確性。

實(shí)驗(yàn)

在實(shí)驗(yàn)部分,我們?cè)?種數(shù)據(jù)集、3種標(biāo)記數(shù)據(jù)比例和4種預(yù)訓(xùn)練模型下,測(cè)試了Self-Tuning的效果,同時(shí)與5種主流遷移學(xué)習(xí)方法、6種主流半監(jiān)督學(xué)習(xí)方法以及他們的至強(qiáng)組合進(jìn)行了充分的對(duì)比。

遷移學(xué)習(xí)的Benchmark

我們首先在遷移學(xué)習(xí)的常用數(shù)據(jù)集CUB-200-2011, Stanford Cas和FGVC Aircraft下進(jìn)行實(shí)驗(yàn),將標(biāo)記數(shù)據(jù)的比例依次設(shè)置為15%,30%和50%,采用ResNet-50作為預(yù)訓(xùn)練模型。結(jié)果顯示,Self-Tuning大幅領(lǐng)先于現(xiàn)有方法,例如,在標(biāo)簽比例為15%的Stanford-Cars數(shù)據(jù)集上,Self-Tuning的測(cè)試精度比f(wàn)ine-tuning幾乎提高了一倍

半監(jiān)督學(xué)習(xí)的Benchmark

在半監(jiān)督學(xué)習(xí)的主流數(shù)據(jù)集CIFAR-100、CIFAR-10、SVHN和STL-10中,我們采用了類別數(shù)最多、最困難的CIFAR-100數(shù)據(jù)集。由于在ImageNet上預(yù)訓(xùn)練的WRN-28-8模型尚未公開,我們采用了參數(shù)少得多的EfficientNet-B2模型。實(shí)驗(yàn)結(jié)果表明,預(yù)訓(xùn)練模型的引入對(duì)于半監(jiān)督學(xué)習(xí)有如虎添翼的效果。同時(shí),由于采用了對(duì)偽標(biāo)簽依賴更小的PGC損失函數(shù),Self-Tuning充分挖掘了預(yù)訓(xùn)練模型、標(biāo)記數(shù)據(jù)和無(wú)標(biāo)記數(shù)據(jù)的所有信息,在各種實(shí)驗(yàn)設(shè)定下均取得了state-of-the-art的測(cè)試準(zhǔn)確率

無(wú)監(jiān)督預(yù)訓(xùn)練模型

為了證明Self-Tuning可以拓展到無(wú)監(jiān)督預(yù)訓(xùn)練模型中,我們做了MoCov2遷移到CUB-200的實(shí)驗(yàn)。無(wú)論是每類4個(gè)樣本還是每類25個(gè)樣本的實(shí)驗(yàn)設(shè)定,Self-Tuning相較于遷移學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的方法都有明顯提升

命名實(shí)體識(shí)別

為了證明Self-Tuning可以拓展到自然語(yǔ)言處理(NLP)的任務(wù)中,我們?cè)谝粋€(gè)英語(yǔ)命名實(shí)體識(shí)別數(shù)據(jù)集CoNLL 2003上進(jìn)行了實(shí)驗(yàn)。按照Co-Tuning的實(shí)驗(yàn)設(shè)定,我們采用掩蔽語(yǔ)言建模的BERT作為預(yù)訓(xùn)練模型。以命名實(shí)體的F1得分作為度量指標(biāo)的話,fine-tuning的F1得分為90.81,BSS、L2-SP和Co-Tuning分別達(dá)到90.85、91.02和91.27,而Self-Tuning取得了明顯更高的94.53的F1得分,初步證明了Self-Tuning在NLP領(lǐng)域的強(qiáng)大潛力。更加詳盡的NLP實(shí)驗(yàn),會(huì)在未來(lái)的期刊版本中進(jìn)行拓展。

消融實(shí)驗(yàn)

在消融實(shí)驗(yàn)部分,我們從兩個(gè)不同的角度進(jìn)行了對(duì)比。首先是損失函數(shù),PGC損失函數(shù)比Cross-Entropy和Contrastive Learning的損失函數(shù)有明顯提升。其次是信息的探索方式,無(wú)論是去掉標(biāo)記數(shù)據(jù)還是無(wú)標(biāo)記數(shù)據(jù)上的PGC損失函數(shù),抑或在標(biāo)記數(shù)據(jù)和無(wú)標(biāo)記數(shù)據(jù)間設(shè)置單獨(dú)的負(fù)樣本隊(duì)列,都不及Self-Tuning所提的“一體化”信息探索。

展望

在深度學(xué)習(xí)社區(qū)中,如何減少對(duì)標(biāo)記數(shù)據(jù)的需求是一個(gè)至關(guān)重要的問題。考慮到遷移學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的普通實(shí)踐中只關(guān)注預(yù)訓(xùn)練模型或無(wú)標(biāo)記數(shù)據(jù)的不足,本文提出了一種新的數(shù)據(jù)高效的深度學(xué)習(xí)機(jī)制,可以充分發(fā)揮預(yù)訓(xùn)練模型和無(wú)標(biāo)記數(shù)據(jù)的優(yōu)勢(shì)。這一機(jī)制可能是遷移學(xué)習(xí)在工業(yè)界最為現(xiàn)實(shí)的落地場(chǎng)景,值得我們繼續(xù)大力研究。另一方面,我們提出的Self-Tuning方法簡(jiǎn)單通用,是遷移學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和對(duì)比學(xué)習(xí)等領(lǐng)域的核心思想的集大成者,可以提高對(duì)偽標(biāo)簽的容忍度。對(duì)于其他需要用到偽標(biāo)簽的場(chǎng)景,應(yīng)該也有一定的借鑒價(jià)值。

后臺(tái)回復(fù)關(guān)鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)

獲取ACL、CIKM等各大頂會(huì)論文集!

總結(jié)

以上是生活随笔為你收集整理的ICML2021 | Self-Tuning: 如何减少对标记数据的需求?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。