双边分支网络:兼顾特征和分类的长尾问题解决方案
本文內(nèi)容整理自 PaperWeekly 和 biendata 在 B 站組織的直播回顧,點(diǎn)擊文末閱讀原文即可跳轉(zhuǎn)至 B 站收看本次分享完整視頻錄像,如需嘉賓課件,請(qǐng)?jiān)?PaperWeekly?公眾號(hào)回復(fù)關(guān)鍵詞課件下載獲取下載鏈接。
題圖出處:economiststalkart.org
作者簡(jiǎn)介:周博言,曠視南京研究院研究員,本科和碩士畢業(yè)于南京大學(xué)。研究方向?yàn)橛?jì)算機(jī)視覺,主要包括長(zhǎng)尾識(shí)別、目標(biāo)檢測(cè)等,曾參與多項(xiàng)計(jì)算機(jī)視覺國(guó)際競(jìng)賽,獲得兩項(xiàng)冠軍,一項(xiàng)亞軍,在 CVPR 2020 發(fā)表 Oral 論文一篇。
長(zhǎng)尾分布是現(xiàn)實(shí)世界的一大難題,指的是少部分類別占據(jù)了大量樣本,而大部分類別卻只有少數(shù)樣本。解決這一問(wèn)題最主流的方法是類別再平衡策略,即通過(guò)重采樣或代價(jià)敏感重加權(quán)來(lái)緩解類別不平衡問(wèn)題。
這些策略之所以起效,是因?yàn)槠滹@著提升了分類器的性能,但同時(shí)又會(huì)在一定程度上損害深度特征的表征能力。因此,我們提出了一個(gè)統(tǒng)一的雙邊分支網(wǎng)絡(luò)(Bilateral-Branch Network BBN),兩個(gè)分支各司其職,從而兼顧網(wǎng)絡(luò)的特征表示能力和分類能力。
此外,我們還提出了一種全新的累積學(xué)習(xí)(Cumulative Learning)策略,配合 BBN 網(wǎng)絡(luò)首先進(jìn)行通用特征的學(xué)習(xí),隨后逐漸將注意力轉(zhuǎn)移到尾部類的識(shí)別上。
什么是圖像任務(wù)中的長(zhǎng)尾識(shí)別問(wèn)題?
在介紹長(zhǎng)尾識(shí)別任務(wù)之前,我們先來(lái)看一下普通的圖像分類任務(wù)。Mnist 和 ImageNet 是兩個(gè)比較有名的圖像分類數(shù)據(jù)集,Mnist 是一個(gè)手寫字體的分類數(shù)據(jù)集,主要區(qū)分 0~9 十個(gè)數(shù)字。ImageNet 是一個(gè)比較龐大的分類數(shù)據(jù)集,一共包含了 1000 個(gè)類別,涵蓋了現(xiàn)實(shí)世界里各種常見的類型。
隨著近年來(lái)深度學(xué)習(xí)的不斷發(fā)展,以上兩個(gè)深度學(xué)習(xí)模型都能夠達(dá)到非常好的效果。Mnist 上的 SOTA 可以達(dá)到近 99.8% 的 Top1 accuracy,即使是 ImageNet ?這種百萬(wàn)量級(jí)的數(shù)據(jù)集也可以達(dá)到 88% 的 Top1 accuracy。
但是這兩個(gè)數(shù)據(jù)集都有一個(gè)比較明顯的特點(diǎn),它們類別標(biāo)簽的分布是非常均勻的,也就是說(shuō)每個(gè)類的樣本圖片數(shù)量幾乎完全一致,這是一種比較理想的圖像識(shí)別任務(wù),但是實(shí)際情況很難達(dá)到這樣的條件。
我們以圖中的三輛車為例,這三輛車從左往右依次是雪佛蘭、奔馳還有蘭博基尼,顯然這三輛車型的價(jià)格是越來(lái)越昂貴的,在現(xiàn)實(shí)世界里出現(xiàn)的概率其實(shí)也是依次減小的。像這種類別樣本的數(shù)量逐級(jí)遞減的情形就是我們所說(shuō)的長(zhǎng)尾分布,長(zhǎng)尾分布在現(xiàn)實(shí)世界里無(wú)處不在。
我們將類別數(shù)量隨著類別索引的變化畫成一條曲線,它看起來(lái)就像一條長(zhǎng)長(zhǎng)的尾巴,這就是長(zhǎng)尾分布名稱的由來(lái)。上圖中褐色的曲線就是一條長(zhǎng)尾分布的曲線,在這條褐色曲線的中間畫一條黑色的虛線。這條黑色虛線左邊的類別統(tǒng)稱為頭部類,頭部類的類別數(shù)量少,但每一類的樣本卻很多。虛線右邊的類別統(tǒng)稱為尾部類,尾部類的類別數(shù)量多,但是每一類樣本卻很少。
雖然深度學(xué)習(xí)模型在類別均勻的數(shù)據(jù)集上能夠取得不錯(cuò)的效果,但在長(zhǎng)尾分布的數(shù)據(jù)集中效果卻往往不佳,這主要是由于尾部類效果比較差。首先,因?yàn)樯疃葘W(xué)習(xí)模型本身是數(shù)據(jù)驅(qū)動(dòng)的,尾部類的數(shù)據(jù)少,自然就導(dǎo)致了尾部類的欠擬合;其次,因?yàn)槲膊款惡皖^部類的樣本數(shù)量差距太大,這種極端的數(shù)據(jù)不平衡會(huì)導(dǎo)致網(wǎng)絡(luò)傾向于把 tail 類的樣本錯(cuò)分成 head 類。這兩者都導(dǎo)致了長(zhǎng)尾分布數(shù)據(jù)集上尾部類的識(shí)別性能不好。
那么在面臨這種長(zhǎng)尾問(wèn)題時(shí)都有哪些解決方案呢?目前作為主流且有效的方法是 re-balancing 一類的方法,re-balancing 可以細(xì)分成兩類,分別是 re-sampling 和 re-weighting。
re-sampling 是通過(guò)重采樣的方法,讓訓(xùn)練集和測(cè)試集盡量維持一致的分布。re-sampling 又可以細(xì)分成 over-sampling 和 under-sampling,over-sampling 是指對(duì)尾部類數(shù)據(jù)進(jìn)行重復(fù)采樣,使得它達(dá)到頭部類數(shù)據(jù)一樣的水準(zhǔn)。under-sampling 則反過(guò)來(lái),主要是通過(guò)摒棄一些 head 類的數(shù)據(jù),使得它和 tail 類達(dá)到相同的水準(zhǔn)。
除了 over-sampling 和 under-sampling 之外,還有一些介于這兩種采樣之間的方法,它們既會(huì)舍棄部分頭部類的數(shù)據(jù),又會(huì)對(duì)尾部類的數(shù)據(jù)進(jìn)行重復(fù)采樣,總而言之,都是為了使訓(xùn)練集和測(cè)試集的分布保持一致。
re-weighting 是直接在損失函數(shù)上對(duì) loss 進(jìn)行加權(quán),給 tail 類賦予更大的權(quán)重,從而讓網(wǎng)絡(luò)可以更加關(guān)注 tail 類的損失,提升 tail 類的性能。
對(duì)于 Re-balancing 這一類的方法,這里主要介紹 2019 年的兩篇 SOTA,第一篇是發(fā)表在 CVPR 上的 CB-Focal,CB-Focal 文中提出了一個(gè)有效樣本的概念,并且通過(guò)有效樣本的數(shù)量來(lái)對(duì)不同類別的損失進(jìn)行一個(gè)重加權(quán),在多個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的效果。
另一篇是 2019 年 NeurIPS 的 LDAM,這篇 paper 主要是賦予了不同類別不同的 margin, tail 類的 margin 更大,同時(shí)他還采取了一種特殊的兩階段的 Re-weighting 策略,這兩種方式在 Long-tailed CIFAR 和 iNaturalist 這兩個(gè)知名的長(zhǎng)尾數(shù)據(jù)集上都取得了 SOTA 的效果。
除了主流的 Re-balancing 方法,還有一些其它用來(lái)解決長(zhǎng)尾問(wèn)題的方案。第一種比較有名的是 Two-stage finetuning, 這類方法和 Re-balancing 這一類方法相似,它們都是把訓(xùn)練分成兩個(gè)階段,第一個(gè)階段,直接在原始的 long tail 數(shù)據(jù)集上進(jìn)行訓(xùn)練。
到第二階段,會(huì)以一個(gè)很小的學(xué)習(xí)率,使用 re-weighting 或者 re-sampling 進(jìn)行 finetuning,這種簡(jiǎn)單有效的方法就能夠達(dá)到比較好的效果。除了 Two-stage finetuning,還有一些其它相對(duì)來(lái)說(shuō)沒(méi)那么主流的方案,比如 Meta learning,transfer learning,和 learning to learn 等,包括 Metric learning 也會(huì)有一些用來(lái)解決長(zhǎng)尾問(wèn)題的思路。
現(xiàn)有解決方案的不足
我們?cè)倩剡^(guò)頭來(lái)看一下 re-weighting 和 re-sampling 這些策略,雖然它們可以較好地提升長(zhǎng)尾識(shí)別的性能,但是也存在著一些缺點(diǎn)和不足。這些缺點(diǎn)和不足會(huì)不會(huì)導(dǎo)致 re-balancing 策略對(duì)網(wǎng)絡(luò)產(chǎn)生負(fù)面的影響呢?
其實(shí) re-weighting 還有 re-sampling 本質(zhì)上都是人為地去給予不同數(shù)據(jù)不同權(quán)重,要么增大某些樣本對(duì)網(wǎng)絡(luò)的影響,要么削弱某些樣本對(duì)網(wǎng)絡(luò)的影響。假如我們不考慮驗(yàn)證計(jì)算的準(zhǔn)確率,單純地去增大或者削弱某些樣本的權(quán)重,會(huì)不會(huì)對(duì)網(wǎng)絡(luò) universal pattern 的學(xué)習(xí)產(chǎn)生一些負(fù)面影響呢?
首先舉一個(gè)簡(jiǎn)單的例子,Two-stage finetuning,為什么它比直接去做 re-weighting 還有 re-sampling 效果要好?為什么一定要經(jīng)過(guò)第一階段在原始分布上的 pre-training 操作呢?
實(shí)際上第一個(gè)階段和第二階段最大的區(qū)別就在于:第一個(gè)階段每個(gè)樣本對(duì)于網(wǎng)絡(luò)的影響和貢獻(xiàn)實(shí)際上是一樣的,不存在數(shù)據(jù)權(quán)重的概念,因?yàn)槊總€(gè)數(shù)據(jù)的權(quán)重都是 1。所以我們覺得第一個(gè)階段取到的特征或者它的網(wǎng)絡(luò)更加的具有泛化性,學(xué)到了更多 universal pattern 。
我們?cè)倥e一個(gè)比較極端但是又很簡(jiǎn)單的例子,假設(shè)我們有兩個(gè)數(shù)據(jù)集,第一個(gè)數(shù)據(jù)集是一個(gè)原始的長(zhǎng)尾分布的數(shù)據(jù)集,一共有 100 張圖,有兩個(gè)類別,這兩個(gè)類別的圖片張數(shù)分別是 99 張和 1 張。
第二個(gè)分布的數(shù)據(jù)集是從第一個(gè)數(shù)據(jù)集里重采樣得到的,也有 100 張圖,兩個(gè)類別,只不過(guò)第一個(gè)類別里有 50 張圖是從 99 張圖里面降采樣得到的,而第二個(gè)類別里的 50 張圖是通過(guò)第一個(gè)分布里那一張圖片重復(fù)了 49 次得到的。
其實(shí)這兩個(gè)數(shù)據(jù)集相比,有效的樣本的數(shù)量是 100:51,這里的有效樣本指的是不重復(fù)的樣本。因?yàn)榈诙€(gè)數(shù)據(jù)集是從第一個(gè)數(shù)據(jù)集里面重采樣得到的,它實(shí)際上有 49 個(gè)重復(fù)樣本。顯然用 100 個(gè)有效樣本訓(xùn)練網(wǎng)絡(luò)肯定要比用 51 個(gè)有效樣本訓(xùn)練出來(lái)的網(wǎng)絡(luò)特征更加具有泛化性,更加的 universal,因?yàn)樗粤烁嗟臄?shù)據(jù)。
新的嘗試:兼顧網(wǎng)絡(luò)的特征表示能力和分類能力
所以我們提出了這樣一個(gè)猜想,尤其是 re-balancing 這樣一個(gè)策略它能夠工作的機(jī)制在于它提升了分類器的性能,但是它又會(huì)在一定程度上損害特征的表示能力。我們?cè)趺慈プC明這樣一個(gè)猜想呢?
既然我們說(shuō)它損害了特征,提升了分類器的性能,那就直接把網(wǎng)絡(luò)拆解成分類器以及特征提取器兩個(gè)部分。學(xué)習(xí)的過(guò)程也可以被分成表示學(xué)習(xí)以及分類器學(xué)習(xí)兩個(gè)過(guò)程。
我們?cè)O(shè)計(jì)了一個(gè) Two-stage 的實(shí)驗(yàn)來(lái)證明我們的猜想。首先在第一個(gè)階段,使用 cross-entropy 和 re-balancing 的策略去訓(xùn)練整個(gè)網(wǎng)絡(luò)。在第二個(gè)階段我們會(huì)把第一個(gè)階段訓(xùn)練得到的特征提取器的參數(shù)固定,然后重新訓(xùn)練分類器,訓(xùn)練分類器的方法也是使用三種不同的策略,這樣我們就可以得到一個(gè) 3×3 的九宮格。
我們的實(shí)驗(yàn)主要是基于 Long-tailed CIFAR 和 iNaturalist 這兩個(gè)長(zhǎng)尾識(shí)別的 benchmark。Long-tailed CIFAR 是在原本的數(shù)據(jù)集基礎(chǔ)之上,按照 explosion 曲線和設(shè)定的不平衡比例,人為造出來(lái)的,這里我們使用的是不平衡比例為 50 的 Long-tailed CIFAR,不平衡比例指的是最多的樣本數(shù)和最少的樣本數(shù)的比值。
為了確保實(shí)驗(yàn)的公正性,這里造 Long-tailed CIFAR 的方式和 LDAM 相同。iNaturalist 則是一個(gè)相對(duì)來(lái)說(shuō)比較龐大的數(shù)據(jù)集,天然存在著長(zhǎng)尾分布。我們一共在 Long-tailed CIFAR100、Long-tailed CIFAR10、iNaturalist2017、iNaturalist 2018 4 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),得出的結(jié)論都是一致的。
我們重點(diǎn)看一下 Long-tailed CIFAR100 上的結(jié)果,這里的九宮格橫軸代表的是特征學(xué)習(xí)的方法,縱軸代表的是分類器的學(xué)習(xí)方法,九宮格里格子的顏色越深,代表錯(cuò)誤率越低,效果越好。
首先縱向地看一下固定特征的學(xué)習(xí)方法,來(lái)比較幾種不同的分類器的學(xué)習(xí)方式。明顯 re-weighting 還有 re-sampling 的效果明顯比 cross-entropy 要好,也就是說(shuō) re-weighting 和 re-sampling 學(xué)到的分類器性能是更強(qiáng)的。接下來(lái)我們?cè)贆M向地來(lái)看一下固定分類器的學(xué)習(xí)方法,來(lái)比較幾種不同的特征學(xué)習(xí)方法。明顯 cross-entropy 的效果最好,換句話說(shuō),cross-entropy 學(xué)到的特征的表示能力是更強(qiáng)的。
我們還基于在 Long-tailed CIFAR100 上學(xué)習(xí)到的特征提取器,在 Long-tailed CIFAR10 上做了一個(gè)方法性驗(yàn)證,得到的結(jié)論也是完全一致的。
上面這兩張表是在兩個(gè)大型的數(shù)據(jù)集 iNaturalist 2017 和 iNaturalist 2018 上得到的實(shí)驗(yàn)結(jié)果,而結(jié)論也和 Long-tailed CIFAR10、Long-tailed CIFAR100 一致,這讓我們的實(shí)驗(yàn)結(jié)論更加具有說(shuō)服力。
這些驗(yàn)證實(shí)驗(yàn)都證明了我們之前提出的一個(gè)猜想,也就是 re-balancing 這樣一類的策略,它雖然提升了分類器的性能,但是卻會(huì)在一定程度上損害特征的表示能力。
我們把剛剛的猜想畫成一張比較形象的圖,假設(shè)在一個(gè)二維的特征空間里有兩個(gè)類別,分別是頭部類和尾部類,藍(lán)色的圓圈代表的是頭部類的特征向量,紅色的方塊代表的是尾部類的特征向量,中間黑色的圓弧代表的是決策邊界。
左邊未進(jìn)行 re-balancing 訓(xùn)練的特征空間中,兩個(gè)類別各自的特征向量都聚成了一個(gè)比較緊的簇,但是決策面的坡度卻比較大,導(dǎo)致有一個(gè) tail 類的樣本被錯(cuò)分到了 head 類里。
右邊進(jìn)行了 re-balancing 訓(xùn)練的特征空間則是完全相反的,它的決策邊界向 head 類靠近了一些,所以不會(huì)再將 tail 類錯(cuò)分成 head 類,它使兩個(gè)類各自的特征向量聚得相對(duì)松散了一些。這張圖里簇的松緊程度代表特征的好壞,而決策邊界的位置代表分類器的好壞,顯而易見左邊的特征好,右邊的分類器好。
為了進(jìn)一步證明 class-entropy 學(xué)到的特征在特征空間中的簇聚得更緊,我們還做了一個(gè)實(shí)驗(yàn):分別用 class-entropy、re-weighting 和 re-sampling 訓(xùn)練三個(gè)網(wǎng)絡(luò),并且利用這三個(gè)網(wǎng)絡(luò)提取 CIFAR10 上 10 個(gè)類別的特征,然后計(jì)算到每個(gè)類別的特征與類中心的距離,以此作為類內(nèi)訓(xùn)練的一種度量方法。
上圖中紅色的條形圖代表的是 class-entropy,黃色和綠色分別代表的是 re-weighting 和 re-sampling。可以明顯地看到紅色的條形圖幾乎一直低于黃色和綠色的條形圖,這也進(jìn)一步證明了通過(guò) class-entropy 學(xué)到的特征,它每個(gè)類內(nèi)的簇確實(shí)會(huì)聚得更緊一些。
既然 class-entropy 它學(xué)到的特征更好,而 re-weighting 和 re-sampling 學(xué)到的分類器更好,那么我們有沒(méi)有什么辦法既可以保留 class-entropy 學(xué)到的特征表示能力,又可以充分利用 re-weighting 和 re-sampling 來(lái)增強(qiáng)分類器的性能呢?
基于這樣的目的,我們提出了一個(gè)全新的 framework:BBN。BBN 的出發(fā)點(diǎn)是希望可以兼顧特征的學(xué)習(xí)和分類器的學(xué)習(xí)。為此我們?cè)O(shè)計(jì)了兩個(gè)分支,一個(gè)分支的作用是盡可能保留 class-entropy 的特征表示能力,另一個(gè)分支的作用則是提升 tail 類的分類性能。
此外還涉及了一個(gè)漸進(jìn)式的學(xué)習(xí)策略,使用一個(gè) Adaptor 來(lái)控制兩個(gè)分支在整個(gè)訓(xùn)練過(guò)程中的學(xué)習(xí)比重,這使得網(wǎng)絡(luò)在訓(xùn)練的前期更加關(guān)注特征的學(xué)習(xí),在中后期再逐漸地轉(zhuǎn)移和過(guò)渡到分類器的性能提升上來(lái)。
接下來(lái)我們將詳細(xì)介紹 BBN 網(wǎng)絡(luò)結(jié)構(gòu)里的每一個(gè)模塊。
首先是傳統(tǒng)學(xué)習(xí)的分支,顧名思義,傳統(tǒng)學(xué)習(xí)分支的輸入來(lái)自一個(gè)普通的均勻采樣器,它從原始的 long tail 分布里進(jìn)行收集采樣,主要作用是進(jìn)行特征表示的學(xué)習(xí)。
其次是 re-balancing 分支,re-balancing 分支來(lái)自一個(gè)逆向采樣器,逆向采樣器的每個(gè)類被采樣的概率與該樣本的數(shù)量成反比,意味著樣本的數(shù)量越少,那么它被采樣的概率就越大。這個(gè)分支的主要作用在于進(jìn)行分類器的學(xué)習(xí),并且側(cè)重點(diǎn)在 tail 類的學(xué)習(xí)上,從而可以提升 tail 類的識(shí)別性能。
這兩個(gè)分支還有一個(gè)共享權(quán)重的設(shè)計(jì),這樣設(shè)計(jì)的主要目的有兩個(gè):第一個(gè)是可以減少參數(shù)量,提升訓(xùn)練和測(cè)試的速度。第二個(gè)目的則是因?yàn)閭鹘y(tǒng)分支的特征表示能力更好,共享權(quán)重可以讓 re-balancing 這一分支受益于傳統(tǒng)學(xué)習(xí)分支的特征,從而更好地進(jìn)行分類器的學(xué)習(xí)。
這兩個(gè)分支通過(guò)一個(gè) Adaptor 來(lái)控制各自在訓(xùn)練過(guò)程中的學(xué)習(xí)占比,Adaptor 會(huì)生成一個(gè)隨 epoch 遞減的 α,用這個(gè) α 來(lái)對(duì)兩個(gè)分支的特征進(jìn)行加權(quán),最后再送入各自的分類器中,計(jì)算交叉熵的損失。
需要注意的是 α 隨著 epoch 的增加逐漸減小,這樣設(shè)計(jì)的目的是讓網(wǎng)絡(luò)可以首先專注于特征的學(xué)習(xí),當(dāng)學(xué)到的特征足夠好了之后,再逐漸地轉(zhuǎn)移到 tail 類的性能提升上來(lái),畢竟特征是分類器的基礎(chǔ)。
我們來(lái)看 BBN 的實(shí)驗(yàn)結(jié)果,首先是幾個(gè)主要的長(zhǎng)尾 benchmark 上的實(shí)驗(yàn)結(jié)果,我們一共在 8 個(gè)數(shù)據(jù)集上利用三種不平衡比例進(jìn)行了實(shí)驗(yàn),分別是 long-tailed CIFAR10,long-tailed CIFAR100,以及兩個(gè)大型的長(zhǎng)尾數(shù)據(jù)集,iNaturalist 2017 和 iNaturalist 2018。
可以看到無(wú)論是在小型數(shù)據(jù)集 long-tailed CIFAR 上,還是在大型數(shù)據(jù)集 iNaturalist 上,我們的方法相對(duì)于之前的 SOTA 都有一定提升。
接下來(lái)我們看一下不同的 Adaptor 生成策略對(duì)于網(wǎng)絡(luò)性能的影響。我們通過(guò) Adaptor 生成的 α 來(lái)控制網(wǎng)絡(luò)的學(xué)習(xí)重心,直白來(lái)講就是網(wǎng)絡(luò)更關(guān)注哪一方面的學(xué)習(xí),α 如果大于 0.5 網(wǎng)絡(luò)就更關(guān)注特征的學(xué)習(xí),反之 α 如果小于 0.5 網(wǎng)絡(luò)就更關(guān)注 tail 類的分類性能。設(shè)計(jì)的原則是特征是標(biāo)識(shí)分類器的基石,如果沒(méi)有好的特征,那么好的分類器也無(wú)從談起。
表格里的前三行分別是固定值、β 分布及拋物線居中,這三種策略的效果都很差,這也證明了特征是分類器的基石這一原則。我們要讓網(wǎng)絡(luò)在前期更加關(guān)注特征學(xué)習(xí),隨后再慢慢地將注意力轉(zhuǎn)移到 tail 類的分類性能上面。
后三種都是 decay 的遞減策略,這三種策略都符合特征是分類器基石這一原則,并且這三種策略的效果越來(lái)越好,這是為什么呢?
我們看一下左邊這張圖,以圖中的藍(lán)色線作為參考,三條曲線與藍(lán)色線交點(diǎn)的橫坐標(biāo)越來(lái)越長(zhǎng),表示它們的效果越來(lái)越好,這是因?yàn)樘卣魈崛∑鞯膮?shù)相對(duì)于分類器的參數(shù)而言更大,它的層數(shù)也更深。
所以我們傾向于讓特征去花更多的時(shí)間來(lái)學(xué)習(xí),當(dāng)特征學(xué)得足夠好,再去關(guān)注 tail 類的分類性能,當(dāng)然也不是說(shuō)特征學(xué)的時(shí)間就越久越好。總的來(lái)說(shuō)網(wǎng)絡(luò)的性能對(duì)于不同的遞減策略來(lái)說(shuō)也不是很敏感,比如 Cosine decay 相比于我們使用的 Parabolic decay 也就差了僅僅 0.2 個(gè)點(diǎn)而已。
之前的九宮格實(shí)驗(yàn)證明了 cross-entropy 的特征要比 re-weighting 和 re-sampling 好,所以我們這里設(shè)計(jì)了一個(gè)實(shí)驗(yàn)來(lái)證明 BBN 網(wǎng)絡(luò)確實(shí)可以保留 cross-entropy 的特征表述能力:主要利用從 BBN 的兩個(gè)分支提取出來(lái)的特征分別訓(xùn)練一個(gè)分類器,并與 cross-entropy、re-weighting 和 re-sampling 訓(xùn)練出來(lái)的分類器做一個(gè)橫向的對(duì)比。
可以看到 CB 這一分支,也就是傳統(tǒng)學(xué)習(xí)這一分支它的性能與 cross-entropy 差別不大,這證明 CB 這一分支確實(shí)可以比較好地保留 cross-entropy 的特征表示能力。另外值得一提的是,RB 這一分支的性能也比 re-weighting 和 re-sampling 要好不少,這可以歸功于我們權(quán)重共享的這樣一個(gè)設(shè)計(jì)。
接下來(lái)我們來(lái)看一下分類器模長(zhǎng)的可視化實(shí)驗(yàn),分類器的 L2 模長(zhǎng)在一定程度上能夠反應(yīng)分類器對(duì)各個(gè)類別的偏愛程度,類別的模長(zhǎng)越大,分類器就會(huì)傾向于把這個(gè)樣本分為這一類。
我們重點(diǎn)看一下 BBN 的分類器模長(zhǎng),CB 這一分支在圖中是粉紅色的條形圖,可以看出粉紅色的條形圖從 head 類到 tail 的模長(zhǎng)越來(lái)越小,這和普通的 cross-emtropy 差不多,是更偏愛 head 類的,而 RB 這一分支在圖中是深藍(lán)色的條形圖,正好和 CB 相反,從 head 類到 tail 類的模長(zhǎng)越來(lái)越大,是更偏愛 tail 類的,這說(shuō)明這一分支確實(shí)提升了 tail 類的分類性能。
CB 和 RB 結(jié)合到一起之后在圖中是紅色的條形圖,連接起來(lái)之后是一條相對(duì)比較平坦的曲線,對(duì)于每個(gè)類的偏愛程度是差不多的,并不會(huì)有特別的分類傾向。
最后我們?cè)倥c ensemble 的方法進(jìn)行對(duì)比,BBN 的 CB 和 RB 兩個(gè)分支如果完全不進(jìn)行權(quán)重共享,看起來(lái)就和模型集成有一些相似。可以看到的是無(wú)論是 Uniform sampler+Balanced sampler 還是 Uniform sampler+Reversed sampler,提升的效果都比 BBN 差很多。
關(guān)于數(shù)據(jù)實(shí)戰(zhàn)派
數(shù)據(jù)實(shí)戰(zhàn)派希望用真實(shí)數(shù)據(jù)和行業(yè)實(shí)戰(zhàn)案例,幫助讀者提升業(yè)務(wù)能力,共建有趣的大數(shù)據(jù)社區(qū)。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的双边分支网络:兼顾特征和分类的长尾问题解决方案的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: win8换xp蓝屏怎么办 win8换xp
- 下一篇: FGPM:文本对抗样本生成新方法