當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

双边分支网络：兼顾特征和分类的长尾问题解决方案

發(fā)布時(shí)間：2024/10/8 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了双边分支网络：兼顾特征和分类的长尾问题解决方案小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文內(nèi)容整理自 PaperWeekly 和 biendata 在 B 站組織的直播回顧，點(diǎn)擊文末閱讀原文即可跳轉(zhuǎn)至 B 站收看本次分享完整視頻錄像，如需嘉賓課件，請(qǐng)?jiān)?PaperWeekly?公眾號(hào)回復(fù)關(guān)鍵詞課件下載獲取下載鏈接。

題圖出處：economiststalkart.org

作者簡(jiǎn)介：周博言，曠視南京研究院研究員，本科和碩士畢業(yè)于南京大學(xué)。研究方向?yàn)橛?jì)算機(jī)視覺，主要包括長(zhǎng)尾識(shí)別、目標(biāo)檢測(cè)等，曾參與多項(xiàng)計(jì)算機(jī)視覺國(guó)際競(jìng)賽，獲得兩項(xiàng)冠軍，一項(xiàng)亞軍，在 CVPR 2020 發(fā)表 Oral 論文一篇。

長(zhǎng)尾分布是現(xiàn)實(shí)世界的一大難題，指的是少部分類別占據(jù)了大量樣本，而大部分類別卻只有少數(shù)樣本。解決這一問(wèn)題最主流的方法是類別再平衡策略，即通過(guò)重采樣或代價(jià)敏感重加權(quán)來(lái)緩解類別不平衡問(wèn)題。

這些策略之所以起效，是因?yàn)槠滹@著提升了分類器的性能，但同時(shí)又會(huì)在一定程度上損害深度特征的表征能力。因此，我們提出了一個(gè)統(tǒng)一的雙邊分支網(wǎng)絡(luò)（Bilateral-Branch Network BBN），兩個(gè)分支各司其職，從而兼顧網(wǎng)絡(luò)的特征表示能力和分類能力。

此外，我們還提出了一種全新的累積學(xué)習(xí)（Cumulative Learning）策略，配合 BBN 網(wǎng)絡(luò)首先進(jìn)行通用特征的學(xué)習(xí)，隨后逐漸將注意力轉(zhuǎn)移到尾部類的識(shí)別上。

什么是圖像任務(wù)中的長(zhǎng)尾識(shí)別問(wèn)題？

在介紹長(zhǎng)尾識(shí)別任務(wù)之前，我們先來(lái)看一下普通的圖像分類任務(wù)。Mnist 和 ImageNet 是兩個(gè)比較有名的圖像分類數(shù)據(jù)集，Mnist 是一個(gè)手寫字體的分類數(shù)據(jù)集，主要區(qū)分 0~9 十個(gè)數(shù)字。ImageNet 是一個(gè)比較龐大的分類數(shù)據(jù)集，一共包含了 1000 個(gè)類別，涵蓋了現(xiàn)實(shí)世界里各種常見的類型。

隨著近年來(lái)深度學(xué)習(xí)的不斷發(fā)展，以上兩個(gè)深度學(xué)習(xí)模型都能夠達(dá)到非常好的效果。Mnist 上的 SOTA 可以達(dá)到近 99.8% 的 Top1 accuracy，即使是 ImageNet ?這種百萬(wàn)量級(jí)的數(shù)據(jù)集也可以達(dá)到 88% 的 Top1 accuracy。

但是這兩個(gè)數(shù)據(jù)集都有一個(gè)比較明顯的特點(diǎn)，它們類別標(biāo)簽的分布是非常均勻的，也就是說(shuō)每個(gè)類的樣本圖片數(shù)量幾乎完全一致，這是一種比較理想的圖像識(shí)別任務(wù)，但是實(shí)際情況很難達(dá)到這樣的條件。

我們以圖中的三輛車為例，這三輛車從左往右依次是雪佛蘭、奔馳還有蘭博基尼，顯然這三輛車型的價(jià)格是越來(lái)越昂貴的，在現(xiàn)實(shí)世界里出現(xiàn)的概率其實(shí)也是依次減小的。像這種類別樣本的數(shù)量逐級(jí)遞減的情形就是我們所說(shuō)的長(zhǎng)尾分布，長(zhǎng)尾分布在現(xiàn)實(shí)世界里無(wú)處不在。

我們將類別數(shù)量隨著類別索引的變化畫成一條曲線，它看起來(lái)就像一條長(zhǎng)長(zhǎng)的尾巴，這就是長(zhǎng)尾分布名稱的由來(lái)。上圖中褐色的曲線就是一條長(zhǎng)尾分布的曲線，在這條褐色曲線的中間畫一條黑色的虛線。這條黑色虛線左邊的類別統(tǒng)稱為頭部類，頭部類的類別數(shù)量少，但每一類的樣本卻很多。虛線右邊的類別統(tǒng)稱為尾部類，尾部類的類別數(shù)量多，但是每一類樣本卻很少。

雖然深度學(xué)習(xí)模型在類別均勻的數(shù)據(jù)集上能夠取得不錯(cuò)的效果，但在長(zhǎng)尾分布的數(shù)據(jù)集中效果卻往往不佳，這主要是由于尾部類效果比較差。首先，因?yàn)樯疃葘W(xué)習(xí)模型本身是數(shù)據(jù)驅(qū)動(dòng)的，尾部類的數(shù)據(jù)少，自然就導(dǎo)致了尾部類的欠擬合；其次，因?yàn)槲膊款惡皖^部類的樣本數(shù)量差距太大，這種極端的數(shù)據(jù)不平衡會(huì)導(dǎo)致網(wǎng)絡(luò)傾向于把 tail 類的樣本錯(cuò)分成 head 類。這兩者都導(dǎo)致了長(zhǎng)尾分布數(shù)據(jù)集上尾部類的識(shí)別性能不好。

那么在面臨這種長(zhǎng)尾問(wèn)題時(shí)都有哪些解決方案呢？目前作為主流且有效的方法是 re-balancing 一類的方法，re-balancing 可以細(xì)分成兩類，分別是 re-sampling 和 re-weighting。

re-sampling 是通過(guò)重采樣的方法，讓訓(xùn)練集和測(cè)試集盡量維持一致的分布。re-sampling 又可以細(xì)分成 over-sampling 和 under-sampling，over-sampling 是指對(duì)尾部類數(shù)據(jù)進(jìn)行重復(fù)采樣，使得它達(dá)到頭部類數(shù)據(jù)一樣的水準(zhǔn)。under-sampling 則反過(guò)來(lái)，主要是通過(guò)摒棄一些 head 類的數(shù)據(jù)，使得它和 tail 類達(dá)到相同的水準(zhǔn)。

除了 over-sampling 和 under-sampling 之外，還有一些介于這兩種采樣之間的方法，它們既會(huì)舍棄部分頭部類的數(shù)據(jù)，又會(huì)對(duì)尾部類的數(shù)據(jù)進(jìn)行重復(fù)采樣，總而言之，都是為了使訓(xùn)練集和測(cè)試集的分布保持一致。

re-weighting 是直接在損失函數(shù)上對(duì) loss 進(jìn)行加權(quán)，給 tail 類賦予更大的權(quán)重，從而讓網(wǎng)絡(luò)可以更加關(guān)注 tail 類的損失，提升 tail 類的性能。

對(duì)于 Re-balancing 這一類的方法，這里主要介紹 2019 年的兩篇 SOTA，第一篇是發(fā)表在 CVPR 上的 CB-Focal，CB-Focal 文中提出了一個(gè)有效樣本的概念，并且通過(guò)有效樣本的數(shù)量來(lái)對(duì)不同類別的損失進(jìn)行一個(gè)重加權(quán)，在多個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的效果。

另一篇是 2019 年 NeurIPS 的 LDAM，這篇 paper 主要是賦予了不同類別不同的 margin， tail 類的 margin 更大，同時(shí)他還采取了一種特殊的兩階段的 Re-weighting 策略，這兩種方式在 Long-tailed CIFAR 和 iNaturalist 這兩個(gè)知名的長(zhǎng)尾數(shù)據(jù)集上都取得了 SOTA 的效果。

除了主流的 Re-balancing 方法，還有一些其它用來(lái)解決長(zhǎng)尾問(wèn)題的方案。第一種比較有名的是 Two-stage finetuning, 這類方法和 Re-balancing 這一類方法相似，它們都是把訓(xùn)練分成兩個(gè)階段，第一個(gè)階段，直接在原始的 long tail 數(shù)據(jù)集上進(jìn)行訓(xùn)練。

到第二階段，會(huì)以一個(gè)很小的學(xué)習(xí)率，使用 re-weighting 或者 re-sampling 進(jìn)行 finetuning，這種簡(jiǎn)單有效的方法就能夠達(dá)到比較好的效果。除了 Two-stage finetuning，還有一些其它相對(duì)來(lái)說(shuō)沒(méi)那么主流的方案，比如 Meta learning，transfer learning，和 learning to learn 等，包括 Metric learning 也會(huì)有一些用來(lái)解決長(zhǎng)尾問(wèn)題的思路。

現(xiàn)有解決方案的不足

我們?cè)倩剡^(guò)頭來(lái)看一下 re-weighting 和 re-sampling 這些策略，雖然它們可以較好地提升長(zhǎng)尾識(shí)別的性能，但是也存在著一些缺點(diǎn)和不足。這些缺點(diǎn)和不足會(huì)不會(huì)導(dǎo)致 re-balancing 策略對(duì)網(wǎng)絡(luò)產(chǎn)生負(fù)面的影響呢？

其實(shí) re-weighting 還有 re-sampling 本質(zhì)上都是人為地去給予不同數(shù)據(jù)不同權(quán)重，要么增大某些樣本對(duì)網(wǎng)絡(luò)的影響，要么削弱某些樣本對(duì)網(wǎng)絡(luò)的影響。假如我們不考慮驗(yàn)證計(jì)算的準(zhǔn)確率，單純地去增大或者削弱某些樣本的權(quán)重，會(huì)不會(huì)對(duì)網(wǎng)絡(luò) universal pattern 的學(xué)習(xí)產(chǎn)生一些負(fù)面影響呢？

首先舉一個(gè)簡(jiǎn)單的例子，Two-stage finetuning，為什么它比直接去做 re-weighting 還有 re-sampling 效果要好？為什么一定要經(jīng)過(guò)第一階段在原始分布上的 pre-training 操作呢？

實(shí)際上第一個(gè)階段和第二階段最大的區(qū)別就在于：第一個(gè)階段每個(gè)樣本對(duì)于網(wǎng)絡(luò)的影響和貢獻(xiàn)實(shí)際上是一樣的，不存在數(shù)據(jù)權(quán)重的概念，因?yàn)槊總€(gè)數(shù)據(jù)的權(quán)重都是 1。所以我們覺得第一個(gè)階段取到的特征或者它的網(wǎng)絡(luò)更加的具有泛化性，學(xué)到了更多 universal pattern 。

我們?cè)倥e一個(gè)比較極端但是又很簡(jiǎn)單的例子，假設(shè)我們有兩個(gè)數(shù)據(jù)集，第一個(gè)數(shù)據(jù)集是一個(gè)原始的長(zhǎng)尾分布的數(shù)據(jù)集，一共有 100 張圖，有兩個(gè)類別，這兩個(gè)類別的圖片張數(shù)分別是 99 張和 1 張。

第二個(gè)分布的數(shù)據(jù)集是從第一個(gè)數(shù)據(jù)集里重采樣得到的，也有 100 張圖，兩個(gè)類別，只不過(guò)第一個(gè)類別里有 50 張圖是從 99 張圖里面降采樣得到的，而第二個(gè)類別里的 50 張圖是通過(guò)第一個(gè)分布里那一張圖片重復(fù)了 49 次得到的。

其實(shí)這兩個(gè)數(shù)據(jù)集相比，有效的樣本的數(shù)量是 100:51，這里的有效樣本指的是不重復(fù)的樣本。因?yàn)榈诙€(gè)數(shù)據(jù)集是從第一個(gè)數(shù)據(jù)集里面重采樣得到的，它實(shí)際上有 49 個(gè)重復(fù)樣本。顯然用 100 個(gè)有效樣本訓(xùn)練網(wǎng)絡(luò)肯定要比用 51 個(gè)有效樣本訓(xùn)練出來(lái)的網(wǎng)絡(luò)特征更加具有泛化性，更加的 universal，因?yàn)樗粤烁嗟臄?shù)據(jù)。

新的嘗試：兼顧網(wǎng)絡(luò)的特征表示能力和分類能力

所以我們提出了這樣一個(gè)猜想，尤其是 re-balancing 這樣一個(gè)策略它能夠工作的機(jī)制在于它提升了分類器的性能，但是它又會(huì)在一定程度上損害特征的表示能力。我們?cè)趺慈プC明這樣一個(gè)猜想呢？

既然我們說(shuō)它損害了特征，提升了分類器的性能，那就直接把網(wǎng)絡(luò)拆解成分類器以及特征提取器兩個(gè)部分。學(xué)習(xí)的過(guò)程也可以被分成表示學(xué)習(xí)以及分類器學(xué)習(xí)兩個(gè)過(guò)程。

我們?cè)O(shè)計(jì)了一個(gè) Two-stage 的實(shí)驗(yàn)來(lái)證明我們的猜想。首先在第一個(gè)階段，使用 cross-entropy 和 re-balancing 的策略去訓(xùn)練整個(gè)網(wǎng)絡(luò)。在第二個(gè)階段我們會(huì)把第一個(gè)階段訓(xùn)練得到的特征提取器的參數(shù)固定，然后重新訓(xùn)練分類器，訓(xùn)練分類器的方法也是使用三種不同的策略，這樣我們就可以得到一個(gè) 3×3 的九宮格。

我們的實(shí)驗(yàn)主要是基于 Long-tailed CIFAR 和 iNaturalist 這兩個(gè)長(zhǎng)尾識(shí)別的 benchmark。Long-tailed CIFAR 是在原本的數(shù)據(jù)集基礎(chǔ)之上，按照 explosion 曲線和設(shè)定的不平衡比例，人為造出來(lái)的，這里我們使用的是不平衡比例為 50 的 Long-tailed CIFAR，不平衡比例指的是最多的樣本數(shù)和最少的樣本數(shù)的比值。

為了確保實(shí)驗(yàn)的公正性，這里造 Long-tailed CIFAR 的方式和 LDAM 相同。iNaturalist 則是一個(gè)相對(duì)來(lái)說(shuō)比較龐大的數(shù)據(jù)集，天然存在著長(zhǎng)尾分布。我們一共在 Long-tailed CIFAR100、Long-tailed CIFAR10、iNaturalist2017、iNaturalist 2018 4 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，得出的結(jié)論都是一致的。

我們重點(diǎn)看一下 Long-tailed CIFAR100 上的結(jié)果，這里的九宮格橫軸代表的是特征學(xué)習(xí)的方法，縱軸代表的是分類器的學(xué)習(xí)方法，九宮格里格子的顏色越深，代表錯(cuò)誤率越低，效果越好。

首先縱向地看一下固定特征的學(xué)習(xí)方法，來(lái)比較幾種不同的分類器的學(xué)習(xí)方式。明顯 re-weighting 還有 re-sampling 的效果明顯比 cross-entropy 要好，也就是說(shuō) re-weighting 和 re-sampling 學(xué)到的分類器性能是更強(qiáng)的。接下來(lái)我們?cè)贆M向地來(lái)看一下固定分類器的學(xué)習(xí)方法，來(lái)比較幾種不同的特征學(xué)習(xí)方法。明顯 cross-entropy 的效果最好，換句話說(shuō)，cross-entropy 學(xué)到的特征的表示能力是更強(qiáng)的。

我們還基于在 Long-tailed CIFAR100 上學(xué)習(xí)到的特征提取器，在 Long-tailed CIFAR10 上做了一個(gè)方法性驗(yàn)證，得到的結(jié)論也是完全一致的。

上面這兩張表是在兩個(gè)大型的數(shù)據(jù)集 iNaturalist 2017 和 iNaturalist 2018 上得到的實(shí)驗(yàn)結(jié)果，而結(jié)論也和 Long-tailed CIFAR10、Long-tailed CIFAR100 一致，這讓我們的實(shí)驗(yàn)結(jié)論更加具有說(shuō)服力。

這些驗(yàn)證實(shí)驗(yàn)都證明了我們之前提出的一個(gè)猜想，也就是 re-balancing 這樣一類的策略，它雖然提升了分類器的性能，但是卻會(huì)在一定程度上損害特征的表示能力。

我們把剛剛的猜想畫成一張比較形象的圖，假設(shè)在一個(gè)二維的特征空間里有兩個(gè)類別，分別是頭部類和尾部類，藍(lán)色的圓圈代表的是頭部類的特征向量，紅色的方塊代表的是尾部類的特征向量，中間黑色的圓弧代表的是決策邊界。

左邊未進(jìn)行 re-balancing 訓(xùn)練的特征空間中，兩個(gè)類別各自的特征向量都聚成了一個(gè)比較緊的簇，但是決策面的坡度卻比較大，導(dǎo)致有一個(gè) tail 類的樣本被錯(cuò)分到了 head 類里。

右邊進(jìn)行了 re-balancing 訓(xùn)練的特征空間則是完全相反的，它的決策邊界向 head 類靠近了一些，所以不會(huì)再將 tail 類錯(cuò)分成 head 類，它使兩個(gè)類各自的特征向量聚得相對(duì)松散了一些。這張圖里簇的松緊程度代表特征的好壞，而決策邊界的位置代表分類器的好壞，顯而易見左邊的特征好，右邊的分類器好。

為了進(jìn)一步證明 class-entropy 學(xué)到的特征在特征空間中的簇聚得更緊，我們還做了一個(gè)實(shí)驗(yàn)：分別用 class-entropy、re-weighting 和 re-sampling 訓(xùn)練三個(gè)網(wǎng)絡(luò)，并且利用這三個(gè)網(wǎng)絡(luò)提取 CIFAR10 上 10 個(gè)類別的特征，然后計(jì)算到每個(gè)類別的特征與類中心的距離，以此作為類內(nèi)訓(xùn)練的一種度量方法。

上圖中紅色的條形圖代表的是 class-entropy，黃色和綠色分別代表的是 re-weighting 和 re-sampling。可以明顯地看到紅色的條形圖幾乎一直低于黃色和綠色的條形圖，這也進(jìn)一步證明了通過(guò) class-entropy 學(xué)到的特征，它每個(gè)類內(nèi)的簇確實(shí)會(huì)聚得更緊一些。

既然 class-entropy 它學(xué)到的特征更好，而 re-weighting 和 re-sampling 學(xué)到的分類器更好，那么我們有沒(méi)有什么辦法既可以保留 class-entropy 學(xué)到的特征表示能力，又可以充分利用 re-weighting 和 re-sampling 來(lái)增強(qiáng)分類器的性能呢？

基于這樣的目的，我們提出了一個(gè)全新的 framework：BBN。BBN 的出發(fā)點(diǎn)是希望可以兼顧特征的學(xué)習(xí)和分類器的學(xué)習(xí)。為此我們?cè)O(shè)計(jì)了兩個(gè)分支，一個(gè)分支的作用是盡可能保留 class-entropy 的特征表示能力，另一個(gè)分支的作用則是提升 tail 類的分類性能。

此外還涉及了一個(gè)漸進(jìn)式的學(xué)習(xí)策略，使用一個(gè) Adaptor 來(lái)控制兩個(gè)分支在整個(gè)訓(xùn)練過(guò)程中的學(xué)習(xí)比重，這使得網(wǎng)絡(luò)在訓(xùn)練的前期更加關(guān)注特征的學(xué)習(xí)，在中后期再逐漸地轉(zhuǎn)移和過(guò)渡到分類器的性能提升上來(lái)。

接下來(lái)我們將詳細(xì)介紹 BBN 網(wǎng)絡(luò)結(jié)構(gòu)里的每一個(gè)模塊。

首先是傳統(tǒng)學(xué)習(xí)的分支，顧名思義，傳統(tǒng)學(xué)習(xí)分支的輸入來(lái)自一個(gè)普通的均勻采樣器，它從原始的 long tail 分布里進(jìn)行收集采樣，主要作用是進(jìn)行特征表示的學(xué)習(xí)。

其次是 re-balancing 分支，re-balancing 分支來(lái)自一個(gè)逆向采樣器，逆向采樣器的每個(gè)類被采樣的概率與該樣本的數(shù)量成反比，意味著樣本的數(shù)量越少，那么它被采樣的概率就越大。這個(gè)分支的主要作用在于進(jìn)行分類器的學(xué)習(xí)，并且側(cè)重點(diǎn)在 tail 類的學(xué)習(xí)上，從而可以提升 tail 類的識(shí)別性能。

這兩個(gè)分支還有一個(gè)共享權(quán)重的設(shè)計(jì)，這樣設(shè)計(jì)的主要目的有兩個(gè)：第一個(gè)是可以減少參數(shù)量，提升訓(xùn)練和測(cè)試的速度。第二個(gè)目的則是因?yàn)閭鹘y(tǒng)分支的特征表示能力更好，共享權(quán)重可以讓 re-balancing 這一分支受益于傳統(tǒng)學(xué)習(xí)分支的特征，從而更好地進(jìn)行分類器的學(xué)習(xí)。

這兩個(gè)分支通過(guò)一個(gè) Adaptor 來(lái)控制各自在訓(xùn)練過(guò)程中的學(xué)習(xí)占比，Adaptor 會(huì)生成一個(gè)隨 epoch 遞減的 α，用這個(gè) α 來(lái)對(duì)兩個(gè)分支的特征進(jìn)行加權(quán)，最后再送入各自的分類器中，計(jì)算交叉熵的損失。

需要注意的是 α 隨著 epoch 的增加逐漸減小，這樣設(shè)計(jì)的目的是讓網(wǎng)絡(luò)可以首先專注于特征的學(xué)習(xí)，當(dāng)學(xué)到的特征足夠好了之后，再逐漸地轉(zhuǎn)移到 tail 類的性能提升上來(lái)，畢竟特征是分類器的基礎(chǔ)。

我們來(lái)看 BBN 的實(shí)驗(yàn)結(jié)果，首先是幾個(gè)主要的長(zhǎng)尾 benchmark 上的實(shí)驗(yàn)結(jié)果，我們一共在 8 個(gè)數(shù)據(jù)集上利用三種不平衡比例進(jìn)行了實(shí)驗(yàn)，分別是 long-tailed CIFAR10，long-tailed CIFAR100，以及兩個(gè)大型的長(zhǎng)尾數(shù)據(jù)集，iNaturalist 2017 和 iNaturalist 2018。

可以看到無(wú)論是在小型數(shù)據(jù)集 long-tailed CIFAR 上，還是在大型數(shù)據(jù)集 iNaturalist 上，我們的方法相對(duì)于之前的 SOTA 都有一定提升。

接下來(lái)我們看一下不同的 Adaptor 生成策略對(duì)于網(wǎng)絡(luò)性能的影響。我們通過(guò) Adaptor 生成的 α 來(lái)控制網(wǎng)絡(luò)的學(xué)習(xí)重心，直白來(lái)講就是網(wǎng)絡(luò)更關(guān)注哪一方面的學(xué)習(xí)，α 如果大于 0.5 網(wǎng)絡(luò)就更關(guān)注特征的學(xué)習(xí)，反之 α 如果小于 0.5 網(wǎng)絡(luò)就更關(guān)注 tail 類的分類性能。設(shè)計(jì)的原則是特征是標(biāo)識(shí)分類器的基石，如果沒(méi)有好的特征，那么好的分類器也無(wú)從談起。

表格里的前三行分別是固定值、β 分布及拋物線居中，這三種策略的效果都很差，這也證明了特征是分類器的基石這一原則。我們要讓網(wǎng)絡(luò)在前期更加關(guān)注特征學(xué)習(xí)，隨后再慢慢地將注意力轉(zhuǎn)移到 tail 類的分類性能上面。

后三種都是 decay 的遞減策略，這三種策略都符合特征是分類器基石這一原則，并且這三種策略的效果越來(lái)越好，這是為什么呢？

我們看一下左邊這張圖，以圖中的藍(lán)色線作為參考，三條曲線與藍(lán)色線交點(diǎn)的橫坐標(biāo)越來(lái)越長(zhǎng)，表示它們的效果越來(lái)越好，這是因?yàn)樘卣魈崛∑鞯膮?shù)相對(duì)于分類器的參數(shù)而言更大，它的層數(shù)也更深。

所以我們傾向于讓特征去花更多的時(shí)間來(lái)學(xué)習(xí)，當(dāng)特征學(xué)得足夠好，再去關(guān)注 tail 類的分類性能，當(dāng)然也不是說(shuō)特征學(xué)的時(shí)間就越久越好。總的來(lái)說(shuō)網(wǎng)絡(luò)的性能對(duì)于不同的遞減策略來(lái)說(shuō)也不是很敏感，比如 Cosine decay 相比于我們使用的 Parabolic decay 也就差了僅僅 0.2 個(gè)點(diǎn)而已。

之前的九宮格實(shí)驗(yàn)證明了 cross-entropy 的特征要比 re-weighting 和 re-sampling 好，所以我們這里設(shè)計(jì)了一個(gè)實(shí)驗(yàn)來(lái)證明 BBN 網(wǎng)絡(luò)確實(shí)可以保留 cross-entropy 的特征表述能力：主要利用從 BBN 的兩個(gè)分支提取出來(lái)的特征分別訓(xùn)練一個(gè)分類器，并與 cross-entropy、re-weighting 和 re-sampling 訓(xùn)練出來(lái)的分類器做一個(gè)橫向的對(duì)比。

可以看到 CB 這一分支，也就是傳統(tǒng)學(xué)習(xí)這一分支它的性能與 cross-entropy 差別不大，這證明 CB 這一分支確實(shí)可以比較好地保留 cross-entropy 的特征表示能力。另外值得一提的是，RB 這一分支的性能也比 re-weighting 和 re-sampling 要好不少，這可以歸功于我們權(quán)重共享的這樣一個(gè)設(shè)計(jì)。

接下來(lái)我們來(lái)看一下分類器模長(zhǎng)的可視化實(shí)驗(yàn)，分類器的 L2 模長(zhǎng)在一定程度上能夠反應(yīng)分類器對(duì)各個(gè)類別的偏愛程度，類別的模長(zhǎng)越大，分類器就會(huì)傾向于把這個(gè)樣本分為這一類。

我們重點(diǎn)看一下 BBN 的分類器模長(zhǎng)，CB 這一分支在圖中是粉紅色的條形圖，可以看出粉紅色的條形圖從 head 類到 tail 的模長(zhǎng)越來(lái)越小，這和普通的 cross-emtropy 差不多，是更偏愛 head 類的，而 RB 這一分支在圖中是深藍(lán)色的條形圖，正好和 CB 相反，從 head 類到 tail 類的模長(zhǎng)越來(lái)越大，是更偏愛 tail 類的，這說(shuō)明這一分支確實(shí)提升了 tail 類的分類性能。

CB 和 RB 結(jié)合到一起之后在圖中是紅色的條形圖，連接起來(lái)之后是一條相對(duì)比較平坦的曲線，對(duì)于每個(gè)類的偏愛程度是差不多的，并不會(huì)有特別的分類傾向。

最后我們?cè)倥c ensemble 的方法進(jìn)行對(duì)比，BBN 的 CB 和 RB 兩個(gè)分支如果完全不進(jìn)行權(quán)重共享，看起來(lái)就和模型集成有一些相似。可以看到的是無(wú)論是 Uniform sampler+Balanced sampler 還是 Uniform sampler+Reversed sampler，提升的效果都比 BBN 差很多。

關(guān)于數(shù)據(jù)實(shí)戰(zhàn)派

數(shù)據(jù)實(shí)戰(zhàn)派希望用真實(shí)數(shù)據(jù)和行業(yè)實(shí)戰(zhàn)案例，幫助讀者提升業(yè)務(wù)能力，共建有趣的大數(shù)據(jù)社區(qū)。

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來(lái)稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的双边分支网络：兼顾特征和分类的长尾问题解决方案的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： win8换xp蓝屏怎么办 win8换xp
下一篇： FGPM：文本对抗样本生成新方法

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

双边分支网络：兼顾特征和分类的长尾问题解决方案

什么是圖像任務(wù)中的長(zhǎng)尾識(shí)別問(wèn)題？

總結(jié)