日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架...

發(fā)布時間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


?作者?|?機(jī)器之心編輯部

來源?|?機(jī)器之心

來自上海交通大學(xué)、Mila 魁北克人工智能研究所以及字節(jié)跳動的研究者提出了一種具有層級語義結(jié)構(gòu)的自監(jiān)督表征學(xué)習(xí)框架,在 ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的模型在多個下游任務(wù)中取得了 SOTA 性能。

層級結(jié)構(gòu)無處不在,自然界中存在「界 - 門 - 綱 - 類 - 科 - 屬 - 種」這樣的層級關(guān)系, 大規(guī)模自然圖像數(shù)據(jù)集中也天然存在。例如,ImageNet 數(shù)據(jù)集的類別標(biāo)簽本身就是基于 WordNet 層級形成的, 我們總是可以「刨根問底」地找到某個類別的「父類」。舉例而言,拉布拉多犬是一種犬類,而犬類又是一種哺乳動物。這就形成了拉布拉多犬 -> 犬類 -> 哺乳動物的層級關(guān)系。

近年來,計算機(jī)視覺領(lǐng)域涌現(xiàn)出一大批有效的自監(jiān)督預(yù)訓(xùn)練模型,如 NPID、SimCLR、MoCo 等,它們能夠從大規(guī)模數(shù)據(jù)集中通過自監(jiān)督的方式學(xué)習(xí)潛在的圖像語義表征,從而提升預(yù)訓(xùn)練模型在各項(xiàng)下游任務(wù)(如物體分類、目標(biāo)檢測、語義分割)的遷移性能。

這些自監(jiān)督預(yù)訓(xùn)練框架通常基于對比學(xué)習(xí)實(shí)現(xiàn). 對比學(xué)習(xí)通過定義正負(fù)樣本對,并在表征空間中最大化正樣本對之間的相似度而最小化負(fù)樣本對之間的相似度, 從而達(dá)到「同類相吸、異類互斥」的目的。在不可獲得分類標(biāo)簽的情況下,NPID、MoCo、SimCLR 通過實(shí)例判別 (Instance Discrimination) 任務(wù),將同一圖像經(jīng)過不同隨機(jī)數(shù)據(jù)增強(qiáng)后作為正樣本對,而將不同圖像作為負(fù)樣本對,從而學(xué)習(xí)對數(shù)據(jù)增強(qiáng)具有不變性的圖像表征。

然而, 現(xiàn)有的自監(jiān)督對比學(xué)習(xí)框架存在兩個問題:

  • 缺乏對上述層級語義結(jié)構(gòu)的建模;

  • 負(fù)樣本對的定義可能存在噪聲:隨機(jī)選擇的兩張圖像可能屬于相同類別。

針對這兩個問題,來自上海交通大學(xué)、Mila 魁北克人工智能研究所和字節(jié)跳動的研究者提出了一種基于層級語義結(jié)構(gòu)的選擇性對比學(xué)習(xí)框架(Hiearchical Contrastive Selective Coding,HCSC)。

論文地址:?

https://arxiv.org/abs/2202.00455

項(xiàng)目地址:?

https://github.com/gyfastas/HCSC

這一框架通過將圖像表征進(jìn)行層級聚類,構(gòu)造具有層級結(jié)構(gòu)的原型向量 (hierarhcical prototypes),并通過這些原型向量選擇更加符合語義結(jié)構(gòu)的負(fù)樣本進(jìn)行對比學(xué)習(xí), 由此將層級化的語義信息融入到圖像表征中。該自監(jiān)督學(xué)習(xí)框架在多個下游任務(wù)中達(dá)到卷積神經(jīng)網(wǎng)絡(luò)自監(jiān)督預(yù)訓(xùn)練方法的 SOTA 性能。

方法

該工作的方法論框架包含兩個重要的模塊: 一個是層級語義結(jié)構(gòu)的構(gòu)建與維護(hù), 另一個是基于層級語義結(jié)構(gòu)的選擇性對比學(xué)習(xí)。

層級語義表征

研究者注意到,層級語義結(jié)構(gòu)天然可以通過樹狀結(jié)構(gòu)來描述:如果將樹中的某個節(jié)點(diǎn)認(rèn)為是一個語義類別, 則父節(jié)點(diǎn)可以認(rèn)為是它的上層類別,例如「拉布拉多犬」的父節(jié)點(diǎn)可以認(rèn)為是「犬類」,而其兄弟節(jié)點(diǎn)可以包括「貴賓犬」、「薩摩犬」等。這樣的樹狀結(jié)構(gòu)顯然具備一個性質(zhì):同一父節(jié)點(diǎn)的兩個子節(jié)點(diǎn)必然也共享更上層的祖先節(jié)點(diǎn),例如「貴賓犬」與「薩摩犬」同為犬類, 它們也同為哺乳動物。

那么,如何在圖像的表征空間中構(gòu)建這樣的樹狀結(jié)構(gòu)呢?在缺少類別標(biāo)簽的無監(jiān)督場景中,可以通過對圖像特征聚類的方式獲得圖像的潛在語義類別。聚類中心則可以被認(rèn)為是代表著某種語義類別的「原型向量」,基于自底向上的層級聚類思想, 在這些聚類中心的基礎(chǔ)上進(jìn)一步進(jìn)行聚類則可以得到更高層級的潛在語義類別。在這一過程中, 語義類別的樹狀結(jié)構(gòu)自然地得以維護(hù):在某層聚類中為相同類別的圖像,在上層中仍然保持為相同類別。

在實(shí)現(xiàn)過程中, 該研究采用了簡單有效的自底向上層級 K-means 算法, 具體算法流程如下:

在該訓(xùn)練框架中,每進(jìn)行一輪學(xué)習(xí)后,由于網(wǎng)絡(luò)參數(shù)的更新,圖像的表征也隨之更新。

因此,在每個訓(xùn)練epoch之前, 均通過當(dāng)前的網(wǎng)絡(luò)參數(shù)提取整個數(shù)據(jù)集的圖像表征,對提取到的圖像表征應(yīng)用如上所述的層級 K-means 算法得到一系列具有樹狀結(jié)構(gòu)的層級原型, 這些層級原型將在接下來的訓(xùn)練過程中用于指導(dǎo)對比學(xué)習(xí)的樣本選擇,從而將層級化的語義信息融入到圖像表征中。

選擇性對比學(xué)習(xí)

在得到了一系列具備層級結(jié)構(gòu)、潛在地表征某一類別的原型向量后, 可以基于這些原型向量選擇更加符合語義結(jié)構(gòu)的對比學(xué)習(xí)樣本.?

  • 選擇性實(shí)例對比學(xué)習(xí)

首先,我們簡要回顧一下自監(jiān)督對比學(xué)習(xí)的基本原理。對比學(xué)習(xí)的目的可以概括為實(shí)現(xiàn)「同類相吸」、「異類互斥」。在不考慮原型向量的情況下, 基于實(shí)例的對比學(xué)習(xí)通過定義正負(fù)樣本對, 并在表征空間中最大化正樣本對之間的相似度而最小化負(fù)樣本對之間的相似度來實(shí)現(xiàn)上述目的。

此前的方法 (如 NPID、MoCo 等) 將同一圖像經(jīng)過不同隨機(jī)數(shù)據(jù)增強(qiáng)后的版本作為正樣本對,而將不同圖像作為負(fù)樣本對。這樣的方式存在一個關(guān)鍵的問題:所選擇的負(fù)樣本對可能屬于相同類別,從而使得相同類別的樣本在表征空間中互相遠(yuǎn)離,這將在某種程度上破壞模型所學(xué)習(xí)到的表征有效性。

出現(xiàn)這一問題的根本原因在于沒有額外的類別信息指導(dǎo)對負(fù)樣本的選擇。如果我們知道類別信息,則可以將同類負(fù)樣本剔除 (這些同類負(fù)樣本也可以稱為假負(fù)樣本),從而避免帶來梯度噪聲。在自監(jiān)督的情況下,雖然沒有準(zhǔn)確的類別信息,但我們通過此前的層級聚類過程得到了一系列聚類標(biāo)簽。在這些聚類標(biāo)簽的幫助下, 可以近似地達(dá)到剔除假負(fù)樣本的目的:如果一對樣本屬于相同的聚類中心, 則從負(fù)樣本對中剔除即可。

更進(jìn)一步地,考慮到聚類標(biāo)簽的不確定性,該研究通過接受 - 拒絕采樣的方式對負(fù)樣本進(jìn)行選擇。對于一個圖像表征z,層級聚類的結(jié)果可以導(dǎo)出該圖像在第l層所屬的聚類中心(其中s(·)是相似度函數(shù),在該研究中通過 cosine 相似度實(shí)現(xiàn));這一聚類中心代表了該圖像在這一層中所屬的類別。接下來,對于候選負(fù)樣本,它被選擇的作為負(fù)樣本的概率為:

直觀而言, 一個候選負(fù)樣本被選擇的概率可以近似被描述為「與目標(biāo)樣本屬于不同聚類中心的概率」經(jīng)過選擇過程后, 更高質(zhì)量的負(fù)樣本集 將被用于計算 InfoNCE 損失. 在多個層級聚類中心指導(dǎo)下, 最終的選擇性實(shí)例對比學(xué)習(xí) (Instance-wise Contrastive Selective Coding, ICSC) 的損失函數(shù)為:

  • 選擇性原型對比學(xué)習(xí)

除了用于指導(dǎo)實(shí)例間的對比學(xué)習(xí),層級原型還可用于輔助原型對比學(xué)習(xí)。原型對比學(xué)習(xí)是圖像表征與聚類中心之間的交互,可以簡單總結(jié)為在表征空間中最大化圖像表征與其所屬的聚類中心的相似度。

同樣地,如果通過隨機(jī)采樣的方式形成負(fù)原型集合 N_c,那么其中也可能存在與聚類中心 c 語義相近的原型 (例如 c 的兄弟節(jié)點(diǎn)):如果某張圖像是薩摩犬,選擇相似的種類例如拉布拉多犬作為負(fù)例進(jìn)行對比學(xué)習(xí)并不是一個好選項(xiàng)。而層級結(jié)構(gòu)的存在為選擇合理的對比原型提供了一個解決方案:與此前選擇對比樣本類似,我們只需要計算某一候選原型與目標(biāo)原型的父節(jié)點(diǎn)的相似度,即可選擇與目標(biāo)原型大概率不是近似類別的原型,從而避免可能帶來噪聲的對比原型。具體而言, 某個聚類中心c_j被選擇作為對比原型的概率為:

類似地, 這一概率可以被描述為「某一原型與目標(biāo)原型屬于不同父類的概率」。基于經(jīng)過選擇后的負(fù)原型集合,選擇性原型對比學(xué)習(xí)損失被定義為:

最后, 我們將兩種改進(jìn)后的對比學(xué)習(xí)損失進(jìn)行組合得到最終的優(yōu)化目標(biāo):

實(shí)驗(yàn)結(jié)果

主要結(jié)果

研究者們在 ImageNet-1k 線性分類、KNN、半監(jiān)督學(xué)習(xí)以及跨數(shù)據(jù)集的遷移學(xué)習(xí) (包括在 VOC、COCO 數(shù)據(jù)集的目標(biāo)檢測任務(wù)以及在 VOC、Places205 數(shù)據(jù)集的分類任務(wù)) 的實(shí)驗(yàn)設(shè)置下與基于 CNN 架構(gòu)的 SOTA 方法進(jìn)行了對比,HCSC?在多個任務(wù)中均取得了出色的效果。

不同訓(xùn)練配置下模型性能對比:

更多下游任務(wù)的性能對比:

可視化

除了量化實(shí)驗(yàn),該論文還給出了直觀的可視化結(jié)果。研究者們展示了 HCSC 在 ImageNet 上的聚類結(jié)果,在下圖中可以明顯地看出存在層級結(jié)構(gòu):叼著魚的灰熊 => 在水上的熊或者狗 => 在水上的動物。

另外一個例子, 研究者們展示了一個經(jīng)典的語義樹狀結(jié)構(gòu):

除了層級結(jié)構(gòu)可視化,研究者們也展示了 HCSC 訓(xùn)練過程中刪除的「假負(fù)樣本」:例如對其中一個鳥類樣本,刪除的對比負(fù)樣本也大部分為鳥類。

消融實(shí)驗(yàn)

研究者們還做了充分的消融實(shí)驗(yàn)來驗(yàn)證了所提出的層級原型和樣本選擇模塊的有效性, 以及對每層原型數(shù)量選擇的對比實(shí)驗(yàn)。可見:

1. 層級原型、實(shí)例樣本選擇、原型樣本選擇模塊的有效性都得到了驗(yàn)證,可以分別在 baseline (67.6)的基礎(chǔ)上有效漲點(diǎn) (67.6 => 68.9 => 69.2),其中效果最明顯的是實(shí)例樣本選擇模塊。

2. 在原型數(shù)量相同的情況下,帶有層級結(jié)構(gòu)的原型 (3000-2000-1000) 比單層原型 (6000) 取得更優(yōu)的性能。這也印證了層級原型的有效性。另一方面,模型對進(jìn)一步增加層級數(shù)以及各層原型的數(shù)量不敏感。

一作介紹

  • 郭遠(yuǎn)帆: 上海交通大學(xué)電子系二年級碩士生, 導(dǎo)師為徐奕副研究員. 他本科就讀于上海交通大學(xué), 本科期間主要研究方向?yàn)橛嬎銠C(jī)視覺、醫(yī)學(xué)影像處理, 在MICCAI、ISBI、Neurocomputing等會議與期刊中以第一作者/共同第一作者身份發(fā)表論文三篇. 碩士期間研究方向?yàn)橛嬎銠C(jī)視覺、自監(jiān)督學(xué)習(xí), 在字節(jié)跳動實(shí)習(xí)期間完成該研究工作。

  • 徐明皓,Mila 魁北克人工智能研究所一年級博士生,導(dǎo)師是唐建教授,主要研究方向是圖表征學(xué)習(xí)、圖像表征學(xué)習(xí)和藥物發(fā)現(xiàn)。他本科和碩士就讀于上海交通大學(xué),在上海交大計算機(jī)視覺實(shí)驗(yàn)室進(jìn)行科研工作,導(dǎo)師是倪冰冰教授,期間的主要研究方向?yàn)檫w移學(xué)習(xí)和視覺計算。他在 NeurIPS、ICML、CVPR、ICCV、ECCV 等會議上以第一作者 / 共同第一作者身份發(fā)表論文七篇。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競賽經(jīng)驗(yàn)講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。