當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架...

發布時間：2024/10/8 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?作者?|?機器之心編輯部

來源?|?機器之心

來自上海交通大學、Mila 魁北克人工智能研究所以及字節跳動的研究者提出了一種具有層級語義結構的自監督表征學習框架，在 ImageNet 數據集上預訓練的模型在多個下游任務中取得了 SOTA 性能。

層級結構無處不在，自然界中存在「界 - 門 - 綱 - 類 - 科 - 屬 - 種」這樣的層級關系, 大規模自然圖像數據集中也天然存在。例如，ImageNet 數據集的類別標簽本身就是基于 WordNet 層級形成的, 我們總是可以「刨根問底」地找到某個類別的「父類」。舉例而言，拉布拉多犬是一種犬類，而犬類又是一種哺乳動物。這就形成了拉布拉多犬 -> 犬類 -> 哺乳動物的層級關系。

近年來，計算機視覺領域涌現出一大批有效的自監督預訓練模型，如 NPID、SimCLR、MoCo 等，它們能夠從大規模數據集中通過自監督的方式學習潛在的圖像語義表征，從而提升預訓練模型在各項下游任務（如物體分類、目標檢測、語義分割）的遷移性能。

這些自監督預訓練框架通常基于對比學習實現. 對比學習通過定義正負樣本對，并在表征空間中最大化正樣本對之間的相似度而最小化負樣本對之間的相似度, 從而達到「同類相吸、異類互斥」的目的。在不可獲得分類標簽的情況下，NPID、MoCo、SimCLR 通過實例判別 (Instance Discrimination) 任務，將同一圖像經過不同隨機數據增強后作為正樣本對，而將不同圖像作為負樣本對，從而學習對數據增強具有不變性的圖像表征。

然而, 現有的自監督對比學習框架存在兩個問題：

缺乏對上述層級語義結構的建模；
負樣本對的定義可能存在噪聲：隨機選擇的兩張圖像可能屬于相同類別。

針對這兩個問題，來自上海交通大學、Mila 魁北克人工智能研究所和字節跳動的研究者提出了一種基于層級語義結構的選擇性對比學習框架（Hiearchical Contrastive Selective Coding，HCSC）。

論文地址:?

https://arxiv.org/abs/2202.00455

項目地址:?

https://github.com/gyfastas/HCSC

這一框架通過將圖像表征進行層級聚類，構造具有層級結構的原型向量 (hierarhcical prototypes)，并通過這些原型向量選擇更加符合語義結構的負樣本進行對比學習, 由此將層級化的語義信息融入到圖像表征中。該自監督學習框架在多個下游任務中達到卷積神經網絡自監督預訓練方法的 SOTA 性能。

方法

該工作的方法論框架包含兩個重要的模塊: 一個是層級語義結構的構建與維護, 另一個是基于層級語義結構的選擇性對比學習。

層級語義表征

研究者注意到，層級語義結構天然可以通過樹狀結構來描述：如果將樹中的某個節點認為是一個語義類別, 則父節點可以認為是它的上層類別，例如「拉布拉多犬」的父節點可以認為是「犬類」，而其兄弟節點可以包括「貴賓犬」、「薩摩犬」等。這樣的樹狀結構顯然具備一個性質：同一父節點的兩個子節點必然也共享更上層的祖先節點，例如「貴賓犬」與「薩摩犬」同為犬類, 它們也同為哺乳動物。

那么，如何在圖像的表征空間中構建這樣的樹狀結構呢？在缺少類別標簽的無監督場景中，可以通過對圖像特征聚類的方式獲得圖像的潛在語義類別。聚類中心則可以被認為是代表著某種語義類別的「原型向量」，基于自底向上的層級聚類思想, 在這些聚類中心的基礎上進一步進行聚類則可以得到更高層級的潛在語義類別。在這一過程中, 語義類別的樹狀結構自然地得以維護：在某層聚類中為相同類別的圖像，在上層中仍然保持為相同類別。

在實現過程中, 該研究采用了簡單有效的自底向上層級 K-means 算法, 具體算法流程如下：

在該訓練框架中，每進行一輪學習后，由于網絡參數的更新，圖像的表征也隨之更新。

因此，在每個訓練epoch之前, 均通過當前的網絡參數提取整個數據集的圖像表征，對提取到的圖像表征應用如上所述的層級 K-means 算法得到一系列具有樹狀結構的層級原型, 這些層級原型將在接下來的訓練過程中用于指導對比學習的樣本選擇，從而將層級化的語義信息融入到圖像表征中。

選擇性對比學習

在得到了一系列具備層級結構、潛在地表征某一類別的原型向量后, 可以基于這些原型向量選擇更加符合語義結構的對比學習樣本.?

選擇性實例對比學習

首先，我們簡要回顧一下自監督對比學習的基本原理。對比學習的目的可以概括為實現「同類相吸」、「異類互斥」。在不考慮原型向量的情況下, 基于實例的對比學習通過定義正負樣本對, 并在表征空間中最大化正樣本對之間的相似度而最小化負樣本對之間的相似度來實現上述目的。

此前的方法 (如 NPID、MoCo 等) 將同一圖像經過不同隨機數據增強后的版本作為正樣本對，而將不同圖像作為負樣本對。這樣的方式存在一個關鍵的問題：所選擇的負樣本對可能屬于相同類別，從而使得相同類別的樣本在表征空間中互相遠離，這將在某種程度上破壞模型所學習到的表征有效性。

出現這一問題的根本原因在于沒有額外的類別信息指導對負樣本的選擇。如果我們知道類別信息，則可以將同類負樣本剔除 (這些同類負樣本也可以稱為假負樣本)，從而避免帶來梯度噪聲。在自監督的情況下，雖然沒有準確的類別信息，但我們通過此前的層級聚類過程得到了一系列聚類標簽。在這些聚類標簽的幫助下, 可以近似地達到剔除假負樣本的目的：如果一對樣本屬于相同的聚類中心, 則從負樣本對中剔除即可。

更進一步地，考慮到聚類標簽的不確定性，該研究通過接受 - 拒絕采樣的方式對負樣本進行選擇。對于一個圖像表征z，層級聚類的結果可以導出該圖像在第l層所屬的聚類中心（其中s(·)是相似度函數，在該研究中通過 cosine 相似度實現）；這一聚類中心代表了該圖像在這一層中所屬的類別。接下來，對于候選負樣本，它被選擇的作為負樣本的概率為:

直觀而言, 一個候選負樣本被選擇的概率可以近似被描述為「與目標樣本屬于不同聚類中心的概率」經過選擇過程后, 更高質量的負樣本集將被用于計算 InfoNCE 損失. 在多個層級聚類中心指導下, 最終的選擇性實例對比學習 (Instance-wise Contrastive Selective Coding, ICSC) 的損失函數為：

選擇性原型對比學習

除了用于指導實例間的對比學習，層級原型還可用于輔助原型對比學習。原型對比學習是圖像表征與聚類中心之間的交互，可以簡單總結為在表征空間中最大化圖像表征與其所屬的聚類中心的相似度。

同樣地，如果通過隨機采樣的方式形成負原型集合 N_c，那么其中也可能存在與聚類中心 c 語義相近的原型 (例如 c 的兄弟節點)：如果某張圖像是薩摩犬，選擇相似的種類例如拉布拉多犬作為負例進行對比學習并不是一個好選項。而層級結構的存在為選擇合理的對比原型提供了一個解決方案：與此前選擇對比樣本類似，我們只需要計算某一候選原型與目標原型的父節點的相似度，即可選擇與目標原型大概率不是近似類別的原型，從而避免可能帶來噪聲的對比原型。具體而言, 某個聚類中心c_j被選擇作為對比原型的概率為：

類似地, 這一概率可以被描述為「某一原型與目標原型屬于不同父類的概率」。基于經過選擇后的負原型集合，選擇性原型對比學習損失被定義為：

最后, 我們將兩種改進后的對比學習損失進行組合得到最終的優化目標：

實驗結果

主要結果

研究者們在 ImageNet-1k 線性分類、KNN、半監督學習以及跨數據集的遷移學習 (包括在 VOC、COCO 數據集的目標檢測任務以及在 VOC、Places205 數據集的分類任務) 的實驗設置下與基于 CNN 架構的 SOTA 方法進行了對比，HCSC?在多個任務中均取得了出色的效果。

不同訓練配置下模型性能對比：

更多下游任務的性能對比：

可視化

除了量化實驗，該論文還給出了直觀的可視化結果。研究者們展示了 HCSC 在 ImageNet 上的聚類結果，在下圖中可以明顯地看出存在層級結構：叼著魚的灰熊 => 在水上的熊或者狗 => 在水上的動物。

另外一個例子, 研究者們展示了一個經典的語義樹狀結構：

除了層級結構可視化，研究者們也展示了 HCSC 訓練過程中刪除的「假負樣本」：例如對其中一個鳥類樣本，刪除的對比負樣本也大部分為鳥類。

消融實驗

研究者們還做了充分的消融實驗來驗證了所提出的層級原型和樣本選擇模塊的有效性，以及對每層原型數量選擇的對比實驗。可見：

1. 層級原型、實例樣本選擇、原型樣本選擇模塊的有效性都得到了驗證，可以分別在 baseline (67.6)的基礎上有效漲點 (67.6 => 68.9 => 69.2)，其中效果最明顯的是實例樣本選擇模塊。

2. 在原型數量相同的情況下，帶有層級結構的原型 (3000-2000-1000) 比單層原型 (6000) 取得更優的性能。這也印證了層級原型的有效性。另一方面，模型對進一步增加層級數以及各層原型的數量不敏感。

一作介紹

郭遠帆: 上海交通大學電子系二年級碩士生, 導師為徐奕副研究員. 他本科就讀于上海交通大學, 本科期間主要研究方向為計算機視覺、醫學影像處理, 在MICCAI、ISBI、Neurocomputing等會議與期刊中以第一作者/共同第一作者身份發表論文三篇. 碩士期間研究方向為計算機視覺、自監督學習, 在字節跳動實習期間完成該研究工作。

徐明皓，Mila 魁北克人工智能研究所一年級博士生，導師是唐建教授，主要研究方向是圖表征學習、圖像表征學習和藥物發現。他本科和碩士就讀于上海交通大學，在上海交大計算機視覺實驗室進行科研工作，導師是倪冰冰教授，期間的主要研究方向為遷移學習和視覺計算。他在 NeurIPS、ICML、CVPR、ICCV、ECCV 等會議上以第一作者 / 共同第一作者身份發表論文七篇。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：能打仗、打胜仗、有优良作风的军队
下一篇：北京内推 | 百度自然语言处理部内容理

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

CVPR 2022 | CNN自监督预训练新SOTA：上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架...

總結