日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

计算机视觉中的自监督表示学习近期进展

發(fā)布時間:2024/10/8 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 计算机视觉中的自监督表示学习近期进展 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者|燕皖

單位|淵亭科技

研究方向|計算機(jī)視覺、CNN

回顧過去一年左右的自監(jiān)督學(xué)習(xí)領(lǐng)域的最重要發(fā)展,那么會發(fā)現(xiàn)很多優(yōu)秀的作品:MoCo v1 和 v2,SimCLR v1 和 v2,BYOL。本文先對自監(jiān)督表示學(xué)習(xí)進(jìn)行一般性介紹,隨后重點介紹這幾種自監(jiān)督學(xué)習(xí)方法。

Representation Learning

▲ Representations: The input image (224 x 224 x 3) is passed through a feature extractor (typically a trained CNN network) that non-linearly transforms the spatial features of the image to a vector space of dimension 512.

計算機(jī)視覺中的表征學(xué)習(xí)是從原始數(shù)據(jù)中提取特征。特征提取涉及將原始數(shù)據(jù)處理到向量空間中,捕獲表示該數(shù)據(jù)的基礎(chǔ)時空信息。

在計算機(jī)視覺中,表征學(xué)習(xí)算法可分為兩類:

  • 監(jiān)督學(xué)習(xí)(Supervised learning):利用大量的標(biāo)注數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,完成模型訓(xùn)練之后,不直接使用分類的 fc 層的輸出,而是其前一層的輸出作為 Representation 用于下游任務(wù)。

  • 自監(jiān)督學(xué)習(xí)(Self-Supervised Learning):利用大規(guī)模的無標(biāo)注的數(shù)據(jù),選擇合適的輔助任務(wù)(pretext)和自身的監(jiān)督信號,進(jìn)行訓(xùn)練,從而可以學(xué)習(xí)到 Representation 用于下游任務(wù)。

Self-Supervised Learning

自監(jiān)督學(xué)習(xí)的思想來源于自然語言處理(NLP)領(lǐng)域。在 NLP 中,一個大的未標(biāo)記語料庫通過表征學(xué)習(xí)抽取每個語料的表征,也就是將高維空間稀疏的表示轉(zhuǎn)換為低維空間稠密的表示,然后再使用稠密的表示完成下游任務(wù)的訓(xùn)練。

而基于深度學(xué)習(xí)的計算機(jī)視覺任務(wù)面臨的一個主要問題是大量數(shù)據(jù)處理的問題。為了獲得良好的結(jié)果,通常需要標(biāo)記大量的數(shù)據(jù)。在許多情況下,大量的標(biāo)記是很麻煩的,所以自監(jiān)督學(xué)習(xí)被用來作為一個解決方案來克服這一點。

現(xiàn)有的自監(jiān)督學(xué)習(xí)通常分為兩大類,生成方法(Generative Methods)和對比方法(Contrastive Methods)。生成方法專注于像素空間的特征,其過于關(guān)注像素細(xì)節(jié),難以建立空間關(guān)聯(lián)和結(jié)構(gòu)。

而對比方法通過正面和負(fù)面的例子來學(xué)習(xí)表征。盡管不是全新的思路,但其在計算機(jī)視覺任務(wù)中取得了較快的發(fā)展。通常自監(jiān)督的對比方法也稱為自監(jiān)督對比學(xué)習(xí)。

Contrastive Learning

3.1 Contrastive Loss(InfoNCE)

對比學(xué)習(xí)的核心思想是最大化相似性和最小化差異性的損失。先定義:

  • Query (q):待查詢的圖像

  • Positive sample (k?):與 query 相似的樣本

  • Negative sample (k?):與 query 不相似的樣本

Van den Oord et al.提出了一種稱為 Noise Contrastive Estimation (InfoNCE) 得損失函數(shù),如下:

這里的 q 是 encoded query 向量,而包含 encoded keys 的字典 k 記做 ,每一個 query 有一個對應(yīng)的 Positive sample 和 k 個 Negative samples,因此,研究的就是 (K+1)-way 分類器問題,其目標(biāo)是將 q 分類為 。

也就是說,如果 q 盡可能接近 ,同時又遠(yuǎn)離字典中其他 k 個負(fù)樣本,那么損失值就會最小。

3.2 Contrastive Learning Architectures

3.2.1 End-to-End Backpropogation Based

一個思路是使用基于端到端反向傳播的方法,有兩個編碼器,一個生成查詢向量 q,另一個計算字典鍵 k(從當(dāng)前的訓(xùn)練 batch 中獲取)。舉個例子來說,每一個 batch 采樣 10 張圖片,則每一張圖片都和這 10 張圖片算一個 contrastive loss。

雖然這在實踐中可行,但算法由于 GPU 內(nèi)存有限,字典的容量基本上是非常有限的,因此,end-to-end 問題的核心在于 ?dictionary size 和 batch size 的耦合。

3.2.2 Memory Bank

針對 end to end 的耦合問題,memory bank 采用了將 dictionary 保存下來,每一個 batch 再去更新對應(yīng)的表示。Memory bank 中存儲的是所有訓(xùn)練數(shù)據(jù)經(jīng)過 key encoder 編碼之后的表示。

在訓(xùn)練過程中,每一個 batch 采樣出來的數(shù)據(jù)將重新被 key encoder 編碼,替換掉 memory bank 中原來的表示。而 key encoder 和 query encoder 是同樣 network,不過在計算每個 batch 的 contrastive loss 時,雖然都要進(jìn)行一次 dictionary 的采樣,但在更新參數(shù)時,不會對 key encoder 傳播梯度。

Memory Bank 的問題是:儲存的 key 有用很早以前的參數(shù)的 key encoder 編碼出來的,這會造成網(wǎng)絡(luò)參數(shù)的不一致。

3.2.3 Momentum Contrast

使用動量法實時更新鍵值編碼器的參數(shù),而且每一個 batch 都會淘汰掉 dynamic dictionary 中最早被編碼的那一批數(shù)據(jù),然后把最新采樣的數(shù)據(jù)加進(jìn)去。這就緩解了 memory bank 中,過早 sample 的數(shù)據(jù)編碼已經(jīng)不一致的問題。

Related Papers

4.1 MoCo

先前的方法,有以下缺陷:

  • end2end 方法的 dictionary size 和 batch size 的耦合;

  • memory bank 方法會因為快速改變的 encoder,其鍵值表示特征的連續(xù)性較差;

因此,FAIR 提出了 MoCo,使得構(gòu)建的字典具有大容量和一致性的特點。如下圖所示,MoCo 將字典表示為數(shù)據(jù)采樣的隊列:

  • 當(dāng)前 mini-batch 的編碼表示特征入隊時,舊的 mini-batch 的編碼表示特征出隊;

  • 隊列的大小和 mini-batch 的大小無關(guān),因而字典可以有很大的容量;同時,字典的鍵值來自于先前的幾個 mini-batches 的融合;

  • momentum encoder 是基于動量的滑動平均值計算得到,保證了字典的持續(xù)性。

偽代碼如下,每次迭代時,對相同的樣本使用了不同的數(shù)據(jù)增強(qiáng)方法,將結(jié)果分別作為查詢集和鍵值。每次梯度傳播不向 key encoder 傳播,而只更新 query encoder 的參數(shù)。key encoder 的參數(shù)采用逐步向 query encoder 逼近的方式。

4.2 SimCLR

Google Brain 團(tuán)隊提出 SimCLR 發(fā)現(xiàn)了以下結(jié)論:

  • 數(shù)據(jù)擴(kuò)充的組合在有效的預(yù)測任務(wù)中起著關(guān)鍵作用;

  • 在表征和對比損失之間引入可學(xué)習(xí)的非線性變換,大大提高了學(xué)習(xí)表示的質(zhì)量;

  • 與有監(jiān)督的學(xué)習(xí)相比,對比學(xué)習(xí)需要更大 batch size 和訓(xùn)練輪數(shù)。

在我看來,第一點和第二點都是非常重要的結(jié)論,而第三點在后續(xù)的工作 MoCov2 和 BYOL 的試驗中被證明不是必要條件。

如上圖所示,SimCLR 主要包含以下幾個部分:

Data augmentation

SimCLR 的對比性學(xué)習(xí)主要來自兩個部分:(1) 同張圖片,通過不同 data augmentation 的互相拉引;(2) 不同圖片的互相推離。論文相當(dāng)關(guān)鍵的一部份就是研究了 data augmentation 對于 unsupervised contrastive learning 的幫助。

Base Encoder

使用 ResNet-50 用作基礎(chǔ)神經(jīng)網(wǎng)絡(luò)編碼器,用于從增強(qiáng)數(shù)據(jù)示例中提取表示向量。最后一個平均池化層的輸出,用于提取 representation。

Projection Head

在 representation 與 contrastive loss 間使用可學(xué)習(xí)的 non-linear projection,并證明效果較好。這邊使用可學(xué)習(xí)的網(wǎng)路的優(yōu)勢在于避免計算 similarity 的 loss function 在訓(xùn)練時丟掉一些重要的 feature。論文中使用非常簡單的單層 MLP,配上 ReLU activation function 作為 non-linear projection。

Contrastive Loss Function

在算 contrastive loss 時使用在 NT-Xent (the normalized temperature-scaled cross entropy loss),并證明效果會比較好。公式如下,可以把它當(dāng)成一種算 similarity 的延伸方法就好。

其中,zi 和 zj 是從 Projection Head 獲得的輸出矢量,output∈{0,1} if k≠i,τ 表示溫度參數(shù)。

Supervised Fine-Tuning

最后提一個隱藏在 SimCLR 的細(xì)節(jié):SimCLR 宣稱的 SSL 與 CL 的效果是在做在 visual representation上,白話點就是指一組高維空間的 latent feature,在預(yù)訓(xùn)練之后,可以使用 CNN 圖像的 representation,然后,此經(jīng)過微調(diào)的網(wǎng)絡(luò)將用于圖像分類等下游任務(wù)。

4.3 MoCo v2

MoCo v2 使用了 SimCLR 的兩點有效改進(jìn):在 encoder 編碼特征計算 loss 前加入了 MLP 的 projection head 以及多種數(shù)據(jù)增強(qiáng)手段,并且將這兩點改進(jìn)應(yīng)用到 MoCo 框架,同時又解決 SimCLR 本身需要大 batch size 的問題。

  • 原始的 SimCLR 是采用end to end 的方式,負(fù)例 keys 都是來源于同一個 batch,并且通過反向傳播來更新參數(shù)。假設(shè) batch 里有 N 個樣本,則計算 affinity 的復(fù)雜度為 N*N, 計算量較大,且比較依賴于大的 batch size。

  • 而通過引入 MoCo 的框架,只需要把 query 送到 encoder 中去,而不需要很大的Batch。其中Momentum encoder用于計算 positive 和 negative 的 encoding,但是這個 encoder 是不用反向梯度來更新的,而是直接用左邊的 encoder 來做一個 moving average。

實驗的結(jié)果也非常好,在 ImageNet 任務(wù)提升了 6%。在我看來,Moco v2 是站在了 MoCo 和 SimCLR 基礎(chǔ)上,還是很好理解的。

4.4 SimCLR v2

SimCLRv2 使用了一種獨(dú)特的訓(xùn)練方法,包括使用的無監(jiān)督預(yù)訓(xùn)練、半監(jiān)督訓(xùn)練、有監(jiān)督的微調(diào)和未標(biāo)記數(shù)據(jù)的蒸餾,這超出了本文的范圍,就不做詳細(xì)介紹,不過 SimCLRv2 對工業(yè)界還是有很多用處的。

因為現(xiàn)實世界中有很多未標(biāo)記的數(shù)據(jù),手動標(biāo)記每個樣本以進(jìn)行監(jiān)督學(xué)習(xí)是一種非常低效的方法。而 SimCLRv2 利用未標(biāo)記的數(shù)據(jù)來改進(jìn)和傳輸特定于任務(wù)的知識,并取得了很好的結(jié)果,難道這不值得借鑒嗎?

4.5 BYOL

終于到了 BYOL,這篇是我非常喜歡的一篇。BYOL 不僅僅是集大成所作,使用了 MPL、DataAugment 和 momentum constant 而已,更重要的是其提出了 CL 中關(guān)于負(fù)樣本的新認(rèn)識,并證明了無需負(fù)樣本也能夠取得好的效果。

如上圖所示:

  • 上面的分支是 online network,參數(shù)為 。具體包括三個網(wǎng)絡(luò),encoder ,projector 以及 predictor 。最終訓(xùn)練好之后只需要將 保留下來作為訓(xùn)練好的特征提取器。

  • 下面的分支是 target network,參數(shù)為 。網(wǎng)絡(luò)比 online 少一個,只有 encoder 網(wǎng)絡(luò) 和 projector 網(wǎng)絡(luò) 。

  • 網(wǎng)絡(luò)更新:online 網(wǎng)絡(luò)參數(shù)使用梯度進(jìn)行更新,而 target 網(wǎng)絡(luò)參數(shù)是通過 online 網(wǎng)絡(luò)的滑動平均得到的。

  • 損失函數(shù):直接使用 L2 損失。

由于 BYOL 不需要進(jìn)行 negative 樣本,因此性能對 batch size 的大小不是特別敏感。同等參數(shù)量的情況下,BYOL 的效果也是非常好。

總結(jié)

關(guān)于近年來的自監(jiān)督表示學(xué)習(xí)就介紹到這里,個人對這個方向有很多的期待,希望本文對您有所幫助。

參考文獻(xiàn)

[1] Falcon, William, and Kyunghyun Cho. "A Framework For Contrastive Self-Supervised Learning And Designing A New Approach."arXiv preprint arXiv:2009.00104(2020).

[2]Philip Bachman, R Devon Hjelm, and William Buchwalter. Learning representations by maximizing mutual information across views. arXiv preprint arXiv:1906.00910, 2019.

[3] Olivier J Hénaff, Ali Razavi, Carl Doersch, SM Eslami, and Aaron van den Oord. Data-effificient image recognition with contrastive predictive coding. arXiv preprint arXiv:1905.09272, 2019.

[4] Ting Chen, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. A simple framework for contrastive learning of visual representations. arXiv preprint arXiv:2002.05709, 2020.

[5] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. arXiv:1911.05722, 2019.

更多閱讀

#投 稿?通 道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn):

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨(dú)在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的计算机视觉中的自监督表示学习近期进展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 蜜桃成熟时李丽珍在线观看 | 在线免费一区 | 久久久久成人片免费观看蜜芽 | 天天操网站| 亚洲天堂视频在线观看 | 葵司有码中文字幕二三区 | 亚洲精品.www | 成人爽爽爽 | 欧美高清视频一区二区 | 国产精品一二三四五区 | 精品久久久久久久久久久久久久久久久 | 欧美精品久久久久久久免费 | 国产永久精品大片wwwapp | 久久精品成人 | 91福利一区 | 韩国av永久免费 | 性无码专区无码 | 激情av综合 | 天堂精品视频 | 免费不卡视频 | 精品在线免费视频 | 国产香蕉97碰碰碰视频在线观看 | 美女扒开尿口让男人爽 | 人碰人操 | 狠狠干精品 | 蜜臀99久久精品久久久久小说 | 日韩激情久久 | 爱爱免费视频网站 | 亚洲欧美日韩中文在线 | a资源在线 | 欧美一区二区三区四区五区六区 | 成人熟女一区二区 | 宝贝乖h调教灌尿穿环 | 中文字幕免费视频 | 中国大陆一级毛片 | 欧美一区二区三区在线免费观看 | 日本午夜精华 | 三级免费 | 亚洲视频中文字幕 | 激情婷婷小说 | 无码一区二区波多野结衣播放搜索 | 国产同性人妖ts口直男 | 色丁香婷婷 | 国产资源精品 | 日韩一区二区三区久久 | 成人一级视频在线观看 | 一个人看的www日本高清视频 | 华人永久免费视频 | 国产又粗又猛又爽又黄91 | 亚洲最大网站 | 日韩一级在线 | zzjj国产精品一区二区 | 少妇喷水在线观看 | 中文字幕在线免费视频 | 亚洲精品视频在线播放 | 日韩精品久久久久久久电影99爱 | 国产女人和拘做受视频免费 | 蜜桃在线一区 | 视频二区欧美 | 亚洲最大激情网 | 天天干天天日夜夜操 | 求一个黄色网址 | 欧美性俱乐部 | 亚洲AV成人无码一二三区在线 | 超碰一级片 | 欧美成人国产va精品日本一级 | 99综合 | 日本国产一级片 | 在线一区不卡 | 713电影免费播放国语 | 久久不射网 | 久久夜色精品国产噜噜亚洲av | 中文有码在线观看 | 激情超碰在线 | 国产高清一二三区 | www.男人天堂 | 日本特黄网站 | 精品自拍视频 | 91美女视频网站 | 亚洲女女做受ⅹxx高潮 | 好吊视频在线观看 | 欧美a v在线播放 | 国产亚洲精品成人av在线 | 黑人一级女人全片 | 久久久久久久久久久av | 野外做受又硬又粗又大视频√ | 大胸奶汁乳流奶水出来h | 日韩在线观看免费 | chien国产乱露脸对白 | 美女光屁屁露胸胸 | 91精品看片 | 香蕉茄子视频 | 免费看日韩毛片 | 激情四月 | 进去里视频在线观看 | 日韩精品成人一区二区在线 | 日韩精品免费一区二区三区 | 青青草欧美| 日韩女优在线视频 |