日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自监督和语言监督我全都要?Facebook多模态预训练模型SLIP给你答案!

發(fā)布時間:2024/10/8 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自监督和语言监督我全都要?Facebook多模态预训练模型SLIP给你答案! 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?作者 | 殘血的三井壽

今天分享的文章是 Facebook AI Reserach(FAIR)發(fā)布在 arxiv 的文章“SLIP: Self-supervision meets Language-Image Pre-training”。

論文鏈接:

https://arxiv.org/pdf/2112.12750.pdf

代碼鏈接:

https://github.com/facebookresearch/SLIP


Motivation

現(xiàn)有的工作(SimCLR,MOCO 等)已經(jīng)證明自監(jiān)督預訓練在視覺理解方面可以取得很好的效果。CLIP 將文本作為監(jiān)督信號,對模型進行預訓練,從而取得了不錯的效果。如果將自監(jiān)督和語言監(jiān)督結合起來,能否取得加成的效果呢?FAIR 提出工作 SLIP 將自監(jiān)督與語言監(jiān)督結合起來,進行預訓練,在下游任務上取得了不錯的效果。

隨著深度學習的發(fā)展,預訓練取得了很好的效果。在計算機視覺領域,預訓練主要分為基于監(jiān)督學習的預訓練以及基于自監(jiān)督學習的預訓練。在 AlexNet 以后,研究者發(fā)現(xiàn)在大規(guī)模有標注數(shù)據(jù)集下對模型進行預訓練,模型在下游任務可以取得很好的效果。自監(jiān)督的預訓練首先在自然語言理解領域取得很好的進展,但是在視覺領域也有很多的應用。自監(jiān)督預訓練可以不需要大量的標注數(shù)據(jù)依然可以取得很好的效果。

CLIP 提出了一種新穎的表示學習方式,提出了一種在監(jiān)督學習和自監(jiān)督學習之間的形式,CLIP 僅僅需要圖片以及圖片對應的文本信息,利用對比學習的思路,對模型進行預訓練。

在 SLIP 工作中,作者想探索的問題是“在語言監(jiān)督的前提下,圖片本身的自監(jiān)督是否可以提升模型的效果?在圖像本身自監(jiān)督的前提下,語言監(jiān)督是否會提升效果?”目前尚且不清楚這兩種訓練目標是否可以同時增強。

作者使用三種檢測方法測試 SLIP 的圖片表示能力,分別是:零樣本學習方式,線形探測方式以及端到端的 finetune 方式。


模型方法

SLIP 沒有利用標注信息,結合了語言監(jiān)督以及圖片自監(jiān)督方法學習視覺表示。作者使用同一個圖像的 encoder,由自監(jiān)督 loss 和語言監(jiān)督 loss 同時對該 encoder 進行更新。

1. 對比學習圖片-文本預訓練:

CLIP 將圖片-文本對作為輸入,利用對比學習更新視覺 encoder。CLIP 首先使用文本編碼器以及視覺編碼器編碼視覺信息與文本信息,之后將視覺 embedding 與文本 embedding 經(jīng)過一個 projector 映射到統(tǒng)一的向量空間中。之后將原本的圖片文本對視為正例,將不同的圖片文本對之間的圖片與文本視為負例,通過 InfoNCE 更新模型的參數(shù)。

基于圖片-文本對的對比學習方法使得模型可以進行零樣本的圖像分類。

2. 視覺自監(jiān)督學習:

視覺自監(jiān)督學習方法首先將圖片進行數(shù)據(jù)增強得到圖片的兩個增廣,之后將相同圖片的數(shù)據(jù)增廣結果視為正例,將不同圖片之間的數(shù)據(jù)增廣視為負例,通過 infoNCE 拉近正例之間的距離,拉遠正例和負例之間的距離。

模型算法如下圖所示:

算法的想法很簡單易懂。輸入為圖片-文本對。首先對圖片進行數(shù)據(jù)增廣,之后對增廣后的圖片輸入到自監(jiān)督的 SimCLR 模型中,得到自監(jiān)督的 loss。將圖片-文本對輸入到 CLIP 中,得到語言間的 loss,之后將兩個 loss 加權求和,得到最終的 loss。

實現(xiàn)細節(jié):

數(shù)據(jù)集:數(shù)據(jù)集 YFCC100M 的子集,該子集中包含圖片-英文描述文本對。可以稱之為 YFCC15M 數(shù)據(jù)集。我們同樣使用 CC3M 和 CC12M 評估該模型。

數(shù)據(jù)增強:對于文本,作者選取每張圖片的文章標題或者標注作為文本。對于 CLIP 方法,對圖片進行 50% 到 100% 的縮放。對于自監(jiān)督方法,使用的數(shù)據(jù)增強方法與 MOCO v3 一致。

backbone:對于視覺信息,使用 VIT-S 作為編碼器,對于文本信息,使用 trasformer 作為編碼器。

zero-shot 實驗:直接將預訓練后的模型用于實驗,使用文本監(jiān)督的方法(CLIP,SLIP)可以直接將與圖片最相關的文本作為圖片的類別,所以可以進行 zero-shot 實驗。

Linear classification(Linear probing)實驗:將預訓練好的模型凍結,之后再在后面加入分類層,僅僅更新分類層的參數(shù),而不更新其他的參數(shù)。

end-to-end finetune 實驗:將整個 encoder 和 classifer 進行參數(shù)更新。


實驗分析

1. ImageNet Classification:一般情況下的自監(jiān)督方法都是在無標注的 ImageNet 數(shù)據(jù)集上進行預訓練,之后再使用有標注的 ImageNet 對模型進行微調整。本文作者嘗試在 YFCC15M 數(shù)據(jù)集上對 SimCLR 和 MOCO v3 進行預訓練,之后在 ImageNet 數(shù)據(jù)集對模型進行微調。

實驗結果表明使用 YFCC15M 數(shù)據(jù)集進行預訓練后,模型性能下降很多。

作者使用 CLIP,SimCLR 以及 SLIP 在 ImageNet 數(shù)據(jù)集上進行實驗。發(fā)現(xiàn) SLIP 的效果是最好的。

2. 參數(shù)實驗:

作者使用不同參數(shù)量的 ViT 進行實驗,同時使用更多的 Epoch 進行實驗,得到結果。可以發(fā)現(xiàn)隨著模型參數(shù)量增多,以及模型的訓練時間增強,模型的效果會越來越好。

3. 其他的 benchmark:

作者使用 zero-shot 的方法在其他 benchmark 上進行實驗。

4. 其他預訓練數(shù)據(jù)集實驗:

作者使用其他預訓練數(shù)據(jù)集進行實驗。

5. 使用其他自監(jiān)督方法進行實驗:

作者更換了自監(jiān)督方法 SimCLR,使用其他自監(jiān)督方法進行實驗。

特別鳴謝

感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經(jīng)驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權問題

? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質量階梯制結算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

·

總結

以上是生活随笔為你收集整理的自监督和语言监督我全都要?Facebook多模态预训练模型SLIP给你答案!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。