當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

發布時間：2024/10/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

??PaperWeekly 原創 ·?作者?|?楊浩

研究方向?|?自然語言處理

#01.

VL-T5

論文標題：

Unifying Vision-and-Language Tasks via Text Generation

收錄會議：

ICML 2021

論文鏈接：

https://arxiv.org/abs/2102.02779

代碼鏈接：

https://github.com/j-min/VL-T5

1.1 Motivation

提出了一個統一的框架、統一的訓練目標，能夠兼容 7 個多模態任務的學習。統一的訓練方式是 multimodal conditional text generation，即輸入視覺圖片+文本，生成文本 label，不同的任務之間的知識可以共享。

1.2 Method

7 個多模態任務的 benchmark，包括 VQA, GQA, COCO Caption, NLVR2, VCR, MMT, REF-COCOg。所有任務的輸入加上文本前綴（e.g.”vqa:”, “image text match:”）用于區分不同任務，輸出都統一成 text label 的形式。對于 visual grounding 任務，圖片特征輸入時就加了類似 <vis_n> 的 region id，所以輸出時可以用 text label “<vis_n>” 來指示預測的圖片區域。

1.3 Contribution

提出任務統一框架，使用了 encoder-decoder 的 Transformer 結構。

#02.

CLIP

論文標題：

Learning Transferable Visual Models From Natural Language Supervision

收錄會議：

ICML 2021

論文鏈接：

https://arxiv.org/abs/2103.00020

代碼鏈接：

https://github.com/OpenAI/CLIP

2.1 Motivation

NLP 領域BERT/GPT 等可以利用大量的語料的數據進行自監督訓練從而進行 pretrain，然而 CV 領域是用標注信息的分類數據集進行 pretrain (ImageNet)，是否能利用網上大規模的圖片信息進行預訓練，使用 natural language 作為 image representation 的監督信號，從而提升下游任務的效果。

2.2 Method

1.?利用從互聯網爬取的 400 million 個 image-text pair 進行圖文匹配任務的訓練，并將其成功遷移應用于 30 個現存的計算機視覺——OCR、動作識別、細粒度分類等。

2. 使用對比學習的方法，做圖文匹配的任務，計算相似度。給定 batch=N 的 image-text pairs，CLIP 預測 NxN 的概率（利用線性變換得到 multi-modal embedding space 的向量，點乘計算得到相似度），對角線即為正樣本，其它都是負樣本。

2.3 Contribution

無需利用 ImageNet 的數據進行訓練，就可以達到 ResNet-50 在該數據集上有監督訓練的結果。

#03.

Frozen

論文標題：

Multimodal Few-Shot Learning with Frozen Language Models

收錄會議：

NeurIPS 2021

論文鏈接：

https://arxiv.org/abs/2106.13884

3.1 Motivation

借鑒 NLP 中 prompt 工作，Frozen 可以看成是一種 image conditional 下的 prompt learning，即將連續的 prompt 特征學習變成是來自于圖片的特征（由另一個網絡訓練產生）。探究了固定語言模型參數下如何學習多模態任務。

3.2 Method

Vision Encoder 編碼得到圖片特征，再映射為 n 個 prompt 向量加到文本表示之前。Language Model 使用了一個 7 billion 參數規模的預訓練好的模型；Vision Encoder 使用了 NF-ResNet-50。

3.3 Contribution

通過將 prompt 擴展到有序的圖像，將大型語言模型轉換為多模態語言模型的方法同時保留語言模型的文本提示能力，在 VQA、OKVQA、miniImageNet 等多個數據集驗證了遷移學習的效果。由于 Visiual Encoder 和文本的處理比較簡單，模型效果離 SOTA 有一定的距離。

#04.

CoOp

論文標題：

Learning to Prompt for Vision-Language Models

收錄會議：

NeurIPS 2021

論文鏈接：

https://arxiv.org/abs/2109.01134

代碼鏈接：

https://github.com/KaiyangZhou/CoOp

4.1 Motivation

CLIP 中使用的手工 prompt 有兩個缺點：1）需要額外的知識和人力來為每個下游任務/數據集設計合適的 prompt，當數據集或者下游任務很多時非常耗時耗力；2）手工 prompt 不太穩定，對某個單詞可能很敏感。把 NLP 中離散 token->連續 token 思路引入進來。

4.2 Method

在 class 前面加入一組 prompt 連續向量，續可學的 prompt 具體又可分為 unified context 和 class-specific context (CSC) 兩種。實驗發現 class-specific context (CSC) 這種類型的 prompt 對細粒度圖片分類任務更有用，而在一般的數據集上，unified context 效果更好。

4.3 Contribution

在圖片分類任務上的 few-shot learning 設置上，連續 prompts 比 CLIP 中手工定制的 prompt 效果有很大提升。

#05.

MAnTiS

論文標題：

Multimodal Conditionality for Natural Language Generation

論文鏈接：

https://arxiv.org/abs/2109.01229

5.1 Motivation

將 prompt 方法應用到文案生成。

5.2 Method

image 和 text（即商品 title），分別用 ResNet-152 和 embedding 映射到語言模型的同一個空間中為為 prompt，同時作為條件的文本輸入和生成序列一同進行編碼，最后再經過 Transformer Decoder 得到輸出的描述。

5.3 Contribution

文案生成效果中融入視覺效果，使得生成效果更佳。

#06.

CPT

論文標題：

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

論文鏈接：

https://arxiv.org/abs/2109.11797

6.1 Motivation

將 prompt 方法應用到 visual grounding 任務上，將任務轉化為完形填空問題。

6.2 Method

對圖片中的 object 一些被涂上不同顏色的圖片，然后把文本當作問題，最后回答什么顏色的圖片是問題的答案并填空。

6.3 Contribution

該方法在 visual grounding 任務上 zero/few shot 場景下取得了非常好的表現。

#07.

CLIP-Adapter

論文標題：

CLIP-Adapter: Better Vision-Language Models with Feature Adapters

論文鏈接：

https://arxiv.org/abs/2110.04544

代碼鏈接：

https://github.com/gaopengcuhk/clip-adapter

7.1 Motivation

soft prompt 優化的 CoOp，由于 CLIP 的過度參數化和缺乏足夠的訓練樣本，簡單的網絡調整會導致對特定數據集的過擬合。從而本文只需對輕量級附加特征適配器進行微調，受參數有效遷移學習中適配器模塊的啟發，作者提出了 CLIP-Adapter，它只調整少量額外權重，而不是優化 CLIP 的所有參數。

7.2 Method

1. CLIP Adapter 僅在視覺或語言主干的最后一層之后添加了兩個額外的線性層；相反，原始適配器模塊插入到語言主干的所有層中；

2. CLIP Adapter 通過殘差連接將原始 Zero-Shot 視覺或語言嵌入與相應的網絡調整特征混合。通過這種“殘差樣式混合”，CLIP Adapter 可以同時利用原始 CLIP 中存儲的知識和來自 Few-Shot 訓練樣本的新學習的知識。

7.3 Contribution

在 11 個數據集上 few-shot 的實驗結果，CLIP-Adapter 明顯優于 CoOp 和 CLIP。

#08.

DenseCLIP

論文標題：

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

論文鏈接：

https://arxiv.org/abs/2112.01518

收錄會議：

CVPR 2022

代碼鏈接：

https://github.com/raoyongming/denseclip

8.1 Motivation

1. CoOp 中可學的 prompt 是 task-level 或者 class-level 的，不能隨著每個輸入數據樣例的變化而變化，本文設計了 instance-level 的 prompt，即把視覺（圖片）特征注入到 prompt 向量中去，所以每個數據對應的 prompt 都是不一樣的，引入了數據側的信息。

2. 從圖像-文本對中學習到的知識轉移到更復雜的密集預測任務的問題幾乎沒有被研究（目標檢測、語義分割和動作識別等）。在這項工作中，作者通過隱式和顯式地利用 CLIP 的預訓練的知識，提出了一個新的密集預測框架。

8.2 Method

pre-model prompting：在文本編碼器之前將視覺特征和可學習 soft tokens 傳遞給 Transformer 解碼器生成。

prompt post-model prompting：在文本編碼器之后將視覺特征和類別向量傳遞給 Transformer 解碼器生成類別向量表示。

8.3 Contribution

提出一個更通用的框架，可以利用從大規模預訓練中學到的自然語言先驗來改善密集預測。

#09.

PromptFuse

論文標題：

Prompting as Multimodal Fusing

論文鏈接：

https://openreview.net/pdf?id=wWZCNLkK-FK

9.1?Motivation

對 Frozen 的改進，Frozen 中的 image encoder 同時完成了兩個目標：提取視覺特征、對齊圖文空間的表示。本文對這兩個目標解耦，image encoder 只負責編碼圖像特征，而對齊圖文空間表示的任務交給 prompt 向量來做。這樣視覺編碼器的參數也變成固定的了，只有 prompt 向量的參數是可訓練的。

這樣做有兩個好處：1）整個架構更加模塊化，可以靈活調整視覺編碼器，也可以靈活地加入其他模態；2）實現了更高的參數效率，視覺編碼器中的大量參數都可以凍結，只需要調整 prompt 向量即可。本文還提出了一種特殊的 attention mask，它迫使 prompt 對所有輸入數據都是不可見的，稱為 BlindPrompt。

9.2 Method

固定視覺編碼器和文本編碼器，只更新 prompt 向量。

9.3 Contribution

相比?Fintune 上對于 few-shot 和 full-shot 上有些效果上的提升。

#10.

UniVL

論文標題：

Unified Multimodal Pre-training and Prompt-based Tuning for Vision-Language Understanding and Generation

論文鏈接：

https://arxiv.org/abs/2112.05587

10.1 Motivation

提出理解與生成統一的多模態預訓練，使用 mixing causal mask，下游任務使用 prompt 進行 fintune。

10.2 Method

預訓練使用圖文對比學習+MLM+圖文匹配 loss。

10.3 Contribution

在圖文檢索 full-shot/zero-shot 相比 UNITER、CLIP 等有所提升，在 Image captioning 和 VQA 上效果也有提升，但是沒有達到 SOTA 水平。

#11.

VL-Adapter

論文標題：

VL-Adapter: Parameter-Efficient Transfer Learning for Vision-and-Language Tasks

論文鏈接：

https://arxiv.org/abs/2112.06825

11.1 Motivation

在大型文本語料庫上預訓練的語言模型的微調在視覺和語言（V&L）任務以及純語言任務上提供了巨大的改進。然而，由于模型規模迅速增長，對預訓練模型的整個參數集進行微調變得不切實際。

11.2 Method

將三種流行的基于適配器的方法（Adapter, Hyperformer, Compacter）與標準的完全微調和最近提出的提示微調方法進行比較，應用到多模態任務。

11.3 Contribution

用權重共享技術訓練適配器（占總參數的 4.4%）可以與微調整個模型的性能相匹配。

#12.

OFA

論文標題：

Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework

論文鏈接：

https://arxiv.org/abs/2202.03052

代碼鏈接：

https://github.com/OFA-Sys/OFA

12.1 Motivation

模態、任務、結構統一的模型 OFA，將多模態及單模態的理解和生成任務統一到 1 個簡單的 Seq2Seq 生成式框架中，OFA 執行預訓練并使用任務 instruction/prompt 進行微調，并且沒有引入額外的任務特定層進行微調。

12.2 Method

統一模態：統一圖片、視頻、文本的多模態輸入形式；統一結構：采取統一采用 Seq2Seq 生成式框架；統一任務：對不同任務人工設計了 8 種任務指令。

12.3 Contribution

OFA 覆蓋的下游任務橫跨多模態生成、多模態理解、圖片分類、自然語言理解、文本生成等多個場景，在圖文描述、圖像生成、視覺問答、圖文推理、物體定位等多個風格各異的任務上取得 SOTA。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝?稿件基本要求：

? 文章確系個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標注?

? 稿件建議以?markdown?格式撰寫，文中配圖以附件形式發送，要求圖片清晰，無版權問題

? PaperWeekly 尊重原作者署名權，并將為每篇被采納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來稿請備注即時聯系方式（微信），以便我們在稿件選用的第一時間聯系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長按添加PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

總結

以上是生活随笔為你收集整理的NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：信用卡审批拒绝是什么意思
下一篇：余承东:华为稳了怎么回事苹果发布会结束