當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

跨模态预训练

發布時間：2023/12/20 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了跨模态预训练小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[NeurIPS2019]。code
2.LXMERT，LXMERT: Learning Cross-Modality Encoder Representations from Transformers[EMNLP2019]。code
3.UNITER，UNITER: UNiversal Image-TExt Representation Learning[ECCV2020]。code
4.VisualBERT ，VisualBERT A Simple and Performant Baseline for Vision and Language[ACL2020]。code
5.VL-BERT，VL-BERT: Pre-training of Generic Visual-Linguistic Representations[ICLR2020]。code
6.Oscar，Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[ECCV2020]。code
7.ERNIE-ViL，ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs[AAAI2020]。code
8.Unicoder-VL，Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training。[AAAI2020]
9.ViLT，ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision[ICML2021]code
10.UNIMO，UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[ACL2021]code
11.LightningDOT，LightningDOT: Pre-training Visual-Semantic Embeddings for
Real-Time Image-Text Retrieval[NAACL2021]code
12.TFS，Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers[CVPR2021]
13.SOHO，Seeing Out of tHe bOx:End-to-End Pre-training for Vision-Language Representation Learning[CVPR2021]code
14.VinVL，VinVL: Revisiting Visual Representations in Vision-Language Models[CVPR2021]code
15.UC2，UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training[CVPR2021]code

巨模型

1.CLIP，Learning Transferable Visual Models From Natural Language Supervision
2.WenLan，WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training code
3.ALIGN，Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [ICML2021]
4.Florence，Florence: A New Foundation Model for Computer Vision
5.M6，M6: A Chinese Multimodal Pretrainer

模型參數數據集

CLIP	63 million	400 million
WenLan	30 million	1 billion
ALIGN		1.8 billion
Florence	893 million	900 million
M6	100 billion	60.5 million

1.ViLBERT

方法
主要思想是輸入文本和Faster RCNN region proposal得到的目標類別和標簽，首先分別mask文本中的詞和圖像中的目標，然后預測mask的詞以及mask的目標特征和類別，最后是跨模態的匹配。

Masked Multi-modal Modelling，mask 15%的單詞和區域塊，masked區域塊中有90%的值是0，其他保持不變。回歸圖像塊的特征以及語義標簽（求分布）和文本的特征。
Multi-modal Alignment Prediction，判斷文本和圖像是否是一對。

實驗

預訓練，數據集是Conceptual Captions。
Finetune，數據集VQA, VCR, RefCOCO+, and Flickr30k。

2.LXMERT

方法
主要思想與ViLBERT相似，輸入文本和Faster RCNN region proposal得到的目標類別和標簽，首先分別mask文本中的詞和圖像中的目標，然后預測mask的詞以及mask的目標特征和類別，最后是跨模態的匹配和視覺問答。

Masked Cross-Modality Language Model，
Masked Object Prediction，
Cross-Modality Tasks，

實驗

預訓練，數據集是MS COCO, Visual Genome, VQA v2.0, GQA balanced version, and VG-QA這五個數據集的合并。
Finetune，數據集VQA, GQA, and NLVR2。

3.UNITER

方法
主要思想與ViLBERT相似，輸入文本和Faster RCNN region proposal得到的目標類別和標簽，首先分別mask文本中的詞和圖像中的目標，然后預測mask的詞以及mask的目標特征和類別，最后是文本與圖像以及詞與目標的匹配（單路網絡）。

Masked Language Modeling，
Masked Region Modeling，
ImageText Matching，
Word-Region Alignment, 最優傳輸方法。

實驗

預訓練，數據集是COCO, Visual Genome, Conceptual Captions, and SBU Captions這四個數據集的合并。
Finetune，數據集VQA, Flickr30K, NLVR2, and RefCOCO+。

4.VisualBERT

方法
這篇文章主要是解釋預訓練模型學到了什么（實際上就是可視化特征圖），輸入文本和Faster RCNN region proposal得到的目標類別和標簽，mask文本的詞并結合文本與視覺特征進行預測，匹配文本與圖像特征（單路網絡）。

Masked language modeling with the image，
Sentence-image prediction，

實驗

預訓練，數據集是COCO
Finetune，數據集VQA, VCR, NLVR2, and Flickr30K。

5.VL-BERT

方法
主要思想是將文本的embedding特征和圖像faster RCNN的特征中間用特殊字符分開，形成一個整體的輸入（類似BERT完整的一句話），然后再進行Masked詞預測和Masked目標語義預測（單路）。

Masked Language Modeling with Visual Clues ，
Masked RoI Classification with Linguistic Clues ，

實驗

預訓練，數據集是Conceptual Captions and BooksCorpus。
Finetune，數據集VCR, VQA and RefCOCO+。

6.Oscar

主要思想與ViLBERT相似，輸入文本和Faster RCNN region proposal得到的目標類別和標簽，首先分別mask文本中的詞和圖像目標框的語義類別，然后預測mask的詞或者類別，最后是文本與圖像以及詞與目標的匹配（單路）。

Masked Token Loss，隨機mask 15%的詞或者目標的語義類別進行預測。
Contrastive Loss，隨機替換50%的語義類別作為負例樣本。

實驗

預訓練，數據集是COCO, Conceptual Captions, SBU captions, flicker30k, and GQA這五個數據集的合并。
Finetune，數據集COCO, NoCaps, VQA, GQA, and NLVR2。

7.ERNIE-ViL

方法
這篇文章嘗試從場景圖生成的角度預訓練模型，首先利用文本生成場景圖，然后分別mask Object，Prediction和Relationship，最后對masked的詞進行預測，主要分為Object Prediction，Attribute Prediction和Relationship Prediction三部分。

Object Prediction ，
Attribute Prediction ，
Relationship Prediction ，

實驗

預訓練，數據集是Conceptual Captions and SBU Captions。
Finetune，數據集VCR，VQA，RefCOCO+ and Flickr30K。

8.Unicoder-VL

方法
這篇文章思路和之前的方法很像，主要分為三部分Masked Language Modeling (MLM), Masked Object Classifation (MOC)和Visual-linguistic Matching (VLM)。

Masked Language Modeling (MLM)，
Masked Object Classifation (MOC) ，
Visual-linguistic Matching (VLM) ，

實驗

預訓練，數據集是Conceptual Captions and SBU Captions。
Finetune，數據集MSCOCO和Flickr30K。

9.ViLT

方法
這篇文章主要的特點是使用圖像patch作為圖像的輸入，主要分為三部分Image Text Matching，Masked Language Modeling和Word Patch Alignment。

Image Text Matching，
Masked Language Modeling，
Word Patch Alignment，

實驗

預訓練，數據集是Microsoft COCO(MSCOCO)，Visual Genome (VG) ，SBU Captions (SBU) 和Google Conceptual Captions (GCC) 。
Finetune，數據集VQAv2，NLVR2，MSCOCO和Flickr30K。

10.UNIMO

方法
這篇文章任然采用Faster RNN的特征，核心思想是從兩個角度對樣本進行擴充，分別是引入額外的Image Collections和Text Corpus（基于成對的文本和圖像檢索單模態的圖像和文本，將檢索得到的數據作為查詢數據的正例樣本）以及文本的rewriting技術，方法主要分為三部分Cross-Modal Contrastive Learning，Visual Learning和Language Learning。

Cross-Modal Contrastive Learning，
Visual Learning，
Language Learning，
實驗
預訓練，數據集是BookWiki，OpenWebText，OpenImages，COCO unlabel，COCO，Visual Genome，Conceptual Captions和SBU Captions。
Finetune，數據集CoQA，SQuAD，CNN/DailyMail (CNNDM) ，Gigaword，SST-2，MNLI，CoLA datase， STS-B，VQAv2.0， Microsoft COCO Captions，SLNI-VE和Flickr30k。
11.LightningDOT

方法
這篇文章從實時性的角度講故事，核心思想與之前的方法比較相似，主要分為Visual-embedding Fused Masked Language Modeling，Semantic-embedding Fused Masked Region Modeling和Cross-modal Retrieval Objective（finetune時只有這一個loss）。

Visual-embedding Fused Masked Language Modeling，
Semantic-embedding Fused Masked Region Modeling，
Cross-modal Retrieval Objective，

實驗

預訓練，數據集是COCO，VG，Conceptual Captions和SBU captions。
Finetune，數據集Flickr30k和COCO。

12.TFS

方法
核心思想是分兩部進行檢索，與LightningDOT類似。

實驗

預訓練，數據集是COCO和Conceptual Captions。
Finetune，數據集Flickr30k和COCO。

13.SOHO

方法
該方法直接提取image-level的視覺特征（非faster RCNN特征），首先提取圖像的特征，然后構造視覺字典對圖像中的特征進行表示（最近鄰搜索），最后再進行跨模態的融合與預訓練。方法主要分為Cross-Modal Transformer，Masked Language Modeling和Masked Visual Modeling三部分，

Cross-Modal Transformer，
Masked Language Modeling，
Masked Visual Modeling，

實驗

預訓練，數據集是MSCOCO和VG。
Finetune，數據集MSCOCO，Flickr30K，VQA2.0，NLVR2和SNLI-VE。

14.VinVL
方法
這篇文章的核心思想是通過提升faster rcnn模型的性能來提升圖像的視覺表示，進而提升視覺語言任務。

實驗

目標檢測數據集COCO，OpenImages，Objects365和Visual Genome。
預訓練，數據集COCO，Conceptual Captions，SBU captions，flicker30k，GQA，VQA，VG-QAs和OpenImages。
Finetune，數據集VQA，GQA，MS COCO，Novel Object Captioning和NLVR2。

15.UC2

方法
這篇文章的核心思想是將英文的caption翻譯成其他語言的caption，然后再進行多語言的學習。
巨模型
1.CLIP

方法
文本分支是ViT（實驗中用了5 ResNets和 3 Vision Transformers），圖像分支是Transformer，最后通過對比度學習進行訓練。
實驗
30個不同的視覺數據集。
2.WenLan

方法
與CLIP比較相似，不同之處在CLIP是在batchsize里面選擇負例樣本(借鑒MoCo)，而wenlan是構造一個額外的字典，專門用于擴充負例樣本。

3.ALIGN

方法
方法上沒什么創新，但是證明了語料庫規模的巨大提升可以彌補數據內部存在的噪聲。

4.Florence

方法
圖像主干網絡是CoSwin（Swin的修改版），文本的主干網絡是Roberta，每一個子注意力塊采用協同注意力機制(co-attention),損失函數是掩碼語言預測（masked-languag
e modeling ）和基于對比度學習的圖文匹配（ image-text matching）。

5.M6

方法
backbone文章中沒有明確介紹，圖像是patch輸入，文本應該是Transformer，訓練時采用了4種預訓練任務，分別是Text Denoising，Language Modeling，Image Captioning和Image-based Text Denoising。

總結

以上是生活随笔為你收集整理的跨模态预训练的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

模态

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

跨模态预训练

總結