日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

跨模态预训练

發布時間:2023/12/20 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 跨模态预训练 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
  • 1.ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[NeurIPS2019]。code
  • 2.LXMERT,LXMERT: Learning Cross-Modality Encoder Representations from Transformers[EMNLP2019]。code
  • 3.UNITER,UNITER: UNiversal Image-TExt Representation Learning[ECCV2020]。code
  • 4.VisualBERT ,VisualBERT A Simple and Performant Baseline for Vision and Language[ACL2020]。code
  • 5.VL-BERT,VL-BERT: Pre-training of Generic Visual-Linguistic Representations[ICLR2020]。code
  • 6.Oscar,Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[ECCV2020]。code
  • 7.ERNIE-ViL,ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graphs[AAAI2020]。code
  • 8.Unicoder-VL,Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training。[AAAI2020]
  • 9.ViLT,ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision[ICML2021]code
  • 10.UNIMO,UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[ACL2021]code
  • 11.LightningDOT,LightningDOT: Pre-training Visual-Semantic Embeddings for
    Real-Time Image-Text Retrieval[NAACL2021]code
  • 12.TFS,Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers[CVPR2021]
  • 13.SOHO,Seeing Out of tHe bOx:End-to-End Pre-training for Vision-Language Representation Learning[CVPR2021]code
  • 14.VinVL,VinVL: Revisiting Visual Representations in Vision-Language Models[CVPR2021]code
  • 15.UC2,UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training[CVPR2021]code

巨模型

  • 1.CLIP,Learning Transferable Visual Models From Natural Language Supervision
  • 2.WenLan,WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training code
  • 3.ALIGN,Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [ICML2021]
  • 4.Florence,Florence: A New Foundation Model for Computer Vision
  • 5.M6,M6: A Chinese Multimodal Pretrainer
模型參數數據集
CLIP63 million400 million
WenLan30 million1 billion
ALIGN1.8 billion
Florence893 million900 million
M6100 billion60.5 million

1.ViLBERT

方法
主要思想是輸入文本和Faster RCNN region proposal得到的目標類別和標簽,首先分別mask文本中的詞和圖像中的目標,然后預測mask的詞以及mask的目標特征和類別,最后是跨模態的匹配。

  • Masked Multi-modal Modelling,mask 15%的單詞和區域塊,masked區域塊中有90%的值是0,其他保持不變。回歸圖像塊的特征以及語義標簽(求分布)和文本的特征。
  • Multi-modal Alignment Prediction,判斷文本和圖像是否是一對。

實驗

  • 預訓練,數據集是Conceptual Captions。
  • Finetune,數據集VQA, VCR, RefCOCO+, and Flickr30k。

2.LXMERT

方法
主要思想與ViLBERT相似,輸入文本和Faster RCNN region proposal得到的目標類別和標簽,首先分別mask文本中的詞和圖像中的目標,然后預測mask的詞以及mask的目標特征和類別,最后是跨模態的匹配和視覺問答。

  • Masked Cross-Modality Language Model,
  • Masked Object Prediction,
  • Cross-Modality Tasks,

實驗

  • 預訓練,數據集是MS COCO, Visual Genome, VQA v2.0, GQA balanced version, and VG-QA這五個數據集的合并。
  • Finetune,數據集VQA, GQA, and NLVR2。

3.UNITER

方法
主要思想與ViLBERT相似,輸入文本和Faster RCNN region proposal得到的目標類別和標簽,首先分別mask文本中的詞和圖像中的目標,然后預測mask的詞以及mask的目標特征和類別,最后是文本與圖像以及詞與目標的匹配(單路網絡)。

  • Masked Language Modeling,
  • Masked Region Modeling,
  • ImageText Matching,
  • Word-Region Alignment, 最優傳輸方法。

實驗

  • 預訓練,數據集是COCO, Visual Genome, Conceptual Captions, and SBU Captions這四個數據集的合并。
  • Finetune,數據集VQA, Flickr30K, NLVR2, and RefCOCO+。

4.VisualBERT

方法
這篇文章主要是解釋預訓練模型學到了什么(實際上就是可視化特征圖),輸入文本和Faster RCNN region proposal得到的目標類別和標簽,mask文本的詞并結合文本與視覺特征進行預測,匹配文本與圖像特征(單路網絡)。

  • Masked language modeling with the image,
  • Sentence-image prediction,

實驗

  • 預訓練,數據集是COCO
  • Finetune,數據集VQA, VCR, NLVR2, and Flickr30K。

5.VL-BERT

方法
主要思想是將文本的embedding特征和圖像faster RCNN的特征中間用特殊字符分開,形成一個整體的輸入(類似BERT完整的一句話),然后再進行Masked詞預測和Masked目標語義預測(單路)。

  • Masked Language Modeling with Visual Clues ,
  • Masked RoI Classification with Linguistic Clues ,

實驗

  • 預訓練,數據集是Conceptual Captions and BooksCorpus。
  • Finetune,數據集VCR, VQA and RefCOCO+。

6.Oscar

主要思想與ViLBERT相似,輸入文本和Faster RCNN region proposal得到的目標類別和標簽,首先分別mask文本中的詞和圖像目標框的語義類別,然后預測mask的詞或者類別,最后是文本與圖像以及詞與目標的匹配(單路)。

  • Masked Token Loss,隨機mask 15%的詞或者目標的語義類別進行預測。
  • Contrastive Loss,隨機替換50%的語義類別作為負例樣本。

實驗

  • 預訓練,數據集是COCO, Conceptual Captions, SBU captions, flicker30k, and GQA這五個數據集的合并。
  • Finetune,數據集COCO, NoCaps, VQA, GQA, and NLVR2。

7.ERNIE-ViL

方法
這篇文章嘗試從場景圖生成的角度預訓練模型,首先利用文本生成場景圖,然后分別mask Object,Prediction和Relationship,最后對masked的詞進行預測,主要分為Object Prediction,Attribute Prediction和Relationship Prediction三部分。

  • Object Prediction ,
  • Attribute Prediction ,
  • Relationship Prediction ,

實驗

  • 預訓練,數據集是Conceptual Captions and SBU Captions。
  • Finetune,數據集VCR,VQA,RefCOCO+ and Flickr30K。

8.Unicoder-VL

方法
這篇文章思路和之前的方法很像,主要分為三部分Masked Language Modeling (MLM), Masked Object Classifation (MOC)和Visual-linguistic Matching (VLM)。

  • Masked Language Modeling (MLM),
  • Masked Object Classifation (MOC) ,
  • Visual-linguistic Matching (VLM) ,

實驗

  • 預訓練,數據集是Conceptual Captions and SBU Captions。
  • Finetune,數據集MSCOCO和Flickr30K。

9.ViLT

方法
這篇文章主要的特點是使用圖像patch作為圖像的輸入,主要分為三部分Image Text Matching,Masked Language Modeling和Word Patch Alignment。

  • Image Text Matching,
  • Masked Language Modeling,
  • Word Patch Alignment,

實驗

  • 預訓練,數據集是Microsoft COCO(MSCOCO),Visual Genome (VG) ,SBU Captions (SBU) 和Google Conceptual Captions (GCC) 。
  • Finetune,數據集VQAv2,NLVR2,MSCOCO和Flickr30K。

10.UNIMO

方法
這篇文章任然采用Faster RNN的特征,核心思想是從兩個角度對樣本進行擴充,分別是引入額外的Image Collections和Text Corpus(基于成對的文本和圖像檢索單模態的圖像和文本,將檢索得到的數據作為查詢數據的正例樣本)以及文本的rewriting技術,方法主要分為三部分Cross-Modal Contrastive Learning,Visual Learning和Language Learning。

  • Cross-Modal Contrastive Learning,
  • Visual Learning,
  • Language Learning,
    實驗
  • 預訓練,數據集是BookWiki,OpenWebText,OpenImages,COCO unlabel,COCO,Visual Genome,Conceptual Captions和SBU Captions。
  • Finetune,數據集CoQA,SQuAD,CNN/DailyMail (CNNDM) ,Gigaword,SST-2,MNLI,CoLA datase, STS-B,VQAv2.0, Microsoft COCO Captions,SLNI-VE和Flickr30k。
    11.LightningDOT

方法
這篇文章從實時性的角度講故事,核心思想與之前的方法比較相似,主要分為Visual-embedding Fused Masked Language Modeling,Semantic-embedding Fused Masked Region Modeling和Cross-modal Retrieval Objective(finetune時只有這一個loss)。

  • Visual-embedding Fused Masked Language Modeling,
  • Semantic-embedding Fused Masked Region Modeling,
  • Cross-modal Retrieval Objective,

實驗

  • 預訓練,數據集是COCO,VG,Conceptual Captions和SBU captions。
  • Finetune,數據集Flickr30k和COCO。

12.TFS

方法
核心思想是分兩部進行檢索,與LightningDOT類似。

實驗

  • 預訓練,數據集是COCO和Conceptual Captions。
  • Finetune,數據集Flickr30k和COCO。

13.SOHO

方法
該方法直接提取image-level的視覺特征(非faster RCNN特征),首先提取圖像的特征,然后構造視覺字典對圖像中的特征進行表示(最近鄰搜索),最后再進行跨模態的融合與預訓練。方法主要分為Cross-Modal Transformer,Masked Language Modeling和Masked Visual Modeling三部分,

  • Cross-Modal Transformer,
  • Masked Language Modeling,
  • Masked Visual Modeling,

實驗

  • 預訓練,數據集是MSCOCO和VG。
  • Finetune,數據集MSCOCO,Flickr30K,VQA2.0,NLVR2和SNLI-VE。

14.VinVL
方法
這篇文章的核心思想是通過提升faster rcnn模型的性能來提升圖像的視覺表示,進而提升視覺語言任務。

實驗

  • 目標檢測數據集COCO,OpenImages,Objects365和Visual Genome。
  • 預訓練,數據集COCO,Conceptual Captions,SBU captions,flicker30k,GQA,VQA,VG-QAs和OpenImages。
  • Finetune,數據集VQA,GQA,MS COCO,Novel Object Captioning和NLVR2。

15.UC2

方法
這篇文章的核心思想是將英文的caption翻譯成其他語言的caption,然后再進行多語言的學習。
巨模型
1.CLIP

方法
文本分支是ViT(實驗中用了5 ResNets和 3 Vision Transformers),圖像分支是Transformer,最后通過對比度學習進行訓練。
實驗
30個不同的視覺數據集。
2.WenLan

方法
與CLIP比較相似,不同之處在CLIP是在batchsize里面選擇負例樣本(借鑒MoCo),而wenlan是構造一個額外的字典,專門用于擴充負例樣本。

3.ALIGN

方法
方法上沒什么創新,但是證明了語料庫規模的巨大提升可以彌補數據內部存在的噪聲。

4.Florence

方法
圖像主干網絡是CoSwin(Swin的修改版),文本的主干網絡是Roberta,每一個子注意力塊采用協同注意力機制(co-attention),損失函數是掩碼語言預測(masked-languag
e modeling )和基于對比度學習的圖文匹配( image-text matching)。

5.M6

方法
backbone文章中沒有明確介紹,圖像是patch輸入,文本應該是Transformer,訓練時采用了4種預訓練任務,分別是Text Denoising,Language Modeling,Image Captioning和Image-based Text Denoising。

總結

以上是生活随笔為你收集整理的跨模态预训练的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。