當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

發布時間：2023/12/15 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Abstract&Introduction&Related Work

研究任務
- 語言+視覺模態預訓練任務
已有方法和相關工作
- masked data已經成為一種主流
面臨挑戰
- 現有的多模態大模型不同模態之間的參數的共享不夠高效
創新思路
- 使用Multiway Transformers來通用建模，使用一個統一個結構共享不同下游任務
- 模塊化的網絡同時充分考慮到了模態獨特的編碼和跨模態融合
- 別的大模型往往使用了很多訓練任務，而本文中僅僅使用mask-then-predict來訓練通用的多模態模型
- 將圖片視為外語，把圖片和文本做相同的處理，因此圖片-文本對被視為平行語料來學習模態的對齊
- 僅僅使用了公開數據集
實驗結論
- 在目標檢測，語義分割，圖像分類，視覺推理，視覺問答，圖像字幕，多模態抽取上都達到了sota（什么CV殺神？）

在視覺任務上全方位亂殺，可惜沒看到NLP那邊殺起來

BEIT-3: A General-Purpose Multimodal Foundation Model

通過使用共享的多路變壓器網絡對單模態和多模態數據進行masked data建模來進行預訓練。該模型可以轉移到各種視覺和視覺語言下游任務

Backbone Network: Multiway Transformers

將輸入根據不同模態輸入給不同的專家模塊，在實現中，每一層都有一個視覺專家和語言專家，最上面三層有視覺-語言專家為融合模態而設計

Using a pool of modality experts encourages the model to capture more modality-specific information.
使用a pool of 模態專家能促進模型捕捉到更多模態特定的信息

The shared self-attention module learns the alignment between different modalities and enables deep fusion for multimodal (such as vision-language) tasks.
共享的自注意力模塊學習不同模態之間的對齊，使多模態任務深度融合

如圖3所示，統一架構使BEIT-3能夠支持廣泛的下游任務
BEIT-3可以用作各種視覺任務的圖像主干，包括圖像分類、對象檢測、實例分割和語義分割。它還可以作為雙編碼器進行微調，以實現高效的圖像文本檢索，并作為多模式理解和生成任務的融合模型

Pretraining Task: Masked Data Modeling

文本用SentencePiece Tokenizer，圖像用BEiT v2的Tokenizer進行token化

文本隨機mask 15%
圖像-文本對隨機mask 50%
圖片隨機mask 40%

Scaling Up: BEIT-3 Pretraining

Backbone Network

使用ViT-giant作為骨干網絡，40層MultiWay Transformer，總參數量19億

Pretraining Data

使用的預訓練數據

Pretraining Settings

好像越來越接近非超級實驗室能做的訓練資源了

Experiments

實驗是真正的大殺四方，刷了一堆sota

Conclusions

在本文中，我們介紹了BEIT-3，這是一個通用的多模式基礎模型，它在廣泛的視覺和視覺語言基準上實現了最先進的性能。BEIT-3的關鍵思想是圖像可以被建模為外語，因此我們可以以統一的方式對圖像、文本和圖像-文本對進行mask“語言”建模。我們還演示了多路transformer可以有效地建模不同的視覺和視覺語言任務，使其成為通用建模的有趣選項（？）

BEIT-3簡單而且work，是擴展多模態基礎模型的一個有前景的方向。對于未來的工作，我們正在進行多語種BEIT-3的預訓練，并在BEIT-2中包括更多的模式（如音頻），以促進跨語言和跨模式的遷移，并促進跨任務、語言和模式的大規模預訓練的大融合。我們也有興趣通過結合BEIT-3和MetaLM的優勢，為多模式基礎模型提供上下文學習能力

Remark

微軟的超級大作，一舉把視覺的sota狠狠的提高了，并且讓大家再次見識到了基于masked data的超強潛力，現在就差多模態模型在語言上的威力展現了～相信很快就會有，然后下一階段再把語音也加入進來

總結

以上是生活随笔為你收集整理的Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： OpenVINO示例介绍
下一篇： ubuntu18.04安装openvin