日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

發布時間:2023/12/15 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Abstract&Introduction&Related Work

  • 研究任務
    • 語言+視覺模態預訓練任務
  • 已有方法和相關工作
    • masked data已經成為一種主流
  • 面臨挑戰
    • 現有的多模態大模型不同模態之間的參數的共享不夠高效
  • 創新思路
    • 使用Multiway Transformers來通用建模,使用一個統一個結構共享不同下游任務
    • 模塊化的網絡同時充分考慮到了模態獨特的編碼和跨模態融合
    • 別的大模型往往使用了很多訓練任務,而本文中僅僅使用mask-then-predict來訓練通用的多模態模型
    • 將圖片視為外語,把圖片和文本做相同的處理,因此圖片-文本對被視為平行語料來學習模態的對齊
    • 僅僅使用了公開數據集
  • 實驗結論
    • 在目標檢測,語義分割,圖像分類,視覺推理,視覺問答,圖像字幕,多模態抽取上都達到了sota(什么CV殺神?)


在視覺任務上全方位亂殺,可惜沒看到NLP那邊殺起來

BEIT-3: A General-Purpose Multimodal Foundation Model

通過使用共享的多路變壓器網絡對單模態和多模態數據進行masked data建模來進行預訓練。該模型可以轉移到各種視覺和視覺語言下游任務

Backbone Network: Multiway Transformers

將輸入根據不同模態輸入給不同的專家模塊,在實現中,每一層都有一個視覺專家和語言專家,最上面三層有視覺-語言專家為融合模態而設計

Using a pool of modality experts encourages the model to capture more modality-specific information.
使用a pool of 模態專家能促進模型捕捉到更多模態特定的信息

The shared self-attention module learns the alignment between different modalities and enables deep fusion for multimodal (such as vision-language) tasks.
共享的自注意力模塊學習不同模態之間的對齊,使多模態任務深度融合

如圖3所示,統一架構使BEIT-3能夠支持廣泛的下游任務
BEIT-3可以用作各種視覺任務的圖像主干,包括圖像分類、對象檢測、實例分割和語義分割。它還可以作為雙編碼器進行微調,以實現高效的圖像文本檢索,并作為多模式理解和生成任務的融合模型

Pretraining Task: Masked Data Modeling

文本用SentencePiece Tokenizer,圖像用BEiT v2的Tokenizer進行token化

  • 文本隨機mask 15%
  • 圖像-文本對隨機mask 50%
  • 圖片隨機mask 40%

Scaling Up: BEIT-3 Pretraining

Backbone Network

使用ViT-giant作為骨干網絡,40層MultiWay Transformer,總參數量19億

Pretraining Data

使用的預訓練數據

Pretraining Settings

好像越來越接近非超級實驗室能做的訓練資源了

Experiments

實驗是真正的大殺四方,刷了一堆sota



Conclusions

在本文中,我們介紹了BEIT-3,這是一個通用的多模式基礎模型,它在廣泛的視覺和視覺語言基準上實現了最先進的性能。BEIT-3的關鍵思想是圖像可以被建模為外語,因此我們可以以統一的方式對圖像、文本和圖像-文本對進行mask“語言”建模。我們還演示了多路transformer可以有效地建模不同的視覺和視覺語言任務,使其成為通用建模的有趣選項(?)

BEIT-3簡單而且work,是擴展多模態基礎模型的一個有前景的方向。對于未來的工作,我們正在進行多語種BEIT-3的預訓練,并在BEIT-2中包括更多的模式(如音頻),以促進跨語言和跨模式的遷移,并促進跨任務、語言和模式的大規模預訓練的大融合。我們也有興趣通過結合BEIT-3和MetaLM的優勢,為多模式基礎模型提供上下文學習能力

Remark

微軟的超級大作,一舉把視覺的sota狠狠的提高了,并且讓大家再次見識到了基于masked data的超強潛力,現在就差多模態模型在語言上的威力展現了~相信很快就會有,然后下一階段再把語音也加入進來

總結

以上是生活随笔為你收集整理的Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美四级在线观看 | 日日碰 | 久久日本视频 | 亚洲综合久久av一区二区三区 | 日本十大三级艳星 | 在线无遮挡 | 欧美一区二区三区黄色 | 激情久久久久 | 国产在线超碰 | 韩日精品在线观看 | 欧美激情一二区 | 欧美影院在线 | 国产在线成人精品午夜 | 国产91区| 久久国产精品亚洲 | 国产欧美一区二区三区精华液好吗 | 97伦伦午夜电影理伦片 | 99天堂网| 久久成人亚洲 | 亚洲天堂免费看 | 请用你的手指扰乱我吧 | 欧美精品一区二区在线播放 | 色婷婷aⅴ一区二区三区 | 国产1区在线 | 又黄又色 | 在线看黄免费 | 日本一区二区三区中文字幕 | 美女三级网站 | 无码人妻精品一区二区蜜桃视频 | 探花国产 | 一区精品视频 | 亚洲图片欧美激情 | 国产精品久久久久久久久久久久久久久 | 日韩综合网站 | 国产精品av在线 | 日韩视频一区二区三区四区 | 在线观看视频免费 | 一本av在线| 亚洲美女中文字幕 | 男女床上拍拍拍 | 日韩乱码人妻无码中文字幕 | 成人免费视频久久 | 成人毛片100部免费看 | 女人扒开屁股让我添 | 欧美偷拍精品 | 毛片视频网站在线观看 | 日韩视频网址 | 蜜桃传媒一区二区亚洲av | 欧美性猛交一区二区三区精品 | 97干视频 | 永久黄网站色视频免费观看w | 怡红院成人影院 | 99精品欧美一区二区三区综合在线 | 成人在线电影网站 | 最新版天堂资源在线 | 亚洲国产精品成人无码区 | 国产欧美一区二区三区在线看蜜臀 | 日韩免费高清视频网站 | 国产人人爽 | 中文字幕在线视频一区二区 | 久久久免费精品视频 | 韩国理论午夜 | 91麻豆精品国产91久久久无需广告 | www色综合| 日韩av在线导航 | 很黄很黄的网站 | 国产又爽又黄免费视频 | 91视频污在线观看 | 无遮挡aaaaa大片免费看 | 亚洲精品人妻无码 | 无码国产精品久久一区免费 | 天天舔天天射天天干 | 久久尤物视频 | 久久日本精品字幕区二区 | 国产精品va| 中国成人av| 欧洲精品久久 | 黄色大片免费网站 | 久久这里只有精品8 | 一区二区三区小说 | 国产一区一区 | 国产91精品一区二区麻豆亚洲 | 国产亚洲精品精品精品 | 狠狠干导航 | 欧美在线专区 | 凹凸国产熟女精品视频 | jizz亚洲女人高潮大叫 | 欧美中文一区 | 欧美成人一区二区 | 美日韩毛片| 狠狠婷婷 | 久久在线观看 | 丝袜av在线播放 | 天天天色| 成人精品福利视频 | yes4444视频在线观看 | 综合精品久久久 | 精品无码人妻少妇久久久久久 | 日韩r级电影在线观看 |