當前位置：首頁 >

Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！

發布時間：2024/7/5 62 豆豆

生活随笔收集整理的這篇文章主要介紹了 Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 子龍

編 | 智商掉了一地

厲害了！作者將單一模型運用于三個不同領域的不同任務，結構簡單且訓練直觀，還能有著出色的表現。

自Transformer橫空出世，從NLP到CV，再到今天的多模態，無數基于Transformer的模型被應用于各類任務，似乎真的印證了當年文章的標題“Transformer is ALL you need”。然而，純粹的NLP任務有BERT、RoBERTa，CV任務有ViT，多模態任務又有VLBERT、OSCAR，雖然都是基于Transformer的結構，但是仍然是針對不同任務設計不同模型，那么“萬能”的Transformer能否構建出一個統合各類任務的模型，實現真的的一個模型解決所有問題呢？

今天文章的作者就關注到了當前各個模型的局限，提出了一個適用于NLP+CV+多模態的模型FLAVA，可運用于三種領域共計35個任務，且都有著出色的表現。

論文題目:
FLAVA: A Foundational Language And Vision Alignment Model

論文鏈接:
https://arxiv.org/abs/2112.04482

介紹

文章標題中，作者稱模型為“Foundational”，他們不希望借助各種奇技淫巧的Tricks，而是通過盡可能簡單的結構，配合直觀的的訓練手段，達到涵蓋NLP、CV、多模態的目的。

FLAVA基于三種不同的輸入：

匹配的圖片-文本
單獨文本
單獨圖片

解決三個領域的問題：

NLP：語言理解（如GLUE）
CV：視覺識別（如ImageNet）
多模態：多模態解釋（如VQA）

圖片編碼器(Image Encoder)

FLAVA直接借用既有模型ViT的結構，同時仿照ViT的處理方法，分割圖片進行編碼。在ViT輸出的隱狀態上，FLAVA利用單一模態數據集中的圖片進行Masked Image Modeling。首先，利用dVAE將圖片轉化為類似詞向量的token；再參照BEiT，對masked隱狀態進行分類，即利用周圍圖片分塊，預測masked的圖片屬于dVAE劃分的哪一類，這樣在圖片上也可以像BERT那樣做mask modeling。

文本編碼器(Text Encoder)

FLAVA在文本部分多處理就相對簡單，作者采取常見的Masked Language Modeling，對一部分masked token進行預測，和其他方法對區別在于，FLAVA沒有采用BERT之類純文本語言模型的結構，而是和圖片編碼器一樣，使用了ViT的結構，不過因為是不同的模態，自然采用了不同的模型參數。

多模態編碼器(Multimodal Encoder)

在圖片編碼器和文本編碼器之上，FLAVA添加了一層多模態編碼器做模態融合，多模態編碼器將前兩者輸出的隱藏狀態作為輸入，同樣利用ViT的模型結構進行融合。

多模態預訓練

在文本編碼器和圖片編碼器中，FLAVA在單一模態上進行了預訓練，在多模態預訓練方面，FLAVA使用了三種多模態預訓練任務：

對比學習：FLAVA利用圖片編碼器和文本編碼器的隱藏狀態，增大相匹配的圖片-文本對之間的余弦相似度，減小非匹配的圖片-文本對之間的余弦相似度。
Masked Multimodal Modeling：與圖片編碼器上的MIM類似，只不過改為利用多模態編碼器的隱狀態進行預測。
圖片-文本匹配：與許多現有模型一樣，FLAVA利用多模態編碼器的[CLS]的隱狀態，識別當前圖片與文本是否匹配。

效果

從上述模型細節可以看出，無論是模型結構，還是預訓練任務，文本與圖片之間高度對稱，同時也設計也十分直觀。接下來看看在35個任務上的表現。

圖中下劃線表示最優結果，加粗表示在公開數據集上訓練的最優結果。

從各個任務平均上看，FLAVA能夠取得整體上的最優結果，多模態任務平均比CLIP高出2個百分點左右，整體平均比CLIP高出10個百分點左右。從具體任務上看，在不少任務上都取得了十分顯著的提高，如STS-B數據集提高了69.69，MNLI數據集提高了46.81。

小結

不同于現有模型，FLAVA最大的特點，也可以說是創新點，在于作者實現了將單一模型運用于三個不同領域的不同任務，而且都有著不錯的效果，雖然FLAVA并沒有奇跡般在所有任務上都達到SOTA，但是整體性能上并不弱于現有模型，同時有著更廣闊的運用場景，模型設計也沒有各種奇技淫巧，這對未來研究通用模型有著很大的啟發。

萌屋作者：子龍(Ryan)

本科畢業于北大計算機系，曾混跡于商湯和MSRA，現在是宅在UCSD(Social Dead)的在讀PhD，主要關注多模態中的NLP和data mining，也在探索更多有意思的Topic，原本只是貴公眾號的吃瓜群眾，被各種有意思的推送吸引就上了賊船，希望借此沾沾小屋的靈氣，paper++，早日成為有貓的程序員！

作品推薦：

1.別再搞純文本了！多模文檔理解更被時代需要！

2.Transformer哪家強？Google爸爸辨優良！

3.預訓練語言真的是世界模型？

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

總結

以上是生活随笔為你收集整理的Facebook 推出多模态通用模型 FLAVA，吊打 CLIP 平均十个点！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：最新进展 | 深度学习在天气预测中的应用
下一篇：深入解析GBDT二分类算法（附代码实现）