Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!
文 | 子龍
編 | 智商掉了一地
厲害了!作者將單一模型運用于三個不同領域的不同任務,結構簡單且訓練直觀,還能有著出色的表現。
自Transformer橫空出世,從NLP到CV,再到今天的多模態,無數基于Transformer的模型被應用于各類任務,似乎真的印證了當年文章的標題“Transformer is ALL you need”。然而,純粹的NLP任務有BERT、RoBERTa,CV任務有ViT,多模態任務又有VLBERT、OSCAR,雖然都是基于Transformer的結構,但是仍然是針對不同任務設計不同模型,那么“萬能”的Transformer能否構建出一個統合各類任務的模型,實現真的的一個模型解決所有問題呢?
今天文章的作者就關注到了當前各個模型的局限,提出了一個適用于NLP+CV+多模態的模型FLAVA,可運用于三種領域共計35個任務,且都有著出色的表現。
論文題目:
FLAVA: A Foundational Language And Vision Alignment Model
論文鏈接:
https://arxiv.org/abs/2112.04482
介紹
文章標題中,作者稱模型為“Foundational”,他們不希望借助各種奇技淫巧的Tricks,而是通過盡可能簡單的結構,配合直觀的的訓練手段,達到涵蓋NLP、CV、多模態的目的。
FLAVA基于三種不同的輸入:
匹配的圖片-文本
單獨文本
單獨圖片
解決三個領域的問題:
NLP:語言理解(如GLUE)
CV:視覺識別(如ImageNet)
多模態:多模態解釋(如VQA)
圖片編碼器(Image Encoder)
FLAVA直接借用既有模型ViT的結構,同時仿照ViT的處理方法,分割圖片進行編碼。在ViT輸出的隱狀態上,FLAVA利用單一模態數據集中的圖片進行Masked Image Modeling。首先,利用dVAE將圖片轉化為類似詞向量的token;再參照BEiT,對masked隱狀態進行分類,即利用周圍圖片分塊,預測masked的圖片屬于dVAE劃分的哪一類,這樣在圖片上也可以像BERT那樣做mask modeling。
文本編碼器(Text Encoder)
FLAVA在文本部分多處理就相對簡單,作者采取常見的Masked Language Modeling,對一部分masked token進行預測,和其他方法對區別在于,FLAVA沒有采用BERT之類純文本語言模型的結構,而是和圖片編碼器一樣,使用了ViT的結構,不過因為是不同的模態,自然采用了不同的模型參數。
多模態編碼器(Multimodal Encoder)
在圖片編碼器和文本編碼器之上,FLAVA添加了一層多模態編碼器做模態融合,多模態編碼器將前兩者輸出的隱藏狀態作為輸入,同樣利用ViT的模型結構進行融合。
多模態預訓練
在文本編碼器和圖片編碼器中,FLAVA在單一模態上進行了預訓練,在多模態預訓練方面,FLAVA使用了三種多模態預訓練任務:
對比學習:FLAVA利用圖片編碼器和文本編碼器的隱藏狀態,增大相匹配的圖片-文本對之間的余弦相似度,減小非匹配的圖片-文本對之間的余弦相似度。
Masked Multimodal Modeling:與圖片編碼器上的MIM類似,只不過改為利用多模態編碼器的隱狀態進行預測。
圖片-文本匹配:與許多現有模型一樣,FLAVA利用多模態編碼器的[CLS]的隱狀態,識別當前圖片與文本是否匹配。
效果
從上述模型細節可以看出,無論是模型結構,還是預訓練任務,文本與圖片之間高度對稱,同時也設計也十分直觀。接下來看看在35個任務上的表現。
圖中下劃線表示最優結果,加粗表示在公開數據集上訓練的最優結果。
從各個任務平均上看,FLAVA能夠取得整體上的最優結果,多模態任務平均比CLIP高出2個百分點左右,整體平均比CLIP高出10個百分點左右。從具體任務上看,在不少任務上都取得了十分顯著的提高,如STS-B數據集提高了69.69,MNLI數據集提高了46.81。
小結
不同于現有模型,FLAVA最大的特點,也可以說是創新點,在于作者實現了將單一模型運用于三個不同領域的不同任務,而且都有著不錯的效果,雖然FLAVA并沒有奇跡般在所有任務上都達到SOTA,但是整體性能上并不弱于現有模型,同時有著更廣闊的運用場景,模型設計也沒有各種奇技淫巧,這對未來研究通用模型有著很大的啟發。
萌屋作者:子龍(Ryan)
本科畢業于北大計算機系,曾混跡于商湯和MSRA,現在是宅在UCSD(Social Dead)的在讀PhD,主要關注多模態中的NLP和data mining,也在探索更多有意思的Topic,原本只是貴公眾號的吃瓜群眾,被各種有意思的推送吸引就上了賊船,希望借此沾沾小屋的靈氣,paper++,早日成為有貓的程序員!
作品推薦:
1.別再搞純文本了!多模文檔理解更被時代需要!
2.Transformer哪家強?Google爸爸辨優良!
3.預訓練語言真的是世界模型?
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最新进展 | 深度学习在天气预测中的应用
- 下一篇: 深入解析GBDT二分类算法(附代码实现)