日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!

發布時間:2024/7/5 编程问答 55 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 子龍

編 | 智商掉了一地

厲害了!作者將單一模型運用于三個不同領域的不同任務,結構簡單且訓練直觀,還能有著出色的表現。

自Transformer橫空出世,從NLP到CV,再到今天的多模態,無數基于Transformer的模型被應用于各類任務,似乎真的印證了當年文章的標題“Transformer is ALL you need”。然而,純粹的NLP任務有BERT、RoBERTa,CV任務有ViT,多模態任務又有VLBERT、OSCAR,雖然都是基于Transformer的結構,但是仍然是針對不同任務設計不同模型,那么“萬能”的Transformer能否構建出一個統合各類任務的模型,實現真的的一個模型解決所有問題呢?

今天文章的作者就關注到了當前各個模型的局限,提出了一個適用于NLP+CV+多模態的模型FLAVA,可運用于三種領域共計35個任務,且都有著出色的表現。

論文題目:
FLAVA: A Foundational Language And Vision Alignment Model

論文鏈接:
https://arxiv.org/abs/2112.04482

介紹

文章標題中,作者稱模型為“Foundational”,他們不希望借助各種奇技淫巧的Tricks,而是通過盡可能簡單的結構,配合直觀的的訓練手段,達到涵蓋NLP、CV、多模態的目的。

FLAVA基于三種不同的輸入:

  • 匹配的圖片-文本

  • 單獨文本

  • 單獨圖片

解決三個領域的問題:

  • NLP:語言理解(如GLUE)

  • CV:視覺識別(如ImageNet)

  • 多模態:多模態解釋(如VQA)

圖片編碼器(Image Encoder)

FLAVA直接借用既有模型ViT的結構,同時仿照ViT的處理方法,分割圖片進行編碼。在ViT輸出的隱狀態上,FLAVA利用單一模態數據集中的圖片進行Masked Image Modeling。首先,利用dVAE將圖片轉化為類似詞向量的token;再參照BEiT,對masked隱狀態進行分類,即利用周圍圖片分塊,預測masked的圖片屬于dVAE劃分的哪一類,這樣在圖片上也可以像BERT那樣做mask modeling。

文本編碼器(Text Encoder)

FLAVA在文本部分多處理就相對簡單,作者采取常見的Masked Language Modeling,對一部分masked token進行預測,和其他方法對區別在于,FLAVA沒有采用BERT之類純文本語言模型的結構,而是和圖片編碼器一樣,使用了ViT的結構,不過因為是不同的模態,自然采用了不同的模型參數。

多模態編碼器(Multimodal Encoder)

在圖片編碼器和文本編碼器之上,FLAVA添加了一層多模態編碼器做模態融合,多模態編碼器將前兩者輸出的隱藏狀態作為輸入,同樣利用ViT的模型結構進行融合。

多模態預訓練

在文本編碼器和圖片編碼器中,FLAVA在單一模態上進行了預訓練,在多模態預訓練方面,FLAVA使用了三種多模態預訓練任務:

  • 對比學習:FLAVA利用圖片編碼器和文本編碼器的隱藏狀態,增大相匹配的圖片-文本對之間的余弦相似度,減小非匹配的圖片-文本對之間的余弦相似度。

  • Masked Multimodal Modeling:與圖片編碼器上的MIM類似,只不過改為利用多模態編碼器的隱狀態進行預測。

  • 圖片-文本匹配:與許多現有模型一樣,FLAVA利用多模態編碼器的[CLS]的隱狀態,識別當前圖片與文本是否匹配。

效果

從上述模型細節可以看出,無論是模型結構,還是預訓練任務,文本與圖片之間高度對稱,同時也設計也十分直觀。接下來看看在35個任務上的表現。

圖中下劃線表示最優結果,加粗表示在公開數據集上訓練的最優結果。

從各個任務平均上看,FLAVA能夠取得整體上的最優結果,多模態任務平均比CLIP高出2個百分點左右,整體平均比CLIP高出10個百分點左右。從具體任務上看,在不少任務上都取得了十分顯著的提高,如STS-B數據集提高了69.69,MNLI數據集提高了46.81。

小結

不同于現有模型,FLAVA最大的特點,也可以說是創新點,在于作者實現了將單一模型運用于三個不同領域的不同任務,而且都有著不錯的效果,雖然FLAVA并沒有奇跡般在所有任務上都達到SOTA,但是整體性能上并不弱于現有模型,同時有著更廣闊的運用場景,模型設計也沒有各種奇技淫巧,這對未來研究通用模型有著很大的啟發。

萌屋作者:子龍(Ryan)

本科畢業于北大計算機系,曾混跡于商湯和MSRA,現在是宅在UCSD(Social Dead)的在讀PhD,主要關注多模態中的NLP和data mining,也在探索更多有意思的Topic,原本只是貴公眾號的吃瓜群眾,被各種有意思的推送吸引就上了賊船,希望借此沾沾小屋的靈氣,paper++,早日成為有貓的程序員!

作品推薦:

1.別再搞純文本了!多模文檔理解更被時代需要!

2.Transformer哪家強?Google爸爸辨優良!

3.預訓練語言真的是世界模型?

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結

以上是生活随笔為你收集整理的Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。