當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AI模型的大一统！多模态领域乱杀的十二边形战士

發(fā)布時間：2024/8/1 ChatGpt 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 AI模型的大一统！多模态领域乱杀的十二边形战士小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者丨戰(zhàn)斗系牧師@知乎

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/558533740

編輯丨極市平臺

無敵的十二寸Pizza餅戰(zhàn)士BEIT3

說在前面的話（有點小長，可以直接跳過的）

期待

在Swin-v2出來不久之后，我預(yù)感一個很棒的大一統(tǒng)模型很快就會到來了，當時，我躺在床上，給我的好伙伴寫下了必勝的AI模型配方！

大數(shù)據(jù)量+大模型架構(gòu)+MAE（mask data）+多模態(tài)訓練方式

寫下這條配方時候我其實就覺得下一個無敵的模型估計很快就可以出現(xiàn)了。沒想到，學都還沒有開，BEIT-3就迎面向我們走來了。一個能在多模態(tài)領(lǐng)域亂殺的無敵十二邊形戰(zhàn)士，在純視覺領(lǐng)域都能是妥妥的SOTA。一個真正做到了大一統(tǒng)的模型框架！

疲憊

但是經(jīng)過這么多輪的，大模型的轟炸。其實人工智能組成的中堅力量（實驗室小作坊們）已經(jīng)沒有辦法頂?shù)米∵@些核彈的壓力了。這么大的模型，這么龐大的訓練量，效果再炸裂又能怎樣，我又復(fù)現(xiàn)不出來。 這種聲音成為了現(xiàn)在開發(fā)者們的主流心聲。大家都疲憊了，這種工作再棒其實也是無效工作，follow的成本太高了。那么這時候很又前瞻性的研究員們就要站出來抵抗了，問出那個最知乎的問題，那有沒有大模型有沒有不能覆蓋到的方向呢？”核彈“到底有沒有炸不到的點呢？

其實是有的，不如我先BEIT-3的工作內(nèi)容大概內(nèi)容和大家講一遍，然后慢慢和大家分析有沒有這個答案吧！

為什么會有這樣的一個工作？

其實先當前的大一統(tǒng)的思路其實很清晰。發(fā)展的方向也是主要主要沿著以下三點進行更新迭代，合適的骨干架構(gòu)、各任務(wù)的預(yù)訓練模型、大參數(shù)量的模型架構(gòu)。 本文的BEIT-3也是順著這個思路對模型進行迭代的，不僅在圖像+語言的方向取得SOTA，甚至在純圖像領(lǐng)域，也是一馬當先，把分數(shù)又往前卷了一步！其實我覺得ADE20k超過了大殺器Swin-V2、在coco上雖然不是漲點很多，但是也破了DINO的記錄，在圖像分類任務(wù)上也擊敗了我的白月光CLIP，漲了0.6個點，這個可是真正無敵的存在。

合適的骨干架構(gòu)—Multiway Transformer

從Transformer在語言翻譯上的大獲成功，再到ViT在視覺領(lǐng)域上的大放異彩，Transformer架構(gòu)已經(jīng)成為了視覺、語言通用的大殺器。對于多模態(tài)來說，有一個能夠在語言和視覺同時work的網(wǎng)絡(luò)架構(gòu)體系，使得無縫處理多種模態(tài)的任務(wù)成為可能。但是因為視覺和語言畢竟不是一個體系的數(shù)據(jù)類型，一般來說未來適配不同的下游任務(wù)，我們都會重新設(shè)計Transformer架構(gòu)。這種方案其實不利于大一統(tǒng)的思路發(fā)展，所以我們需要有一個整體化的架構(gòu)范式，幫助我們完成大一統(tǒng)的理想。

其實不同的任務(wù)能不能集成在一個框架，其實有幾種的思考模式，比如第一種，弱聯(lián)系框架。多分支獨立進行特征提取工作，最后只借助loss函數(shù)回歸彼此的信息，完成信息交互。但是這樣的操作其實無法做到充分的信息共享，而且參數(shù)沒有辦法有效地跨模態(tài)共享，所以一個大一統(tǒng)多模態(tài)框架需要滿足信息共享、信息交互的兩個特點。考慮到Transformer整體架構(gòu)的特性，這項工作中使用Multiway transformer作為骨干模型來編碼不同的模態(tài)。上圖所示，每個Multiway Transformer模塊由一個共享的自注意模塊和一組用于不同模態(tài)的前饋網(wǎng)絡(luò)(即單一模態(tài)專家)組成。我們根據(jù)每個輸入類型，將其轉(zhuǎn)化為token的形式輸入到給各個模態(tài)的支路當中。 在我們的實現(xiàn)中，每一層都包含一個視覺支路和一個語言支路。

此外，在前三層還有為融合多模態(tài)數(shù)據(jù)而設(shè)計的視覺-語言融合支路。以獲得更詳細的全局特征信息。通過共享自注意模塊學習到的不同特征，并對不同模態(tài)之間特征一一對齊，使得多模態(tài)(如視覺-語言)任務(wù)信息融合得更加緊密。與各自為營的集成化的多模態(tài)模型相比，大一統(tǒng)體系結(jié)構(gòu)的BEIT-3能夠支持更廣泛的下游任務(wù)。例如，BEIT-3可以用作各種視覺任務(wù)的圖像主干，包括圖像分類、目標檢測、實例分割和語義分割。它還可以通過微調(diào)，轉(zhuǎn)化為一個有效的圖像-文本檢索雙編碼器，以及多模態(tài)的推理任務(wù)和視頻理解任務(wù)。

一個模型可以同時滿足abcde個心愿！

Masked Data modeling自監(jiān)督學習

基于掩碼數(shù)據(jù)的訓練方法已經(jīng)成功的運用在各個任務(wù)上。無論是及BEIT還是MAE，這種掩碼的自監(jiān)督的學習方法都讓模型變得更加的魯棒！我們通過統(tǒng)一的mask data的模式下在單模態(tài)(即圖像或者文本)和多模態(tài)(即圖像+文本)數(shù)據(jù)上對BEIT-3進行進一步的訓練。

在預(yù)訓練過程中，我們隨機屏蔽一定比例的文本標記或給圖像數(shù)據(jù)加上補丁，并通過模型的訓練使其達到恢復(fù)屏蔽標記的能力。這種做法其實已經(jīng)在早期的BEIT實驗中取得了成功，MAE也在最近的CVPR上大放異彩。那么我們的多模態(tài)的信息還原其實也是如此。不僅能學習各自模態(tài)的表征信息，而且還可以通過這種方式學習到不同模態(tài)之間的對齊。具體地說，文本數(shù)據(jù)通過SentencePiece標記器進行標記。圖像數(shù)據(jù)則通過BEIT-v2 的tokener將其轉(zhuǎn)化為token，并將這里離散的圖像信息作為重構(gòu)的對象，以此來增強不同模態(tài)之間的理解，對齊兩種模態(tài)的信息。

在實驗中BEIT-3隨機屏蔽15%的單模文本的標記和50%的圖像-文本對的文本標記。對于圖像，我們使用像BEIT中那樣的block-wise級別的掩膜策略來遮蔽40%的圖像補丁。我們只使用一個預(yù)訓練的模型，來與之前的工作進行更明顯的訓練效果對比。相比之下，以往的視覺-語言多模態(tài)模型通常采用多種預(yù)訓練任務(wù)，如圖像-文本對比，圖文匹配，我們證明了一個更小的預(yù)訓練模型，更小的batch size也可以用于自監(jiān)督的圖像恢復(fù)的訓練任務(wù)。

基于對比學習的方法通常需要非常大的批規(guī)模進行預(yù)訓練，這帶來了更多的工程挑戰(zhàn)，比如燒卡！燒GPU！

其實這里我想說的是CLIP，其實CLIP的效果確實非常炸裂，而且zero-short的特點也具有足夠的賣點。但是確實強大的預(yù)訓練模型就是CLIP狂妄的資本，如果脫離了預(yù)訓練與數(shù)據(jù)的支撐，CLIP的思路是無法有效work的，從CLIP在MNIST數(shù)字識別的數(shù)據(jù)集上的效果我們大概也知道這種情況了。強大的預(yù)訓練與數(shù)據(jù)集其實終究是飲鳩止渴，在強大的模型架構(gòu)才是發(fā)展的第一順位！

大模型，大爆炸

BEIT-3骨干網(wǎng)是繼ViT-giant之后建立的一個巨型基礎(chǔ)模型。所示，該模型由一個40層的Multiway Transformer組成，其中隱藏尺寸為1408，中間尺寸為6144，注意力頭為16。每一層都包含視覺支路和語言支路。視覺-語言支路也被在前三個Multiway Transformer層。自注意機制模塊也在不同的模態(tài)中參與共享。

BEIT-3共包含1.9Billion參數(shù)，其中視覺專家參數(shù)692M，語言專家參數(shù)692M，視覺語言專家參數(shù)52M，共享自注意模塊參數(shù)317M。

當和ViT-giant使用形同的圖像尺度時會有1B的參數(shù)量被激活。

BEIT-3下表所示的單模態(tài)和多模態(tài)數(shù)據(jù)進行了訓練。對于多模態(tài)數(shù)據(jù)，大約有15M幅圖像和21M幅文本對，收集自五個公共數(shù)據(jù)集:Conceptual 12M (CC12M)， Conceptual Captions (CC3M) ， SBU Captions (SBU) ， COCO和Visual Genome (VG) 。

模型參數(shù)+訓練數(shù)據(jù)參數(shù)

對于圖像和文本的單模態(tài)數(shù)據(jù)，我們使用來自ImageNet-21K的14M圖像和Wikipedia、BookCorpus 、OpenWebText3、CC-News和Stories的160GB英文文本語料庫。我們預(yù)訓練BEIT-3為1M步。每個batch共包含6144個樣本，其中圖像2048張，文本2048張，圖文對2048對。我們的模型訓練的時候batch要比對比學習的模型小很多。

文章的總結(jié)

在本文中，提出了BEIT-3，一個通用的多模態(tài)基礎(chǔ)模型，它在廣泛的視覺和視覺語言基準上實現(xiàn)了最先進的性能。

BEIT-3的核心思想是將圖像也理解為一種外語，這樣我們就可以對圖像、文本以及圖像-文本對進行統(tǒng)一的mask-data的“語言”建模。

還展示了Multiway transformer可以有效地為幫助不同的視覺和視覺-語言任務(wù)進行模型的學習。

相比于其他的多模態(tài)的工作，BEIT-3要顯得簡單有效，是擴大多模態(tài)基礎(chǔ)模型的一個有前途的方向。

在未來的工作中，BEIT團隊正在對BEIT-3進行多語言的預(yù)訓練模型的構(gòu)建工作，并在BEIT-3中加入更多的模態(tài)信息(如音頻)，以促進大一統(tǒng)的任務(wù)更夠更加的統(tǒng)一。

我的總結(jié)

其實沒有讀這篇文章之前，我只是覺得我戲謔的配方竟然真的成為了一個推動大一統(tǒng)工作的一個方向，這其實讓我對這篇工作的期待度并沒有很高。但是仔細閱讀之后，其實我覺得BEIT-3給了我很多的思考。原來結(jié)構(gòu)真的可以不必如此復(fù)雜，利用數(shù)據(jù)量+自監(jiān)督+大參數(shù)量模型是真的可以做到一個很棒的效果。其實在VIT-MLP出來的時候，我覺得數(shù)據(jù)才是王道，在CLIP出來的時候我覺得預(yù)訓練模型才是王道，在Swin-T和ConvNext出來之后我一直都覺得其實架構(gòu)才是王道，到MAE出來的時候，我覺得訓練方式才是王道。其實我一直都沒有很能get到能夠影響CV模型精度的到底是什么。好在，看了文章之后我起碼知道了CLIP是錯的。這也算是沒有白看這篇論文~

回到我剛開始埋下來的坑中，那到底啥才是核彈炸不到的地方呢？其實答案很簡單，我們回到數(shù)據(jù)本身，其實如果這個模態(tài)之間沒有必然的聯(lián)系和規(guī)律，自然這種方法就無法有效的捕捉模態(tài)之間的特征，退化為單一模態(tài)的樣式了。我再舉個例子，如果兩個模態(tài)的信息不是一一對齊，而是相互互補的呢？這種多路的注意力同就肯定無法合理化的進行特征相互的補充了。

我覺得我們對于大模型的探索會一直繼續(xù)，一直未完待續(xù)的！所以寫這篇知乎的時候我人還在吃Pizza，我的錢包也因為假期的揮霍所剩無幾了，所以其實吃完P(guān)izza的我要繼續(xù)的寫文章了，真的是不知道啥時候才能休息一會兒啊！

總結(jié)

以上是生活随笔為你收集整理的AI模型的大一统！多模态领域乱杀的十二边形战士的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：小小精彩的flash
下一篇：【AI志愿超强攻略】中国高校人工智能专业