當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

我不看好data2vec这类多模态融合的研究

發(fā)布時間：2024/7/5 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了我不看好data2vec这类多模态融合的研究小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | 謝凌曦@知乎

作者注：所有內(nèi)容均只代表作者本人觀點，均有可能被推翻，二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。謝謝！

最近data2vec在twitter和知乎上小火了一把，有人說data2vec是個不錯的工作，也有人說data2vec最成功的就是名字。

我的一句話評價：在當(dāng)前的技術(shù)儲備下，我不太看好這種多模態(tài)融合的路線會走太遠。

先說文章。主體方法一句話就可以說清楚：利用masked data modeling的方式對語音、文本、圖像進行統(tǒng)一預(yù)訓(xùn)練。

至于用EMA來構(gòu)造teacher然后監(jiān)督student等常規(guī)操作，與許多已有方法相似，因此也不再贅述。和之前若干文章一樣，作者也毫不避諱，甚至有些驕傲地宣傳該方法非常簡單，并且可以處理三種不同模態(tài)。

實驗部分因為要兼顧三種模態(tài)，所以每個部分都比較短，其中視覺部分略顯敷衍：只做了ImageNet上的fine-tuning——然而在我看來，fine-tuning這個setting真的沒有太大價值：預(yù)訓(xùn)練模型的兩個最重要的能力（小樣本、域遷移）都沒有得到考驗！

總的來講，與近期視覺領(lǐng)域的若干文章一樣，data2vec使用了極簡架構(gòu)，達到了比較solid的實驗結(jié)果，因而是一篇值得被ICML接受的文章。

順便說句題外話感慨一下：最近做預(yù)訓(xùn)練的文章，都流行“方法1頁，實驗4-5頁”的暴力寫作風(fēng)格，似乎要向業(yè)界傳遞一個信號：方法不重要，數(shù)據(jù)和算力才是。

回想十年前，方法和實驗長度1:1的文章，都時常要被質(zhì)疑方法太簡單。時代確實不一樣了。

問題是，現(xiàn)在這樣真的對嗎？或者說，這樣真的能解決長遠的問題嗎？我們知道，不同模態(tài)的數(shù)據(jù)具有十分不同的性質(zhì)。除了語音和文本這種對應(yīng)性很強的跨模態(tài)，如果我們考慮文本和圖像，就會發(fā)現(xiàn)兩者的對應(yīng)關(guān)系復(fù)雜而多變。

本中的某些token，根本不會在圖像中呈現(xiàn)出來，反之亦然。在這種情況下，統(tǒng)一使用masked modeling的做法，雖然確實取得了一定的效果，但是它的上限不會太高；指望它完成真正的跨模態(tài)，就更是天方夜譚了。

上述現(xiàn)象，歸根結(jié)底，這是因為圖像和文本的來源不同：圖像作為反映客觀事物的載體，必須追求真實和詳細；而文本作為人類主觀意志的表達，則往往追求抽象和簡潔。

目前，還沒有任何一種方法能夠證實兩種數(shù)據(jù)應(yīng)該被映射到同一個隱空間上；而幾乎所有跨模態(tài)預(yù)訓(xùn)練方法，都不過將兩種完全不同的數(shù)據(jù)強行對齊，得到一些統(tǒng)計意義上的弱規(guī)律罷了。

當(dāng)然，我不是說這些事沒有意義。在深度學(xué)習(xí)，尤其是具有大一統(tǒng)潛力的transformer模塊的助力下，這樣做確實拓展了人類的知識邊界和工具包，值得記為AI發(fā)展的一個小里程碑。

但是，我們決不能滿足于這種簡單暴力的方法，因為它們對本質(zhì)問題（即不同模態(tài)數(shù)據(jù)如何對齊）的幫助極為有限。

就拿我熟悉的視覺任務(wù)來說。BEIT和MAE開啟了一波masked image modeling的熱潮，然而問題是：在圖像上做mask真的對嗎，真的能夠?qū)W到高效的語義嗎？這個問題目前還沒有得到解答！

換句話說，還沒有人能夠回答，圖像自監(jiān)督究竟學(xué)到了什么，是否學(xué)到了超越像素統(tǒng)計量的信息？在這種情況下，如果我們一味地沉浸在transformer的表面繁榮里，沾沾自喜于fine-tuning比linear probing高出的那幾個百分點，怕是會忘了前路漫漫，懈怠于思考真正重要的問題吧。

總之，大一統(tǒng)很重要也很迷人，但是還不到火候啊。

最后，我希望以下兩件事至少發(fā)生一件。

第一，我被狠狠地打臉：這樣暴力的預(yù)訓(xùn)練方法確實帶來了非平凡的突破，走向下一個時代的AI。

第二，大佬/大組們能夠稍微冷靜一些，向業(yè)界傳遞正確的信號，讓沒有足夠資源燒實驗的同學(xué)們知道哪些問題重要、哪些問題亟待解決、哪些問題不過是無奈下的選擇：只有更理智的大眾，才能更好地推動業(yè)界發(fā)展，不是么？

后臺回復(fù)關(guān)鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復(fù)關(guān)鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

總結(jié)

以上是生活随笔為你收集整理的我不看好data2vec这类多模态融合的研究的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：搭配对比学习，万能的 prompt 还能
下一篇：学术工业界大佬联合打造：ML产品落地流程