日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

我不看好data2vec这类多模态融合的研究

發(fā)布時間:2024/7/5 编程问答 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 我不看好data2vec这类多模态融合的研究 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文 | 謝凌曦@知乎

作者注:所有內(nèi)容均只代表作者本人觀點,均有可能被推翻,二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。謝謝!

最近data2vec在twitter和知乎上小火了一把,有人說data2vec是個不錯的工作,也有人說data2vec最成功的就是名字。

我的一句話評價:在當(dāng)前的技術(shù)儲備下,我不太看好這種多模態(tài)融合的路線會走太遠。

先說文章。主體方法一句話就可以說清楚:利用masked data modeling的方式對語音、文本、圖像進行統(tǒng)一預(yù)訓(xùn)練。

至于用EMA來構(gòu)造teacher然后監(jiān)督student等常規(guī)操作,與許多已有方法相似,因此也不再贅述。和之前若干文章一樣,作者也毫不避諱,甚至有些驕傲地宣傳該方法非常簡單,并且可以處理三種不同模態(tài)。

實驗部分因為要兼顧三種模態(tài),所以每個部分都比較短,其中視覺部分略顯敷衍:只做了ImageNet上的fine-tuning——然而在我看來,fine-tuning這個setting真的沒有太大價值:預(yù)訓(xùn)練模型的兩個最重要的能力(小樣本、域遷移)都沒有得到考驗!

總的來講,與近期視覺領(lǐng)域的若干文章一樣,data2vec使用了極簡架構(gòu),達到了比較solid的實驗結(jié)果,因而是一篇值得被ICML接受的文章。

順便說句題外話感慨一下:最近做預(yù)訓(xùn)練的文章,都流行“方法1頁,實驗4-5頁”的暴力寫作風(fēng)格,似乎要向業(yè)界傳遞一個信號:方法不重要,數(shù)據(jù)和算力才是。

回想十年前,方法和實驗長度1:1的文章,都時常要被質(zhì)疑方法太簡單。時代確實不一樣了。

問題是,現(xiàn)在這樣真的對嗎?或者說,這樣真的能解決長遠的問題嗎?我們知道,不同模態(tài)的數(shù)據(jù)具有十分不同的性質(zhì)。除了語音和文本這種對應(yīng)性很強的跨模態(tài),如果我們考慮文本和圖像,就會發(fā)現(xiàn)兩者的對應(yīng)關(guān)系復(fù)雜而多變。

本中的某些token,根本不會在圖像中呈現(xiàn)出來,反之亦然。在這種情況下,統(tǒng)一使用masked modeling的做法,雖然確實取得了一定的效果,但是它的上限不會太高;指望它完成真正的跨模態(tài),就更是天方夜譚了。

上述現(xiàn)象,歸根結(jié)底,這是因為圖像和文本的來源不同:圖像作為反映客觀事物的載體,必須追求真實和詳細;而文本作為人類主觀意志的表達,則往往追求抽象和簡潔。

目前,還沒有任何一種方法能夠證實兩種數(shù)據(jù)應(yīng)該被映射到同一個隱空間上;而幾乎所有跨模態(tài)預(yù)訓(xùn)練方法,都不過將兩種完全不同的數(shù)據(jù)強行對齊,得到一些統(tǒng)計意義上的弱規(guī)律罷了。

當(dāng)然,我不是說這些事沒有意義。在深度學(xué)習(xí),尤其是具有大一統(tǒng)潛力的transformer模塊的助力下,這樣做確實拓展了人類的知識邊界和工具包,值得記為AI發(fā)展的一個小里程碑。

但是,我們決不能滿足于這種簡單暴力的方法,因為它們對本質(zhì)問題(即不同模態(tài)數(shù)據(jù)如何對齊)的幫助極為有限。

就拿我熟悉的視覺任務(wù)來說。BEIT和MAE開啟了一波masked image modeling的熱潮,然而問題是:在圖像上做mask真的對嗎,真的能夠?qū)W到高效的語義嗎?這個問題目前還沒有得到解答!

換句話說,還沒有人能夠回答,圖像自監(jiān)督究竟學(xué)到了什么,是否學(xué)到了超越像素統(tǒng)計量的信息?在這種情況下,如果我們一味地沉浸在transformer的表面繁榮里,沾沾自喜于fine-tuning比linear probing高出的那幾個百分點,怕是會忘了前路漫漫,懈怠于思考真正重要的問題吧。

總之,大一統(tǒng)很重要也很迷人,但是還不到火候啊。

最后,我希望以下兩件事至少發(fā)生一件。

第一,我被狠狠地打臉:這樣暴力的預(yù)訓(xùn)練方法確實帶來了非平凡的突破,走向下一個時代的AI。

第二,大佬/大組們能夠稍微冷靜一些,向業(yè)界傳遞正確的信號,讓沒有足夠資源燒實驗的同學(xué)們知道哪些問題重要、哪些問題亟待解決、哪些問題不過是無奈下的選擇:只有更理智的大眾,才能更好地推動業(yè)界發(fā)展,不是么?

后臺回復(fù)關(guān)鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復(fù)關(guān)鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

總結(jié)

以上是生活随笔為你收集整理的我不看好data2vec这类多模态融合的研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。