我不看好data2vec这类多模态融合的研究
文 | 謝凌曦@知乎
作者注:所有內(nèi)容均只代表作者本人觀點(diǎn),均有可能被推翻,二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。謝謝!
最近data2vec在twitter和知乎上小火了一把,有人說data2vec是個(gè)不錯(cuò)的工作,也有人說data2vec最成功的就是名字。
我的一句話評(píng)價(jià):在當(dāng)前的技術(shù)儲(chǔ)備下,我不太看好這種多模態(tài)融合的路線會(huì)走太遠(yuǎn)。
先說文章。主體方法一句話就可以說清楚:利用masked data modeling的方式對(duì)語音、文本、圖像進(jìn)行統(tǒng)一預(yù)訓(xùn)練。
至于用EMA來構(gòu)造teacher然后監(jiān)督student等常規(guī)操作,與許多已有方法相似,因此也不再贅述。和之前若干文章一樣,作者也毫不避諱,甚至有些驕傲地宣傳該方法非常簡(jiǎn)單,并且可以處理三種不同模態(tài)。
實(shí)驗(yàn)部分因?yàn)橐骖櫲N模態(tài),所以每個(gè)部分都比較短,其中視覺部分略顯敷衍:只做了ImageNet上的fine-tuning——然而在我看來,fine-tuning這個(gè)setting真的沒有太大價(jià)值:預(yù)訓(xùn)練模型的兩個(gè)最重要的能力(小樣本、域遷移)都沒有得到考驗(yàn)!
總的來講,與近期視覺領(lǐng)域的若干文章一樣,data2vec使用了極簡(jiǎn)架構(gòu),達(dá)到了比較solid的實(shí)驗(yàn)結(jié)果,因而是一篇值得被ICML接受的文章。
順便說句題外話感慨一下:最近做預(yù)訓(xùn)練的文章,都流行“方法1頁,實(shí)驗(yàn)4-5頁”的暴力寫作風(fēng)格,似乎要向業(yè)界傳遞一個(gè)信號(hào):方法不重要,數(shù)據(jù)和算力才是。
回想十年前,方法和實(shí)驗(yàn)長(zhǎng)度1:1的文章,都時(shí)常要被質(zhì)疑方法太簡(jiǎn)單。時(shí)代確實(shí)不一樣了。
問題是,現(xiàn)在這樣真的對(duì)嗎?或者說,這樣真的能解決長(zhǎng)遠(yuǎn)的問題嗎?我們知道,不同模態(tài)的數(shù)據(jù)具有十分不同的性質(zhì)。除了語音和文本這種對(duì)應(yīng)性很強(qiáng)的跨模態(tài),如果我們考慮文本和圖像,就會(huì)發(fā)現(xiàn)兩者的對(duì)應(yīng)關(guān)系復(fù)雜而多變。
本中的某些token,根本不會(huì)在圖像中呈現(xiàn)出來,反之亦然。在這種情況下,統(tǒng)一使用masked modeling的做法,雖然確實(shí)取得了一定的效果,但是它的上限不會(huì)太高;指望它完成真正的跨模態(tài),就更是天方夜譚了。
上述現(xiàn)象,歸根結(jié)底,這是因?yàn)閳D像和文本的來源不同:圖像作為反映客觀事物的載體,必須追求真實(shí)和詳細(xì);而文本作為人類主觀意志的表達(dá),則往往追求抽象和簡(jiǎn)潔。
目前,還沒有任何一種方法能夠證實(shí)兩種數(shù)據(jù)應(yīng)該被映射到同一個(gè)隱空間上;而幾乎所有跨模態(tài)預(yù)訓(xùn)練方法,都不過將兩種完全不同的數(shù)據(jù)強(qiáng)行對(duì)齊,得到一些統(tǒng)計(jì)意義上的弱規(guī)律罷了。
當(dāng)然,我不是說這些事沒有意義。在深度學(xué)習(xí),尤其是具有大一統(tǒng)潛力的transformer模塊的助力下,這樣做確實(shí)拓展了人類的知識(shí)邊界和工具包,值得記為AI發(fā)展的一個(gè)小里程碑。
但是,我們決不能滿足于這種簡(jiǎn)單暴力的方法,因?yàn)樗鼈儗?duì)本質(zhì)問題(即不同模態(tài)數(shù)據(jù)如何對(duì)齊)的幫助極為有限。
就拿我熟悉的視覺任務(wù)來說。BEIT和MAE開啟了一波masked image modeling的熱潮,然而問題是:在圖像上做mask真的對(duì)嗎,真的能夠?qū)W到高效的語義嗎?這個(gè)問題目前還沒有得到解答!
換句話說,還沒有人能夠回答,圖像自監(jiān)督究竟學(xué)到了什么,是否學(xué)到了超越像素統(tǒng)計(jì)量的信息?在這種情況下,如果我們一味地沉浸在transformer的表面繁榮里,沾沾自喜于fine-tuning比linear probing高出的那幾個(gè)百分點(diǎn),怕是會(huì)忘了前路漫漫,懈怠于思考真正重要的問題吧。
總之,大一統(tǒng)很重要也很迷人,但是還不到火候啊。
最后,我希望以下兩件事至少發(fā)生一件。
第一,我被狠狠地打臉:這樣暴力的預(yù)訓(xùn)練方法確實(shí)帶來了非平凡的突破,走向下一個(gè)時(shí)代的AI。
第二,大佬/大組們能夠稍微冷靜一些,向業(yè)界傳遞正確的信號(hào),讓沒有足夠資源燒實(shí)驗(yàn)的同學(xué)們知道哪些問題重要、哪些問題亟待解決、哪些問題不過是無奈下的選擇:只有更理智的大眾,才能更好地推動(dòng)業(yè)界發(fā)展,不是么?
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
總結(jié)
以上是生活随笔為你收集整理的我不看好data2vec这类多模态融合的研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 搭配对比学习,万能的 prompt 还能
- 下一篇: 学术工业界大佬联合打造:ML产品落地流程