RACV2022观点集锦 | 视觉基础模型
來(lái)源:https://mp.weixin.qq.com/s/pAbMI-qwdCY7-9SeMxDlFw
“本文得到CCF-CV專委會(huì)(公眾號(hào): CCF計(jì)算機(jī)視覺(jué)專委會(huì))授權(quán)發(fā)布”
視覺(jué)基礎(chǔ)模型(Vision Foundation Model)是當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域最為火熱的研究方向之一。在視覺(jué)領(lǐng)域,獲取大量標(biāo)注數(shù)據(jù)是非常昂貴的。我們可以通過(guò)借助無(wú)標(biāo)注數(shù)據(jù)、圖文數(shù)據(jù)或者多模態(tài)數(shù)據(jù)等,采用對(duì)比學(xué)習(xí)、掩碼重建等學(xué)習(xí)方式預(yù)訓(xùn)練得到視覺(jué)基礎(chǔ)模型,用于許多視覺(jué)下游任務(wù),如物體檢測(cè)、語(yǔ)義分割等。雖然現(xiàn)有方法已經(jīng)表現(xiàn)不俗,但視覺(jué)基礎(chǔ)模型仍有許多共同關(guān)注的問(wèn)題值得進(jìn)一步探索,包括如何更好地利用圖文數(shù)據(jù)、未來(lái)視覺(jué)基礎(chǔ)模型會(huì)如何發(fā)展等。我們?cè)赗ACV 2022組織了“視覺(jué)基礎(chǔ)模型”專題論壇,邀請(qǐng)到王井東、王興剛、謝凌曦以及黃高四位專家做了專題進(jìn)展報(bào)告,同與會(huì)的40余位國(guó)內(nèi)專家一道就多個(gè)相關(guān)話題進(jìn)行了深入研討。
**專題組織者:**王井東(百度)、程明明(南開(kāi)大學(xué))、侯淇彬(南開(kāi)大學(xué))
**討論時(shí)間:**2022年8月10日
**發(fā)言嘉賓:**王井東、王興剛、謝凌曦、黃高
參與討論嘉賓【按發(fā)言順序】:王井東、謝凌曦、程明明、武智融、金連文、沈春華、虞晶怡、鄭偉詩(shī)、吳小俊、張磊、毋立芳、王興剛、夏勇、高陽(yáng)、賈旭、王鶴、王濤、馬占宇、盧湖川、魯繼文、于劍、査紅彬、丁凱、弋力
**文字整理:**侯淇彬
各位老師好,非常高興來(lái)參加今年的RACV。本次的專題是視覺(jué)基礎(chǔ)模型,英文叫Vision Foundation Model,咱們有時(shí)候也叫大模型。
很多視覺(jué)任務(wù),從應(yīng)用的角度來(lái)講,是需要視覺(jué)基礎(chǔ)模型的。為什么這么講?大家一直苦惱的問(wèn)題是說(shuō)能不能給我更多的標(biāo)注數(shù)據(jù),尤其是識(shí)別。傳統(tǒng)上我們通常認(rèn)為(標(biāo)注)數(shù)據(jù)越多識(shí)別效果越好,但事實(shí)上我們很難去獲得非常大量的標(biāo)注數(shù)據(jù),主要原因不在于技術(shù)上,而是很高代價(jià)去獲得這些標(biāo)注數(shù)據(jù)。
最近一兩年,大家覺(jué)得從預(yù)訓(xùn)練模型角度來(lái)講,是不是可以幫助這些下游任務(wù)。預(yù)訓(xùn)練最近幾年在NLP里面提的非常的多。很多人覺(jué)得視覺(jué)里面這個(gè)基礎(chǔ)模型不如NLP發(fā)展的顯著。其實(shí)這個(gè)事情要換個(gè)角度看看,視覺(jué)里從13年的RCNN開(kāi)始,實(shí)際上已經(jīng)在應(yīng)用預(yù)訓(xùn)練模型。要在這個(gè)基礎(chǔ)上進(jìn)一步提高,實(shí)際上是具有挑戰(zhàn)的事情?,F(xiàn)在,我們希望通過(guò)大量數(shù)據(jù),不管是有標(biāo)注的或者圖文數(shù)據(jù),訓(xùn)練一個(gè)網(wǎng)絡(luò),能夠非常容易地應(yīng)用在一些下游任務(wù)里面,通過(guò)非常簡(jiǎn)單的方法,這是我們希望看到的事情。
我自己也有一些簡(jiǎn)單的認(rèn)識(shí),也希望大家能給我一些建議。關(guān)于視覺(jué)基礎(chǔ)模型,包含了很多維度,這里面列了5個(gè)具有代表性的。第一個(gè)需要有大量的數(shù)據(jù),沒(méi)有數(shù)據(jù),我們的模型再漂亮再?gòu)?qiáng),其實(shí)很難體現(xiàn)它的效果。第二個(gè),大模型的參數(shù)量大,可以用能力來(lái)挖掘數(shù)據(jù)里面的知識(shí)。第三點(diǎn),就是我們希望有一個(gè)所謂的大一統(tǒng)的方案出來(lái)去解決各種各樣的任務(wù)。另外就是大算法,其實(shí)不是說(shuō)簡(jiǎn)單的大數(shù)據(jù),大模型就可以了,其實(shí)算法還是非常重要,如果僅僅靠大量數(shù)據(jù),那這個(gè)事情就純變成一個(gè)依賴算力的事情了。最后一點(diǎn)就是大算力。
我們談到視覺(jué)基礎(chǔ)模型,其實(shí)需要學(xué)的東西非常多,那最近大家關(guān)注更多的是表征訓(xùn)練。其實(shí)談到這個(gè)視覺(jué)表征訓(xùn)練,目前主要有兩大類。一個(gè)是圖文相關(guān)的,比如說(shuō)OpenAI的CLIP,張磊老師原來(lái)在微軟的團(tuán)隊(duì)做的Florence等等,這些數(shù)據(jù)都是互聯(lián)網(wǎng)上非常容易獲得的。另外一大類是自監(jiān)督學(xué)習(xí)。其實(shí)這里面我一直在思考,視覺(jué)語(yǔ)言訓(xùn)練出來(lái)的表征其實(shí)是比較強(qiáng)的,那些語(yǔ)言可能是有一點(diǎn)noise甚至可能是錯(cuò)誤的或者不全的,但他確實(shí)能夠訓(xùn)練出來(lái)強(qiáng)的模型。在大量的數(shù)據(jù)下,跟有監(jiān)督的很類似,表征學(xué)的很好。自監(jiān)督,除了圖像其實(shí)啥都沒(méi)給,怎么能夠?qū)W到很好表征。因?yàn)闆](méi)有給這個(gè)所謂的這個(gè)語(yǔ)言監(jiān)督,也沒(méi)有給標(biāo)簽,這個(gè)時(shí)候所謂的語(yǔ)義表征實(shí)際上是說(shuō)在表征空間里面的不同語(yǔ)義的物體表征能夠聚集在一起。
視覺(jué)語(yǔ)言看上去非常好,確實(shí)它的表征會(huì)比之前的會(huì)好一些,但是我們還需不需要自監(jiān)督學(xué)習(xí)?其實(shí)我們真正去應(yīng)用這樣一個(gè)視覺(jué)基礎(chǔ)模型和預(yù)訓(xùn)練模型的時(shí)候,在很多領(lǐng)域里面可能沒(méi)有圖文里的文本信息。這里面舉一個(gè)例子,比如OCR,大家可以想象OCR圖像所給的文字語(yǔ)言信息可能會(huì)是什么?可能說(shuō)這個(gè)圖關(guān)于文檔的,它不會(huì)具體到說(shuō)里面的文字究竟是什么,對(duì)吧?
之前的自監(jiān)督方法主要是基于對(duì)比學(xué)習(xí)的。從去年開(kāi)始掩碼圖像建模在視覺(jué)里受到大家的關(guān)注越來(lái)越多,今年上半年已經(jīng)有非常多的相關(guān)工作。就是說(shuō)它給同樣一個(gè)View,然后把一些patch的給mask掉,希望用剩余的patch預(yù)測(cè)masked的patch。關(guān)于對(duì)比學(xué)習(xí),我目前一直沒(méi)看到它為什么會(huì)work。我大概一兩個(gè)月之前跟一位同行討論這個(gè)問(wèn)題,他有個(gè)文章里面做了這么一件事情,就把encoder的表征跟projector的表征去做相似patch的搜索。他發(fā)現(xiàn)encoder拿出來(lái)特征的part信息非常好,比如說(shuō)我們查詢一個(gè)狗的腦袋,用encoder特征去搜索,出來(lái)的基本都是狗的腦袋,但是projector出來(lái)的結(jié)果就比較亂,但基本上還是狗。對(duì)比學(xué)習(xí)里預(yù)訓(xùn)練的任務(wù)是什么?其實(shí)不是很明確,或許是通過(guò)projector實(shí)現(xiàn)part-to-whole任務(wù)。
關(guān)于掩碼建模,我也在思考它究竟怎么work的。對(duì)比預(yù)訓(xùn)練主要學(xué)了中間物體的信息,相比較,掩碼圖像建模學(xué)到了圖像里目標(biāo)和背景信息。我猜想,掩碼圖像建模是part-to-part的任務(wù)。
這里我也簡(jiǎn)單介紹一下我們的工作以及它跟幾個(gè)相關(guān)的MIM的方法的對(duì)比。我們方法首先去抽取可見(jiàn)patch的特征,抽取的時(shí)候只把可見(jiàn)patch數(shù)據(jù)輸入到encoder里面去,這意味著我們看到的是沒(méi)有mask部分的信息,然后我們的目的是用可見(jiàn)的patch猜測(cè)mask的部分,但這還是不夠的,我們下面加了一個(gè)alignment分支,使得MIM任務(wù)在表征空間里完成。最近我們發(fā)現(xiàn)在深度學(xué)習(xí)里面,其實(shí)很多方法都是在表征空間里面做,比如DALL·E 2我認(rèn)為在表征空間里面,如果說(shuō)我們把任務(wù)解決得很好的話,那有可能學(xué)到的表征都非常好,所以希望regressor出來(lái)的表征也是在encoder的表征空間里的。
BEiT在干什么?masked圖像經(jīng)過(guò)一個(gè)ViT網(wǎng)絡(luò)結(jié)構(gòu),然后經(jīng)過(guò)linear層直接得到最后的重建圖像。這個(gè)ViT既要學(xué)習(xí)表征,同時(shí)也能解決預(yù)訓(xùn)練任務(wù)。解決預(yù)訓(xùn)練任務(wù)本身學(xué)到的知識(shí),對(duì)我們下游任務(wù)不見(jiàn)得有多大幫助,但是BEiT里面是混合在一起的,所以我認(rèn)為這個(gè)方案學(xué)到的表征不見(jiàn)得那么好。
下面這個(gè)MAE的工作,只看decoder那部分跟BEiT很像,只不過(guò)前面加了一個(gè)encoder。實(shí)驗(yàn)證明了它結(jié)果非常好。從我的角度來(lái)看,MAE也是要把預(yù)訓(xùn)練任務(wù)跟encoder分離開(kāi),這個(gè)情況下其實(shí)不能保證decoder是只做重建任務(wù)。這個(gè)所謂的decoder可能也會(huì)學(xué)可見(jiàn)patch的表征,前面encoder的能力就會(huì)被削弱。我認(rèn)為,預(yù)訓(xùn)練任務(wù)一定要和encoder分開(kāi),不能混在一起,希望就剛才講的要在表征空間里去做預(yù)測(cè)。下圖是比較的總結(jié)。
與MIM對(duì)比,對(duì)比學(xué)習(xí)一般把中間的物體學(xué)得很好,它highlight的基本是中間的物體。然后MIM的方法會(huì)把整個(gè)區(qū)域都highlight出來(lái),換句話講整個(gè)圖像的信息都會(huì)學(xué)得非常的不錯(cuò)。
各位老師早上好,非常榮幸有這個(gè)機(jī)會(huì)來(lái)匯報(bào)一下關(guān)于視覺(jué)基礎(chǔ)模型的一些理解。
在NLP里面,像Bert這種被認(rèn)為是基礎(chǔ)模型,但視覺(jué)里面什么是基礎(chǔ)模型,其實(shí)至今我覺(jué)得是沒(méi)有一個(gè)很明確的定義。所以我這里引用了一個(gè)斯坦福學(xué)者在去年的時(shí)候?qū)懥艘粋€(gè)綜述,On the opportunities and risks of foundation models里面的一個(gè)定義。在這個(gè)定義中,我們希望能夠把所有多模態(tài)數(shù)據(jù)匯聚起來(lái)一起來(lái)學(xué)習(xí),然后能夠適應(yīng)到很多的下游任務(wù)。
它有兩個(gè)很重要的特性,一個(gè)叫Emergence,另外一個(gè)叫homogenization。這兩個(gè)詞我覺(jué)得我們可能需要去理解一下,它有兩個(gè)中文的翻譯,我也是參考其他的翻譯但不一定準(zhǔn)確。第一個(gè)就是涌現(xiàn)。涌現(xiàn)就是說(shuō)我們希望學(xué)習(xí)形式是隱式的,而不是非常直接去顯示學(xué)習(xí)。比如我們需要去做目標(biāo)檢測(cè),我們希望學(xué)了一部分類別,然后對(duì)其他所有的物體都能夠去檢測(cè)。再比如,現(xiàn)在的一些視覺(jué)模型,訓(xùn)練階段是一個(gè)分類的模型,最后能夠做分割,能夠?qū)Χㄎ缓苡凶饔?#xff0c;這就是一種隱式學(xué)習(xí),這樣的話才能夠去為更多的任務(wù)提供支撐。另外一個(gè)就是同質(zhì)化,同質(zhì)化主要意思是一種牽一發(fā)而動(dòng)全身的特性,基礎(chǔ)模型改變了,其實(shí)對(duì)所有的下游任務(wù)都會(huì)有影響?,F(xiàn)在來(lái)講,大部分的基礎(chǔ)模型學(xué)習(xí)的技術(shù)手段基本上都是非常大規(guī)模的自監(jiān)督學(xué)習(xí)。
同樣在斯坦福HAI的技術(shù)報(bào)告里面,我們可以看到它對(duì)視覺(jué)的基礎(chǔ)模型也做了一個(gè)描述,左邊是多模態(tài)數(shù)據(jù),經(jīng)過(guò)訓(xùn)練,得到一個(gè)基礎(chǔ)模型能夠用于檢測(cè)分割、三維重建、常識(shí)推理等各種下游任務(wù)中,因此我們對(duì)視覺(jué)基礎(chǔ)模型的期待是非常大的。其中核心要做的事是希望能夠把多模態(tài)的數(shù)據(jù)通過(guò)學(xué)習(xí)之后能夠變成視覺(jué)knowledge,當(dāng)然這是個(gè)非常困難的遠(yuǎn)景。
這我個(gè)人有一點(diǎn)點(diǎn)理解,我做了一個(gè)不是特別準(zhǔn)確的公式,我認(rèn)為視覺(jué)基礎(chǔ)模型它包括第一個(gè)就是做大規(guī)模的數(shù)據(jù),這個(gè)數(shù)據(jù)可以包括圖像視頻、語(yǔ)言,也可以加上其他模態(tài)的數(shù)據(jù)。如果說(shuō)我們數(shù)據(jù)變得更多,結(jié)果應(yīng)該會(huì)變得更好。第二個(gè)就是建模,其實(shí)主要指的是網(wǎng)絡(luò)框架。第三個(gè)就是表征學(xué)習(xí)。最后第四點(diǎn)是adaptation,就是說(shuō)能夠去適應(yīng)到下游。
就建模而言,其實(shí)我們有很多很多的探索以及成功的經(jīng)驗(yàn),比如說(shuō)去年得馬爾獎(jiǎng)的Swin Transformer,RepLKNet和HorNet。
在數(shù)據(jù)限定、計(jì)算限定情況下,他們表現(xiàn)非常好,相對(duì)于樸素ViT,他們具有更好的數(shù)據(jù)效率和計(jì)算效率。然而,最樸素的ViT這個(gè)架構(gòu)其實(shí)也是非常好的。
我看可以參照推特上的一個(gè)圖。ViT這種最樸素的模型其實(shí)也有非常好的可擴(kuò)展性,這里我引用了一個(gè)Google最近寫的Survey,它做了很多的實(shí)驗(yàn)。第一個(gè)結(jié)論就是不能在樸素的ViT上面加太多inductive bias。加上inductive bias可能在特定數(shù)據(jù)上表現(xiàn)非常好,但是它的可擴(kuò)展性是有傷害的。第二個(gè)就是說(shuō)不同模型架構(gòu)可擴(kuò)展性不一樣。第三點(diǎn)base模型可能表現(xiàn)很好,如果我們把它變到large或者h(yuǎn)uge上面,它這個(gè)提升并沒(méi)有(base、large、huge對(duì)應(yīng)的是模型的參數(shù)量)。總的來(lái)說(shuō),樸素ViT其實(shí)是一個(gè)很好的選擇。
在這個(gè)task layer層面上,最近也有很好的工作,比如說(shuō)mask2former以及Unicorn。他們核心點(diǎn)在于query加self-attention,目的是把一些任務(wù)做到統(tǒng)一。所以我們可以總結(jié)樸素的注意力機(jī)制在backbone和task layer上的表現(xiàn)都是非常好的。
對(duì)于表征,現(xiàn)在主要有兩大核心的思路,第一個(gè)對(duì)比學(xué)習(xí),另外一個(gè)是MIM(視覺(jué)掩碼建模)。最近有一些工作表明這兩大表征其實(shí)可以同時(shí)用,發(fā)現(xiàn)兩個(gè)表征其實(shí)是有很好的互補(bǔ)性。二者結(jié)合的好處可能是對(duì)比學(xué)習(xí)具有可區(qū)分性,MIM可以得到很好的泛化性能,二者的好處能夠得到結(jié)合。
那Vision理解其實(shí)我們不應(yīng)該局限于圖像的分類,更多的其實(shí)我們希望能夠走向檢測(cè)分割甚至三維理解,甚至是更高級(jí)的任務(wù)。
最近微軟有一個(gè)工作叫GLIP,它其實(shí)做box-level的對(duì)比學(xué)習(xí)。說(shuō)對(duì)于每個(gè)box它都有一個(gè)文本表示,然后用CLIP的形式去對(duì)每一個(gè)box學(xué)習(xí)。通過(guò)收集很多有具有box-text的標(biāo)注數(shù)據(jù)能夠訓(xùn)練得到一個(gè)很好的模型,它能夠去做開(kāi)放環(huán)境中的檢測(cè)。我個(gè)人認(rèn)為這其實(shí)是對(duì)視覺(jué)基礎(chǔ)模型的一個(gè)很好的探索。希望它能夠去識(shí)別出一些新的類別——這些新的物體沒(méi)有被學(xué)過(guò),但能夠被檢測(cè)出來(lái)。
還有一個(gè)工作叫Detic,它其實(shí)是用傳統(tǒng)檢測(cè)器把box supervision和class supervision做一個(gè)結(jié)合,對(duì)于很多沒(méi)有box訓(xùn)練過(guò)的類別,也能夠得到非常準(zhǔn)確的檢測(cè)。這是一種通過(guò)這種混合的監(jiān)督來(lái)擴(kuò)大數(shù)據(jù)規(guī)模,同時(shí)能夠檢測(cè)出一些新的類別的有效的技術(shù)手段。
最后講一下關(guān)于adaptation的進(jìn)展,比如最近一個(gè)工作做開(kāi)放場(chǎng)景目標(biāo)檢測(cè),它是把左邊這個(gè)標(biāo)準(zhǔn)clip加了一個(gè)檢測(cè)的頭(類似我們的NeurIPS 2021工作YOLOS方法的檢測(cè)頭),用檢測(cè)頭輸出的box與對(duì)應(yīng)的文本做對(duì)比學(xué)習(xí),它能夠?qū)lip做很小的改動(dòng),從而實(shí)現(xiàn)開(kāi)放場(chǎng)景的目標(biāo)檢測(cè),所以這也體現(xiàn)了adaptation的優(yōu)勢(shì)。
那關(guān)于MIM的adaptation,何凱明他們自己也做了一些工作,ViTDet,它的一個(gè)核心思路其實(shí)說(shuō)在一個(gè)樸素ViT上面加一些window和global的attention,然后在這個(gè)backbone基礎(chǔ)上拉出4層feature,這樣的檢測(cè)結(jié)果也是非常好的。
我這里講一點(diǎn)點(diǎn)我們?cè)赼daptation上面的一個(gè)工作,MiMDet。不同于ViTDet,我們不采用window attention,而是下游檢測(cè)分割任務(wù)中只取一部分patch輸入到ViT重,得到的是一個(gè)可以高效計(jì)算的架構(gòu),并且能夠縮小上游預(yù)訓(xùn)練和下游adaption之間的距離。這樣一個(gè)架構(gòu)在底層加一點(diǎn)點(diǎn)conv可以得到多尺度的表征,最終可以得到很好的檢測(cè)分割結(jié)果。
最后簡(jiǎn)單總結(jié)一下,視覺(jué)基礎(chǔ)模型最重要其實(shí)還是它是可擴(kuò)展的。如果說(shuō)它只在一個(gè)有限的數(shù)據(jù)集上表現(xiàn)很好而沒(méi)有去驗(yàn)證它在大規(guī)模數(shù)據(jù)上的可擴(kuò)展性,其實(shí)還是不夠的。另外就是下游任務(wù)應(yīng)該也是可以擴(kuò)展的,應(yīng)該不局限于分類這樣一個(gè)下游任務(wù)。第二點(diǎn)是說(shuō)樸素的ViT其實(shí)都是非常好的,它能夠非常靈活去unify很多任務(wù)。然后表征學(xué)習(xí)層面上,對(duì)比學(xué)習(xí)和MIM某種程度上可能是互補(bǔ)的。最后就是adaptation層面上,其實(shí)是可以做得很高效,去解決一些當(dāng)前的任務(wù)。
個(gè)人認(rèn)為未來(lái)可能有一些挑戰(zhàn),第一個(gè)就是對(duì)MIM的理解,現(xiàn)在有一些文章表現(xiàn)說(shuō)MIM可能沒(méi)有數(shù)據(jù)擴(kuò)展性,但是這個(gè)可能還是存疑的。另外一個(gè)就是說(shuō)當(dāng)圖像復(fù)雜時(shí),怎么去做區(qū)域和文本描述的對(duì)齊,所以弱監(jiān)督的表征學(xué)習(xí)非常重要。另外一個(gè)就是跨模態(tài)的表征學(xué)習(xí),當(dāng)前的對(duì)比學(xué)習(xí)和MIM如何適應(yīng)跨模態(tài)數(shù)據(jù),或者說(shuō)在跨模態(tài)框架下有何種更好的表征學(xué)習(xí)形式。我認(rèn)為視覺(jué)基礎(chǔ)模型的發(fā)展其實(shí)是一個(gè)大工程,也是希望國(guó)內(nèi)計(jì)算機(jī)領(lǐng)域共同努力去突破包括計(jì)算瓶頸在內(nèi)的一系列問(wèn)題,謝謝。
各位老師大家上午好,非常高興今天能夠有這個(gè)機(jī)會(huì)向大家分享我們最新的一些研究以及心得體會(huì),我今天報(bào)告的題目是《走向無(wú)線細(xì)粒度的按需視覺(jué)識(shí)別》。
我的報(bào)告主要分為兩個(gè)部分。第一部分我會(huì)介紹什么是視覺(jué)識(shí)別中的無(wú)限細(xì)粒度問(wèn)題,以及為什么現(xiàn)有的視覺(jué)識(shí)別算法無(wú)法做到無(wú)限細(xì)粒度。第二部分,我會(huì)講講我們自己最近的一個(gè)研究提議,也就是按需視覺(jué)識(shí)別,以及為什么我們這個(gè)提議能夠走向無(wú)限細(xì)粒度。我講的內(nèi)容跟前面兩位老師可能是互補(bǔ)的,因?yàn)楸绕痤A(yù)訓(xùn)練和模型設(shè)計(jì),我更關(guān)注當(dāng)前的視覺(jué)識(shí)別算法在下游任務(wù)上能不能達(dá)到完整識(shí)別的目標(biāo)。
先從背景說(shuō)起。視覺(jué)識(shí)別是計(jì)算機(jī)視覺(jué)中最本質(zhì)的問(wèn)題之一,我今天要討論的問(wèn)題,是當(dāng)前的視覺(jué)識(shí)別算法能不能做到“完整”的視覺(jué)識(shí)別?!巴暾钡囊馑季褪俏覀兡軌驈囊欢我曨l或一張圖像中識(shí)別出所有能夠識(shí)別的東西。我們這里引出一個(gè)“無(wú)限細(xì)粒度”的概念:人類只要愿意,他就可以從圖像或者視頻當(dāng)中識(shí)別出任意精細(xì)程度的語(yǔ)義。顯然,當(dāng)前計(jì)算機(jī)視覺(jué)的標(biāo)注系統(tǒng)和算法都做不到這一點(diǎn)。
比如我們看一張普通的街景圖片,它來(lái)源于ADE20K數(shù)據(jù)集。雖然數(shù)據(jù)集的作者在街景圖片中標(biāo)注了很多東西,如人、車、道路、建筑物、天空等,對(duì)于人、車、建筑物,它還力所能及地標(biāo)注了一些part,但是很顯然還有很多沒(méi)標(biāo)出來(lái)的視覺(jué)信息。我分類列舉未標(biāo)注信息的例子。第一類是一些細(xì)粒度的分類,比如這個(gè)人的性別是什么、這個(gè)車的型號(hào)是什么,等等。第二類是將某些part劃分為更精細(xì)的part,比如說(shuō)他們雖然把人分成了頭、軀干、四肢,但是我們顯然可以對(duì)頭進(jìn)行更進(jìn)一步的分割,成為眼睛、鼻子、嘴巴,甚至在分出眼睛以后還能繼續(xù)分出眼球、睫毛和瞳孔。第三,可以往這個(gè)數(shù)據(jù)庫(kù)里面加入一些它沒(méi)有學(xué)過(guò)的概念,比如說(shuō)這個(gè)人身上有個(gè)手提包,它沒(méi)有標(biāo)出來(lái)。第四,我們還可以標(biāo)注一些屬性類的信息,比如說(shuō)這個(gè)人的衣服是什么顏色、這輛車是什么顏色、馬路上有沒(méi)有積水,等等。能夠標(biāo)注的語(yǔ)義信息幾乎是無(wú)窮無(wú)盡的。
既然如此,為什么已有數(shù)據(jù)集沒(méi)有標(biāo)注這些信息呢?主要原因是,隨著標(biāo)注粒度的不斷上升,會(huì)產(chǎn)生很多新的問(wèn)題。我們把這些問(wèn)題歸納為兩點(diǎn)。第一點(diǎn)叫做缺乏一致性。比如在這個(gè)街景圖上有很多行人。如果這個(gè)人分辨率很大,我們可以看得很清楚,進(jìn)而去標(biāo)注他的頭、軀干、四肢;但是對(duì)于大部分分辨率很小的人,我們甚至無(wú)法把他的整體輪廓準(zhǔn)確地標(biāo)注出來(lái)。也就是說(shuō),不同個(gè)體的可標(biāo)注粒度可能有很大不同,但是當(dāng)前的系統(tǒng)都不能支持這一點(diǎn)。第二個(gè)是可擴(kuò)展性。系統(tǒng)必須能夠支持我們方便地引入新的語(yǔ)義概念,不管是新的part還是新的類別,但是現(xiàn)有的方法都多少有些困難:要么在加入新概念以后,必須把整個(gè)數(shù)據(jù)集再掃一遍,看看以前有沒(méi)有漏標(biāo)這個(gè)東西;要么必須引入諸如增量學(xué)習(xí)這樣的方法——總的來(lái)講引入新概念的代價(jià)還是比較大的。
為了強(qiáng)化上述概念,我們調(diào)研已有方法如何增加視覺(jué)識(shí)別的粒度。我們主要把已有的方法分成兩大類。第一類,我把它稱之為基于分類的識(shí)別方法,它包含傳統(tǒng)意義上的分類、檢測(cè)、分割等一系列的問(wèn)題,它們的共同特點(diǎn)就是要給圖像中的每個(gè)視覺(jué)單元分配一個(gè)類別標(biāo)簽。這類方法比較容易定義,學(xué)習(xí)方法也很好設(shè)計(jì),但它有一個(gè)非常明確的缺點(diǎn),就是隨著標(biāo)注粒度的上升,它的確定性會(huì)不可避免地下降。這個(gè)沖突很好理解:舉例說(shuō),我們很容易識(shí)別車這個(gè)概念,但是如果我要把它進(jìn)一步細(xì)化成跑車這個(gè)概念,就會(huì)遇到很多情況,我們很難說(shuō)清楚一輛車到底是不是跑車。這就意味著,當(dāng)我們走向無(wú)限細(xì)粒度的時(shí)候,標(biāo)注的確定性會(huì)成為很大的問(wèn)題。那么人是怎么解決這個(gè)問(wèn)題的?其實(shí)人并不需要非常顯式或者說(shuō)非常確定的分類能力,比如我去商店里面買輛車,我不會(huì)糾結(jié)于這輛車到底是不是跑車,只要這輛車的性能滿足我的要求就可以了。這說(shuō)明,人類不會(huì)永遠(yuǎn)追求最細(xì)的粒度,而是可以根據(jù)需求靈活地調(diào)整識(shí)別的粒度。這是我們得到的一個(gè)啟發(fā),后面會(huì)用到。
關(guān)于分割,情況也是很類似的。當(dāng)我們通過(guò)分割instance和part等信息,把空間上的標(biāo)注粒度不斷加細(xì),那么標(biāo)注的確定性也一定會(huì)下降。典型的例子是,如果我們一定要把分辨率很小的個(gè)體劃分出來(lái),那么有可能一兩個(gè)像素就會(huì)對(duì)分割精度造成很大的影響。這就是在空間上的不確定性,而剛才講的分類問(wèn)題對(duì)應(yīng)于在語(yǔ)義上的不確定性。
第二類,我把它稱為語(yǔ)言驅(qū)動(dòng)的識(shí)別方法。這是一種用自然語(yǔ)言引導(dǎo)視覺(jué)識(shí)別的模式,在去年CLIP模型出現(xiàn)以后,這類方法有了長(zhǎng)足的進(jìn)步。它的基本思路很簡(jiǎn)單:通過(guò)語(yǔ)言的指代,將圖像中的相應(yīng)語(yǔ)義識(shí)別出來(lái)。這類方法確實(shí)增加了視覺(jué)識(shí)別的靈活性,也引入了重要的開(kāi)放域能力,但是語(yǔ)言的指代粒度很有限,想要描述細(xì)粒度的識(shí)別任務(wù)很困難。以當(dāng)前流行的視覺(jué)prompt為例,雖然我們可以通過(guò)a photo of something對(duì)于簡(jiǎn)單圖像做分類,但是要通過(guò)類似的方法在復(fù)雜圖像中指代一個(gè)特定的個(gè)體并對(duì)其進(jìn)行分析,就非常困難。這說(shuō)明,簡(jiǎn)單引入語(yǔ)言并不能解決問(wèn)題,還需要將語(yǔ)言與視覺(jué)結(jié)合起來(lái)。
總結(jié)報(bào)告的前半部分,我們可以得出結(jié)論:當(dāng)前的視覺(jué)識(shí)別算法還沒(méi)有辦法去實(shí)現(xiàn)無(wú)限細(xì)粒度的識(shí)別。但是這個(gè)問(wèn)題非常重要,因?yàn)槿祟愂怯羞@種能力的,我們也希望算法能有這樣的能力。根據(jù)上面的分析,我將走向無(wú)限細(xì)粒度的三個(gè)要點(diǎn)列舉出來(lái)。第一是算法必須有開(kāi)放域識(shí)別能力,而這種能力很可能由自然語(yǔ)言提供。第二點(diǎn)是識(shí)別任務(wù)需要指代明確,不能因?yàn)橐肓俗匀徽Z(yǔ)言,就把語(yǔ)言的不確定性和模糊性引入進(jìn)來(lái)。第三點(diǎn),也是今天最希望強(qiáng)調(diào)的一點(diǎn),是識(shí)別算法必須具有可變的粒度,能夠根據(jù)需求調(diào)整識(shí)別粒度。只有這三點(diǎn)都實(shí)現(xiàn)了,我們才能走向一個(gè)無(wú)限細(xì)粒度或者說(shuō)任意細(xì)粒度的視覺(jué)識(shí)別。
結(jié)合這三點(diǎn),尤其是最后一點(diǎn),我就提出了按需視覺(jué)識(shí)別的概念。按需視覺(jué)識(shí)別是跟傳統(tǒng)意義上的一次性視覺(jué)識(shí)別或者統(tǒng)一視覺(jué)識(shí)別相對(duì)應(yīng)的一個(gè)概念。什么叫統(tǒng)一視覺(jué)識(shí)別?就是標(biāo)注者或者算法會(huì)事先拿到一個(gè)字典,字典中規(guī)定了所有要識(shí)別的視覺(jué)概念;每當(dāng)他看到一張圖片的時(shí)候,他就必須按照字典把其中規(guī)定的所有概念一個(gè)一個(gè)地識(shí)別出來(lái)。比如說(shuō)這個(gè)字典當(dāng)中規(guī)定了人和人的頭部這兩個(gè)概念,那么當(dāng)他看到一張街景圖片的時(shí)候,他就必須把這張街景當(dāng)中所有人的頭部都給識(shí)別出來(lái)。即使街景中有100個(gè)人,少識(shí)別1個(gè)人或者1個(gè)人的頭部,都會(huì)被認(rèn)為是不準(zhǔn)確的識(shí)別。這樣做,就會(huì)導(dǎo)致前面所說(shuō)的問(wèn)題。
而按需視覺(jué)識(shí)別不再要求這個(gè)識(shí)別要一次性完成,而是把識(shí)別任務(wù)分解成若干個(gè)request的形式。當(dāng)前,我們定義的request有兩類。第一類request,輸入是一個(gè)instance,而輸出是這個(gè)instance的所有part的semantic分割。一個(gè)instance具有的part,通過(guò)一個(gè)層次化的字典來(lái)定義,我把這個(gè)字典稱為知識(shí)庫(kù)。比如,字典里有車的概念,當(dāng)我們需要將一輛車分成part的時(shí)候,就會(huì)去查這個(gè)字典,然后得知這個(gè)車要分成車門、車輪、車架子等part,并根據(jù)這些信息完成分割任務(wù)。第二類request,輸入是一個(gè)semantic區(qū)域(可能包含很多instance)和這個(gè)區(qū)域里的一個(gè)像素位置,輸出是這個(gè)pixel所對(duì)應(yīng)的那一個(gè)instance,將它從semantic區(qū)域中分離出來(lái)。也就是說(shuō),第一類request是從instance到semantic的分割問(wèn)題,而第二類request是從semantic到instance的分割問(wèn)題。它們是互補(bǔ)的,我們只要將它們反復(fù)組合、反復(fù)迭代,就可以以任意的粒度去分割這張圖。這里要強(qiáng)調(diào)的是,第一類request的輸出必須是semantic而不是instance,因?yàn)閕nstance可能有很多,如果直接要求把每個(gè)instance都識(shí)別出來(lái),就違背了按需識(shí)別的思想。為了得到instance,必須再次調(diào)用第二類request,把那些感興趣的instance識(shí)別出來(lái)。
這是一個(gè)典型的標(biāo)注過(guò)程。和傳統(tǒng)的setting相比,按需識(shí)別的最大優(yōu)勢(shì)在于,我們可以在任何一個(gè)步驟上停下來(lái),而不影響標(biāo)注的準(zhǔn)確性。也就是說(shuō),對(duì)于每張圖來(lái)說(shuō),標(biāo)注可能不完整,但是標(biāo)注永遠(yuǎn)保證精確。例如一張街景圖片上有100個(gè)人,我只用標(biāo)注其中一兩個(gè)人,也完全不影響后續(xù)的識(shí)別和評(píng)估算法,因?yàn)闃?biāo)注、識(shí)別和評(píng)估都是以request為基本單位進(jìn)行的。雖然每張圖標(biāo)注的信息都不完整,但是算法總可以從不同的圖像中學(xué)習(xí)各種信息并且把它們整合起來(lái)。換句話說(shuō),我們追求從整體數(shù)據(jù)集中學(xué)習(xí)到無(wú)限細(xì)粒度的語(yǔ)義,但是并不要求在所有的instance上都去實(shí)現(xiàn)無(wú)限細(xì)粒度。這是一個(gè)非常重要的性質(zhì),只有這樣才能解決粒度和不確定性之間的沖突。
如果大家能接受上述想法,包括我們的setting,那么我今天最重要的內(nèi)容就已經(jīng)講完了。至于后面怎么去實(shí)現(xiàn)這個(gè) setting,反倒是一些細(xì)節(jié)性的事情,其實(shí)并不是非常重要。簡(jiǎn)單地說(shuō),任何一個(gè)能夠結(jié)合語(yǔ)言和視覺(jué)的算法,都可以做到這件事情。我們的示意圖也很直觀:算法抽取視覺(jué)特征和文本特征,然后把兩組特征結(jié)合在一起,就可以了。
我們?cè)趦蓚€(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。第一個(gè)數(shù)據(jù)集叫做CPP,它是一個(gè)標(biāo)注相對(duì)完整的數(shù)據(jù)集。另一個(gè)是ADE20K,這個(gè)數(shù)據(jù)集有很多語(yǔ)義概念和很多part,但是它的part標(biāo)注非常稀疏、非常不完整,所以之前從來(lái)沒(méi)有任何方法能夠在這個(gè)數(shù)據(jù)集上量化地對(duì)part分割結(jié)果進(jìn)行評(píng)估。而我們提出的setting,因?yàn)樘焐m應(yīng)不完整的標(biāo)注,所以也第一次在ADE20K數(shù)據(jù)集上報(bào)告了帶有part的量化分割精度。
為了計(jì)算按需識(shí)別的精度,我們擴(kuò)展了全景分割的PQ指標(biāo),使得它能夠評(píng)估層次化、不斷細(xì)分的分割結(jié)果。這個(gè)新的指標(biāo)稱為Hierarchical PQ。
在CPP數(shù)據(jù)集上,我們用合理的baseline,得到的HPQ大約是50-60%。然而在ADE20K數(shù)據(jù)集上,相同的方法只能做到30%左右的HPQ??梢韵胂?#xff0c;如果把ADE20K標(biāo)注得更完整,特別是把比較困難的語(yǔ)義都標(biāo)注出來(lái),這個(gè)HPQ值還會(huì)繼續(xù)下降。也就是說(shuō),相比于傳統(tǒng)的語(yǔ)義分割和實(shí)例分割,按需識(shí)別的提升空間更大。這也說(shuō)明,在追求無(wú)限細(xì)粒度識(shí)別的過(guò)程中,我們會(huì)遇到很多之前沒(méi)有遇到的困難。
最后展示一些可視化的分割結(jié)果??梢钥闯?#xff0c;我們的方法能夠?qū)W會(huì)一些標(biāo)注得很少的part的概念,而并不需要用到任何復(fù)雜的學(xué)習(xí)技巧。
作為最后的總結(jié),我今天的報(bào)告提出了計(jì)算機(jī)視覺(jué)中的無(wú)限細(xì)粒度問(wèn)題,以及為了達(dá)到這個(gè)目標(biāo),必須滿足的三個(gè)條件:開(kāi)放性、特異性和可變粒度。而基于可變粒度的思想,我們提出了按需視覺(jué)識(shí)別的方法。在未來(lái),我們提出的按需視覺(jué)識(shí)別還有很多工作要做,由于時(shí)間關(guān)系我沒(méi)法仔細(xì)講。我覺(jué)得這個(gè)方向是非常重要的,期待與各位共同探討這個(gè)問(wèn)題。
非常高興也很榮幸能夠再一次來(lái)到RACV作引導(dǎo)發(fā)言。今天我將從視覺(jué)基礎(chǔ)模型的結(jié)構(gòu)和學(xué)習(xí)方法兩方面分享自己的一點(diǎn)思考。拋出的觀點(diǎn)不一定很成熟,希望能跟各位老師探討和交流。
關(guān)于模型結(jié)構(gòu),我認(rèn)為可以分為微觀結(jié)構(gòu)和宏觀結(jié)構(gòu)分別來(lái)討論。
首先在微觀結(jié)構(gòu)方面,這兩年探討得比較多的就是attention。到底要不要用attention,目前在NLP領(lǐng)域基本上是形成共識(shí)了,在視覺(jué)領(lǐng)域,我認(rèn)為attention也是一個(gè)非??扇〉奈⒂^設(shè)計(jì)。
它的優(yōu)勢(shì)主要體現(xiàn)在三個(gè)方面:第一是關(guān)系建模能力,即能夠有效建模圖像不同區(qū)域之間、視頻不同時(shí)間節(jié)點(diǎn)之間的關(guān)系,尤其是對(duì)全局關(guān)系的學(xué)習(xí)和長(zhǎng)程建模能力優(yōu)于常用的卷積算子;第二是高階學(xué)習(xí)能力。神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個(gè)關(guān)于輸入x的函數(shù),它關(guān)于x始終是一個(gè)一階函數(shù)。但是引入attention之后,由于Q和K之間的乘法運(yùn)算,關(guān)于輸入x就至少是一個(gè)二階函數(shù)。高階計(jì)算在表征能力上更強(qiáng),因此我們可以看到基于attention的結(jié)構(gòu)在大數(shù)據(jù)集上有更強(qiáng)的scalability。第三是動(dòng)態(tài)計(jì)算的能力。由于attention值是基于每個(gè)輸入樣本計(jì)算的,即data dependent,因此attention可以理解成一種動(dòng)態(tài)計(jì)算。從這個(gè)角度,基于attention的網(wǎng)絡(luò)在表征能力和計(jì)算效率方面也有突出的優(yōu)勢(shì)。
因此,從以上多個(gè)角度來(lái)看,attention所具備的優(yōu)勢(shì)都是視覺(jué)領(lǐng)域所需要的。
接下來(lái),Transformer和CNN兩種網(wǎng)絡(luò)結(jié)構(gòu)的對(duì)比是這兩年討論得非常激烈的一個(gè)話題。需要注意的是,Transformer與CNN的對(duì)比,并不等同于有attention和無(wú)attention的對(duì)比。因?yàn)門ransformer和CNN通常是指一個(gè)完整的網(wǎng)絡(luò)結(jié)構(gòu),它們之間的差異不僅體現(xiàn)在有無(wú)attention,還包括很多其他的宏觀和微觀上設(shè)計(jì)的不同,這些因素都會(huì)影響模型的性能。目前視覺(jué)Transformer系列包括ViT、Swin Transformer、PVT等,最新的CNN結(jié)構(gòu)包括ConvNeXt、Large Kernel CNN等。
從當(dāng)前已公開(kāi)論文的結(jié)果來(lái)看,在ImageNet及以下規(guī)模的數(shù)據(jù)集上,這兩個(gè)模型孰強(qiáng)孰弱的爭(zhēng)論還在繼續(xù)。但是在更大的數(shù)據(jù)集上,我們看到的是具有attention機(jī)制的Transformer結(jié)構(gòu)似乎有更好的scalability。
當(dāng)然,我們?cè)趯?duì)比Transformer、CNN這兩大類模型的時(shí)候需要特別的謹(jǐn)慎,因?yàn)殡m然從名字上看迥然不同,但兩者實(shí)際上有許多相通和可以相互借鑒之處。許多結(jié)構(gòu)設(shè)計(jì)并不一定專屬于Transformer或者CNN。簡(jiǎn)單的根據(jù)幾個(gè)實(shí)驗(yàn)結(jié)果就斷言這個(gè)結(jié)構(gòu)好、那個(gè)結(jié)構(gòu)不好并不是很嚴(yán)謹(jǐn)。今年公開(kāi)的ConvNeXt論文就揭示了通過(guò)合理選取卷積網(wǎng)絡(luò)的kernel size、normalization layer、activation layer等,就可以將一個(gè)標(biāo)準(zhǔn)的CNN改造成與Swin Transformer性能相當(dāng)?shù)木W(wǎng)絡(luò)。與其去爭(zhēng)論Transformer和CNN到底誰(shuí)好,不如多去考慮如何各取所長(zhǎng),實(shí)現(xiàn)互補(bǔ)。CNN固有的inductive bias對(duì)圖像低層特性學(xué)習(xí)是合理而且自然的,而Transformer在關(guān)系建模上有突出的優(yōu)勢(shì)。實(shí)際上,基于融合CNN與Transformer優(yōu)點(diǎn)的思想,產(chǎn)生了很多不錯(cuò)的工作,如CoAtNet、Container、TransCNN等。
今年我們組在CVPR上發(fā)表的工作ACmix,就是在微觀結(jié)構(gòu)上去融合CNN和Transformer兩種結(jié)構(gòu)。我們發(fā)現(xiàn),從計(jì)算的角度,兩者實(shí)際上共享相同的“主干”,只是實(shí)現(xiàn)特征聚合的“頭”不一樣?;谶@個(gè)觀察,我們可以在已有CNN或者Transformer基礎(chǔ)上,通過(guò)引入少量額外的計(jì)算量,就可以比較優(yōu)雅地實(shí)現(xiàn)兩者的融合,使網(wǎng)絡(luò)具備彼此的優(yōu)點(diǎn)。
這兩年微觀結(jié)構(gòu)設(shè)計(jì)方面的進(jìn)展還包括對(duì)大kernel卷積的重新審視。大kernel在下游任務(wù)上優(yōu)勢(shì)非常明顯,而通過(guò)與depth-wise conv相結(jié)合,計(jì)算量并不會(huì)增加太多。
在宏觀結(jié)構(gòu)方面,我們還需要繼續(xù)討論 Transformer和CNN,因?yàn)楹暧^結(jié)構(gòu)設(shè)計(jì)對(duì)兩者性能的影響也十分重要,比如說(shuō)每個(gè)stage配置多少層,對(duì)結(jié)果影響非常顯著。
此外,關(guān)于plain ViT和hierarchical ViT的討論和比較也在繼續(xù)。最早的plain ViT和DEiT都是保持主干網(wǎng)絡(luò)特征圖尺寸不變,而Swin Transformer和PVT則采用的是特征金字塔結(jié)構(gòu),從而使得以前為CNN設(shè)計(jì)的結(jié)構(gòu)可以直接進(jìn)行借鑒,尤其是更加容易適配下游任務(wù),因此在最近受到廣泛關(guān)注和使用。不過(guò)最近研究發(fā)現(xiàn)其實(shí)plain ViT的結(jié)構(gòu)即便在主干網(wǎng)絡(luò)使用統(tǒng)一尺寸的特征圖,也能通過(guò)后期對(duì)特征圖進(jìn)行下采樣構(gòu)造特征金字塔,并且在檢測(cè)等下游任務(wù)上取得不錯(cuò)的效果。由于Plain ViT在設(shè)計(jì)上更為簡(jiǎn)潔,因此也具有較好的發(fā)展前景。關(guān)于到底哪一種結(jié)構(gòu)更好,目前還未形成定論。
在宏觀結(jié)構(gòu)方面,DeepMind提出的Perceiver是這兩年讓人眼前一亮的網(wǎng)絡(luò)結(jié)構(gòu)。它和常見(jiàn)的CNN、Transformer結(jié)構(gòu)很不一樣,其主干的輸入是一組latent array,不同模態(tài)的數(shù)據(jù)(圖像、文本、語(yǔ)音)向量化之后與主干網(wǎng)絡(luò)的latent array去做cross attention。因?yàn)镻erceiver沒(méi)有采用self attention,所以它的計(jì)算量不會(huì)隨輸入的維度平方增長(zhǎng)。我認(rèn)為這是一種很有創(chuàng)新性的結(jié)構(gòu),在一定程度上實(shí)現(xiàn)了記憶和計(jì)算的解耦。實(shí)際上,不管是CNN還是Transformer,網(wǎng)絡(luò)所謂的記憶都是分布式的存在于模型參數(shù)中。網(wǎng)絡(luò)參數(shù)同時(shí)承擔(dān)計(jì)算的任務(wù),也具有記憶的功能,兩者是融合在一起的。而Perceiver的很多記憶是存在于latent array中,由于latent array是獨(dú)立且顯式存在的,這對(duì)于提升神經(jīng)網(wǎng)絡(luò)可解釋性和遷移性是有幫助的。網(wǎng)絡(luò)學(xué)習(xí)的過(guò)程可以理解為根據(jù)外界的輸入信號(hào),從網(wǎng)絡(luò)的記憶中去做匹配或檢索,整個(gè)過(guò)程變得容易被理解。Perceiver結(jié)構(gòu)在一些特定的任務(wù)上取得很好的性能,雖然目前并沒(méi)有跟CNN和Transformer在ImageNet等主流的數(shù)據(jù)上做直接對(duì)比,但我認(rèn)為Perceiver為網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)提供了一種新的、有價(jià)值的思路。
宏觀結(jié)構(gòu)方面另一個(gè)值得一提的是視覺(jué)大模型。目前最大的視覺(jué)模型之一是Vision MoE,有150億參數(shù)。其核心思想是采用混合專家模型(mixture of expert),這本質(zhì)上是一種動(dòng)態(tài)模型,可以讓模型參數(shù)量很大而不至于計(jì)算量太多。Vision MoE在達(dá)到已有模型相近的準(zhǔn)確率時(shí),計(jì)算量能夠縮減一半。我認(rèn)為動(dòng)態(tài)推理在大模型上有非常好的前景。在小模型上,動(dòng)態(tài)計(jì)算可能會(huì)面臨稀疏計(jì)算在GPU上實(shí)際計(jì)算低效的問(wèn)題。但往大模型上走,碎片化的問(wèn)題被大大緩解,動(dòng)態(tài)訓(xùn)練和動(dòng)態(tài)推理會(huì)有更大的潛力。
在深度模型的學(xué)習(xí)方法方面,不得不提的是自監(jiān)督學(xué)習(xí)。剛才幾位老師也都提到了,目前主要是兩條路線。一類是對(duì)比學(xué)習(xí),利用圖像的不變性去構(gòu)造contrastive loss;?另一類是基于掩碼重構(gòu)的方式。我個(gè)人認(rèn)為這兩類方法更多的是在學(xué)習(xí)低層的特征,由此得到的模型的淺層特征遷移性很好。但由于缺乏類別、物體整體性等信息,僅僅給模型喂大量的圖像讓它去做重構(gòu)和對(duì)比學(xué)習(xí),可能很難形成真正高層語(yǔ)義的理解。
上面提到的自監(jiān)督學(xué)習(xí)是在只有圖像的封閉集合上做訓(xùn)練,在整體性和高層語(yǔ)義的學(xué)習(xí)方面比較受限。最近兩年關(guān)于多模態(tài)數(shù)據(jù)的自監(jiān)督訓(xùn)練是我個(gè)人更感興趣的一個(gè)方向。其中,視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型CLIP是一個(gè)非常重要的進(jìn)展。我認(rèn)為多模態(tài)預(yù)訓(xùn)練中最重要的要素是“互監(jiān)督”,即利用不同模態(tài)數(shù)據(jù)的對(duì)應(yīng)關(guān)系構(gòu)造對(duì)齊損失。當(dāng)文本信息與圖像形成互監(jiān)督時(shí),語(yǔ)言就能夠?yàn)閳D像識(shí)別任務(wù)提供豐富的語(yǔ)義信息,從而適應(yīng)相對(duì)開(kāi)放的場(chǎng)景。例如考慮分類任務(wù),人工標(biāo)注的類別始終是一個(gè)有限的集合,我們標(biāo)識(shí)了1000類的數(shù)據(jù),模型就只能識(shí)別1000類。當(dāng)有了語(yǔ)言模型提供的豐富語(yǔ)義,視覺(jué)學(xué)習(xí)就能擺脫類別數(shù)量的局限。所以像CLIP這樣的模型能夠做非常好的零樣本學(xué)習(xí),碾壓之前所有的方法。
但是原始的CLIP模型還有很多局限,仍然缺乏對(duì)視覺(jué)輸入中物體結(jié)構(gòu)的學(xué)習(xí),并且依賴大量的圖文對(duì)。但它證明了互監(jiān)督學(xué)習(xí)的強(qiáng)大,極大地推動(dòng)了多模態(tài)學(xué)習(xí)的研究。
最近一年來(lái),多模態(tài)大模型發(fā)展十分迅速,例如Florence、女媧和悟道模型都是優(yōu)秀的代表。其中,Florence是一個(gè)非常ambitious的模型,同時(shí)探究了多模態(tài)學(xué)習(xí)的三個(gè)維度:模態(tài)、時(shí)間和空間。Florence模型不止能做分類,同時(shí)可以做目標(biāo)檢測(cè)和分割等任務(wù)。不過(guò)美中不足的地方在于檢測(cè)、分割等任務(wù)還依賴監(jiān)督式訓(xùn)練。
我認(rèn)為互監(jiān)督多模態(tài)學(xué)習(xí)的未來(lái),一方面會(huì)如Florence模型一樣,統(tǒng)一更多的視覺(jué)任務(wù);另一方面會(huì)像自監(jiān)督學(xué)習(xí)那樣,在預(yù)訓(xùn)練階段擺脫對(duì)數(shù)據(jù)標(biāo)注的依賴。正如Jitendra Malik所說(shuō)的,標(biāo)注數(shù)據(jù)是計(jì)算機(jī)視覺(jué)的鴉片。如果仍然依賴大量的人工數(shù)據(jù)標(biāo)注,是很難訓(xùn)練出視覺(jué)通用基礎(chǔ)模型的。
因此,我認(rèn)為視覺(jué)基礎(chǔ)模型研究中一個(gè)非常重要的方向是如何在多模態(tài)數(shù)據(jù)之間構(gòu)造互監(jiān)督學(xué)習(xí)損失,以一種不需要(或者只需要少量)人工標(biāo)注的方式,實(shí)現(xiàn)大規(guī)模的預(yù)訓(xùn)練。人類的學(xué)習(xí)過(guò)程能夠很好地綜合圖像、視頻、文本、知識(shí)等諸多模態(tài)的信息,而當(dāng)前基于深度學(xué)習(xí)的AI基礎(chǔ)模型仍處在起步階段,對(duì)多模態(tài)數(shù)據(jù)之間的互監(jiān)督關(guān)系挖掘尚不充分,我們能做的事情還很多,機(jī)會(huì)也很多。
我們第一個(gè)議題是對(duì)比學(xué)習(xí)和掩碼圖像建模兩種方法究竟學(xué)到的是什么?后者在下游任務(wù)上的性能會(huì)比對(duì)比學(xué)習(xí)好很多,對(duì)比學(xué)習(xí)是否會(huì)被代替?
這個(gè)問(wèn)題的范圍很大,首先我來(lái)簡(jiǎn)單地談一談我的理解。我認(rèn)為對(duì)比學(xué)習(xí)是不會(huì)被替代的,因?yàn)閷?duì)比學(xué)習(xí)有很多獨(dú)有的優(yōu)勢(shì),其中一點(diǎn)就是它允許我們把一張圖像放在一堆圖像的context里去學(xué)習(xí)如何才算是找到自己的另一個(gè)view,這是非常重要的。這也是掩碼圖像學(xué)習(xí)最大的一個(gè)缺點(diǎn),其只針對(duì)單張圖像進(jìn)行學(xué)習(xí)。此外,往大了說(shuō),我認(rèn)為現(xiàn)在的自監(jiān)督學(xué)習(xí)應(yīng)該是去學(xué)習(xí)視覺(jué)信號(hào)的一個(gè)高效的表征。所謂高效的表征,即把它壓縮了非常多倍之后,它還能重建出自己,或者認(rèn)出自己到底是誰(shuí)。從這點(diǎn)來(lái)說(shuō),對(duì)比學(xué)習(xí)天生的適應(yīng)能力應(yīng)該更強(qiáng)一些,它的context能力也更重要,而MIM則具有一定局限性,所以我認(rèn)為對(duì)比學(xué)習(xí)不會(huì)被替代。
我也補(bǔ)充幾點(diǎn),我覺(jué)得對(duì)比學(xué)習(xí)是不會(huì)被替代的。另外,我也在思考為什么我們會(huì)有這樣的疑惑?或者說(shuō)為什么有人會(huì)認(rèn)為對(duì)比學(xué)習(xí)會(huì)被替代?我認(rèn)為主要是因?yàn)楝F(xiàn)在自監(jiān)督學(xué)習(xí)的好壞大多是通過(guò)一些底層的任務(wù)來(lái)進(jìn)行評(píng)價(jià)的。例如,我們會(huì)用ImageNet做一個(gè)分類任務(wù)來(lái)評(píng)價(jià)自監(jiān)督學(xué)習(xí)表征的好壞。然而,像分類任務(wù)這樣的底層任務(wù)需要的信息特別少,可能導(dǎo)致一些方案看起來(lái)不錯(cuò),但做一些其他任務(wù)(如高層語(yǔ)義任務(wù))時(shí),就會(huì)出現(xiàn)一些問(wèn)題。我們前段時(shí)間也在做一個(gè)1000類的無(wú)監(jiān)督語(yǔ)義分割任務(wù)。我們發(fā)現(xiàn)很多自監(jiān)督學(xué)習(xí)模型在分類任務(wù)上表現(xiàn)得很好,但其學(xué)到的表征無(wú)法直接應(yīng)用于這種語(yǔ)義分割任務(wù)中。此外,對(duì)于規(guī)模特別大的無(wú)監(jiān)督任務(wù),它無(wú)法去做Finetuning,這個(gè)時(shí)候直接使用就會(huì)遇到很多的困難。因此,我認(rèn)為我們?cè)谠u(píng)價(jià)自監(jiān)督學(xué)習(xí)模型好壞的時(shí)候,不光得看在ImageNet訓(xùn)練得到的Performance,還得看其對(duì)更高層語(yǔ)義任務(wù)的適應(yīng)性,這些任務(wù)才是我們通常要直接使用的,謝謝大家!
謝謝各位老師!我先簡(jiǎn)單說(shuō)一下在我的理解中這兩種學(xué)習(xí)有什么不一樣的地方。我認(rèn)為對(duì)比學(xué)習(xí)學(xué)習(xí)的是不變性,但掩碼圖像建??坍嫷氖撬械淖兓?#xff08;例如,當(dāng)你需要預(yù)測(cè)一張圖片的其余部分,就必須要預(yù)測(cè)該圖片的其他部分,即圖片的尺寸、物體的大小、物體的不同以及顏色等)。因此這兩個(gè)方法之間有著很大的不同,學(xué)習(xí)到的知識(shí)也不同。至于說(shuō)對(duì)比學(xué)習(xí)是否會(huì)替代掩碼圖像建模,我的觀點(diǎn)和前面兩位老師不太一樣,我對(duì)掩碼圖像建模持更加樂(lè)觀的態(tài)度,因?yàn)槠鋵W(xué)習(xí)到的知識(shí)是非常豐富的,不僅學(xué)到了語(yǔ)義的信息,還可能學(xué)到了別的東西。如果你把這些信息在預(yù)訓(xùn)練階段丟掉的話,那么對(duì)于下游任務(wù)是非常不利的,因?yàn)槟悴恢老掠稳蝿?wù)遇到的問(wèn)題可能會(huì)用到哪種信息,保留的信息越全面可能對(duì)下游任務(wù)越有幫助。此外,我在單位和我的老板Steve討論的時(shí)候,他的觀點(diǎn)更加明確,他甚至認(rèn)為掩碼圖像建??梢詫W(xué)習(xí)到一些三維的結(jié)構(gòu)信息,因?yàn)槿绻恢廊S信息的話,將很難準(zhǔn)確地對(duì)物體進(jìn)行重構(gòu)。在這個(gè)觀點(diǎn)下,我認(rèn)為掩碼圖像建模學(xué)到的信息顯然比對(duì)比學(xué)習(xí)更加豐富,我也更看好它,謝謝。
今天主要是來(lái)學(xué)習(xí)的,聽(tīng)了前面幾位老師的觀點(diǎn)很受啟發(fā)。從我比較粗淺的理解來(lái)看,對(duì)比學(xué)習(xí)是屬于判別式自監(jiān)督學(xué)習(xí)的范疇,而圖像掩碼建模例如MAE等這樣的框架,是屬于生成式自監(jiān)督學(xué)習(xí)的范疇。舉個(gè)例子來(lái)說(shuō),一個(gè)會(huì)造車的人,他肯定會(huì)比一個(gè)只會(huì)開(kāi)車的人對(duì)汽車的理解要深刻的多,因此從這個(gè)角度上來(lái)講,我很看好圖像掩碼自監(jiān)督學(xué)習(xí)這種生成式框架,因?yàn)槿绻隳軌蛲ㄟ^(guò)生成的辦法把你要理解的任務(wù)給描述出來(lái),那你一定是對(duì)這個(gè)任務(wù)本身有更深刻、更好的理解;因?yàn)槟阒挥袑?duì)一個(gè)任務(wù)理解好了,你才能夠把它給生成得好;而一旦你能夠把它生成的好,再去解決這個(gè)任務(wù)相關(guān)的問(wèn)題,例如去解決感知識(shí)別問(wèn)題、或者做推理、預(yù)測(cè)等任務(wù),那可能也相對(duì)容易很多。
我非常同意金老師剛才提到的。我個(gè)人認(rèn)為掩碼圖像建模的訓(xùn)練方式跟生成式模型存在一些潛在的聯(lián)系。無(wú)論是MAE還是MIM,二者都是在做重建。如果拋開(kāi)網(wǎng)絡(luò)框架的不同,根據(jù)它們的Loss Function可以看出這兩個(gè)任務(wù)和之前機(jī)器學(xué)習(xí)中的Denoising AutoEncoder沒(méi)有本質(zhì)的區(qū)別。比如,最近兩年比較熱的Diffusion Model,在訓(xùn)練的時(shí)候可以選擇兩種不同的Object Function,它們的效果都不錯(cuò),而其中一種的本質(zhì)為Denoising AutoEncoder,只不過(guò)其在訓(xùn)練過(guò)程中相較于MAE和MIM更加復(fù)雜,需要不斷地進(jìn)行迭代。因此,我覺(jué)得MAE和MIM這種學(xué)習(xí)的方式肯定和生成式模型存在一個(gè)對(duì)應(yīng)的關(guān)系。雖然現(xiàn)在還沒(méi)有相應(yīng)的論文去嚴(yán)格地證明二者間在理論和數(shù)據(jù)上的關(guān)系,但從訓(xùn)練使用的Loss Function可以看出這兩者是存在一致性的。
我簡(jiǎn)要地談一談我為什么覺(jué)得對(duì)比學(xué)習(xí)不會(huì)被替代。剛剛兩位老師說(shuō)對(duì)比學(xué)習(xí)是判別式,而掩碼圖像建模是生成式,這個(gè)我完全同意。但從另一個(gè)角度看,我認(rèn)為它們都是基于退化的學(xué)習(xí)。什么是退化呢?退化的意思是把原來(lái)圖像中已經(jīng)有的信息給丟掉。比如,預(yù)處理通過(guò)crop把圖像中的部分信息給丟掉,那么對(duì)比學(xué)習(xí)就需要去判斷我丟掉的信息是什么,或者說(shuō)丟掉信息以后的圖像跟原來(lái)的圖像是否具有相似的語(yǔ)義。當(dāng)然,掩碼圖像建模也是一樣的,丟掉一些patch后,把這些patch再重建起來(lái)。所以它們雖然一個(gè)更像判別,一個(gè)更像生成,但從本質(zhì)上來(lái)說(shuō),它們都是預(yù)測(cè)退化的信息是什么的一種學(xué)習(xí)方式,因此我們不需要把這兩者嚴(yán)格地割裂開(kāi)來(lái)看待。
為什么我認(rèn)為對(duì)比學(xué)習(xí)不可替代呢?掩碼圖像建模的目標(biāo)是重建像素,但是否真的需要把所有的像素都重建出來(lái)呢?好像并不需要。我認(rèn)為只需要重建到能夠認(rèn)出這個(gè)圖像到底是什么,或者說(shuō)確定圖像中的大部分信息被保留下來(lái),就可以了。如果重建每一個(gè)像素的話,就容易出現(xiàn)過(guò)擬合的問(wèn)題。那該如何去判斷重建是否達(dá)標(biāo)了呢?對(duì)比學(xué)習(xí)就是一個(gè)很好的方法。它相當(dāng)于把目標(biāo)圖像放到一個(gè)大池子里,如果它能找到自己,或者找到自己相應(yīng)的變化,就可以認(rèn)為其已經(jīng)成功地重建出其中的大部分信息。因此我覺(jué)得對(duì)比學(xué)習(xí),至少它的核心思想即InfoNCE loss,是不會(huì)被替代的。這是我要補(bǔ)充的觀點(diǎn),謝謝。
我有一個(gè)問(wèn)題,因?yàn)槲覀冎饕谧鰣D像的生成(包括三維的生成),剛剛沈春華老師專門提到它和生成任務(wù)的相似性,所以我們?nèi)绻麖牧硪粋€(gè)角度去看掩碼圖像建模的話,有沒(méi)有人考慮過(guò)從Inversion的角度去思考呢?因?yàn)樵谏扇蝿?wù)的過(guò)程中,一般來(lái)說(shuō)我們需要先做PPI之類的Inversion,但我們的領(lǐng)域還沒(méi)有相應(yīng)的工作使用缺失的地方去做Inversion。我不太清楚這兩者的co-relation是什么樣的?
各位老師,我在這里分享一下自己在自監(jiān)督學(xué)習(xí)方面的經(jīng)驗(yàn)。針對(duì)圖像而言,MAE在ImageNet上確實(shí)挺成功的,畢竟因?yàn)镮mageNet有1000類,每個(gè)類之間并不是非常Fine-Grained的。對(duì)于一些比較Fine-Grained的識(shí)別任務(wù),無(wú)論掩碼的尺寸是大還是小,其結(jié)果并不是很好。比如,我們把圖像中的人的好多部分都遮蓋掉,重建的時(shí)候很難知道這個(gè)人是不是背著包,或者是不是戴著帽子。但如果只是用在ImageNet中比較宏觀的物體上時(shí),可能就很容易地被重構(gòu)出來(lái)。雖然把重構(gòu)的圖片放大,可能有很多缺失和錯(cuò)誤的信息,但總體而言,車子還是那個(gè)車子,Airplane也還是那個(gè)Airplane。相反的,對(duì)于一些比較Fine-Grained的物體,這些Patch是完全被摧毀掉的,重構(gòu)出來(lái)的也和原來(lái)的Image不一樣。這一點(diǎn)可能會(huì)使一些Fine-Grained的識(shí)別任務(wù)出現(xiàn)識(shí)別率不高的問(wèn)題。
我補(bǔ)充一下關(guān)于下游任務(wù)的討論。首先,我剛才提到MAE和MIM本質(zhì)都是Denoising AutoEncoder,其中移除Patch的操作就可以理解為在圖像中添加噪聲的過(guò)程。實(shí)際上,這種類型的噪聲并不是必須的。我們初步的實(shí)驗(yàn)結(jié)果表示,添加High Level的噪聲,訓(xùn)練出來(lái)的結(jié)果也還是不錯(cuò)的,Fine Tuning后在ImageNet測(cè)試出的結(jié)果相差在0.5個(gè)百分點(diǎn)以內(nèi)。MAE之所以采用移除Patch來(lái)添加噪聲只不過(guò)是因?yàn)楹蚔iT中通過(guò)Split生成Patch的操作結(jié)合得比較好,但這并不是必須的做法。此外,MIM的那篇論文還涉及一些卷積網(wǎng)絡(luò)的實(shí)驗(yàn),證明即使不用ViT這種結(jié)構(gòu),也能訓(xùn)練出比較好的模型。Anyway,如果說(shuō)扔掉Patch不是唯一的加噪聲的方式,那我們還可以探究添加不同種類的噪聲,可能最后訓(xùn)出的模型也是差不多的。
關(guān)于虞老師剛剛提出的Inverse過(guò)程。Diffusion Model是生成式模型,Forward是訓(xùn)練過(guò)程,而Inverse就是生成圖像的過(guò)程,但對(duì)于MAE或MIM,并沒(méi)有Inverse這個(gè)過(guò)程。目前為止我也沒(méi)有看到相關(guān)的論文去探討MAE或MIM和生成式模型到底有什么潛在的聯(lián)系?以及MAE或MIM該如何去Inverse從而得到一些好的結(jié)果?Diffusion Model最早的Paper中就有一個(gè)實(shí)驗(yàn),是將Diffusion Model訓(xùn)練好后,將其中的UNet結(jié)構(gòu)用來(lái)做一些下游任務(wù),也非常有效。我也更看好這種成果,有非常漂亮的數(shù)學(xué)模型在里面。但現(xiàn)在的MAE等工作,大部分都是在跑實(shí)驗(yàn),并沒(méi)有解釋為什么,我們也不知道其中學(xué)習(xí)到了什么。
很高興來(lái)到RACV。我首先支持一下沈老師的觀點(diǎn),我感覺(jué)MAE和MIM是一回事,只是兩個(gè)不同的名字,但解決的問(wèn)題可能是完全一模一樣的。這是我個(gè)人的一個(gè)觀點(diǎn)。然后我回應(yīng)一下王井東老師剛才提到的“對(duì)比學(xué)習(xí)為什么work“這樣一個(gè)問(wèn)題。其中的一個(gè)核心觀點(diǎn)是對(duì)比學(xué)習(xí)可以學(xué)到Semantics。
此外,南京理工大學(xué)的楊健教授在這個(gè)方面做過(guò)研究。他在ICML 2021發(fā)表的工作從理論上證明了對(duì)比學(xué)習(xí)能夠明顯地提升分類任務(wù)的Discrimination,可以看出其至少對(duì)于分類問(wèn)題是非常有效的。謝謝!
我剛才主要是想聽(tīng)聽(tīng)各位老師的一些觀點(diǎn),我有一些想法和大家不太一樣。我覺(jué)得掩碼圖像建模實(shí)際上在做重構(gòu)的任務(wù),剛才凌曦提到這種方法中圖像沒(méi)有跟其他的圖像做交互,但我覺(jué)得它的交互實(shí)際上是體現(xiàn)在模型參數(shù)上的。在NLP中,其中一種經(jīng)典方法是學(xué)習(xí) Contextualized Representation,這指的是一句話里有若干個(gè)單詞,同樣語(yǔ)義的單詞表示會(huì)更接近一些并且被group到一起,比如一些表示指代的詞it或者h(yuǎn)e。我認(rèn)為掩碼圖像建模也會(huì)起到相同的作用。在學(xué)到最后的表示層時(shí),比較相近的語(yǔ)義會(huì)融合在一起。因此我認(rèn)為其在某種程度上是可以學(xué)習(xí)到語(yǔ)義上的一些特征,比如同樣物體上面不同部位的語(yǔ)義特征。這也是我認(rèn)為掩碼建模圖像能在分類任務(wù)以及很多跟語(yǔ)義相關(guān)的一些問(wèn)題上取得更好結(jié)果的一個(gè)原因。
此外,在圖像領(lǐng)域我覺(jué)得還是存在一些比較難解決的問(wèn)題,比如物體尺度的問(wèn)題。在Language里,Token是沒(méi)有這個(gè)概念的,所以不需要考慮這個(gè)問(wèn)題;但在視覺(jué)領(lǐng)域,處理的物體是有大有小的,而固定尺寸的掩碼可能會(huì)蓋住一些細(xì)粒度的物體,從而很難學(xué)習(xí)。我覺(jué)得在這方面還有很多比較細(xì)的工作可以繼續(xù)去做。
總體而言,很難說(shuō)一個(gè)方向是否會(huì)替代另一個(gè)方向,兩個(gè)方向肯定都會(huì)往前繼續(xù)探索的。謝謝!
剛剛春華老師提到在ImageNet上做Finetuning的evaluation。這就牽扯到另外一個(gè)問(wèn)題,應(yīng)該怎么去evaluate?之前有觀點(diǎn)認(rèn)為L(zhǎng)inear Probing是一個(gè)很重要的指標(biāo),后來(lái)又有觀點(diǎn)認(rèn)為Finetuning也很重要,但很多人又發(fā)現(xiàn)方法差別很大的情況下,Finetuning之后可能沒(méi)什么difference。此外,我們可能要多花一些時(shí)間再探討一下Encoder究竟學(xué)到了什么?大家還有什么需要補(bǔ)充的嗎?
剛才聽(tīng)興剛老師說(shuō):并不是模型越大,性能越好,然后我就在思考這樣一個(gè)問(wèn)題:在自然語(yǔ)言處理中,大模型一般能起到一個(gè)很好的作用,但是在視覺(jué)里面會(huì)不會(huì)也是這個(gè)樣子呢?或者說(shuō)對(duì)于視覺(jué)而言,是不是適度大的模型比較好,模型過(guò)大之后反而不好了呢?我覺(jué)得自然語(yǔ)言處理的處理對(duì)象是人說(shuō)出來(lái)的話,其中的語(yǔ)義性比較強(qiáng)一些,但視覺(jué)的很多數(shù)據(jù)的語(yǔ)義性不是那么強(qiáng),對(duì)于有些任務(wù)是信號(hào)的區(qū)域可能對(duì)其他任務(wù)就是噪聲。如果模型的規(guī)模變大以數(shù)據(jù)擴(kuò)充為前提的話,是不是對(duì)于某些特定任務(wù)來(lái)講,意味著引入了更多的噪聲,從而影響模型完成該任務(wù)的性能?導(dǎo)致最后訓(xùn)練得到的大模型對(duì)任何任務(wù)都不是最優(yōu)?
我回答一下毋老師剛才那個(gè)問(wèn)題,因?yàn)楦业墓ぷ饔悬c(diǎn)相關(guān)。現(xiàn)在有一些觀點(diǎn)認(rèn)為,人腦的容量比現(xiàn)在模型的容量要高很多,現(xiàn)在的很多模型都是不夠大的。我們需要得到一個(gè)像人腦一樣的Foundation Model,這就要求它有越大越好的特性,這樣才能夠有一個(gè)繼續(xù)往下發(fā)展的一個(gè)趨勢(shì)。當(dāng)然大了之后呢我們還有很多辦法可以把它變小讓它能夠被應(yīng)用,但這都是一些工程問(wèn)題,而不是一個(gè)科學(xué)的問(wèn)題。從科學(xué)上來(lái)講,可能就是希望要不斷地?cái)U(kuò)展模型,吃更多的數(shù)據(jù),變得更好;但從應(yīng)用的角度來(lái)講,我們可能并不需要用到。
然后,關(guān)于MIM呢,我覺(jué)得還需要更多對(duì)它進(jìn)行理解,甚至可以做得更大膽一點(diǎn),就像黃高老師說(shuō)的這個(gè)多模態(tài),我們是否能夠做多模態(tài)的MIM呢?現(xiàn)在只做圖像的話,我覺(jué)得可能還不夠,可以把更多的模態(tài)引入,然后一起去做這個(gè)掩碼圖像建模。
我接著興剛的話說(shuō)。我認(rèn)為視覺(jué)和語(yǔ)言是不一樣的東西,我們應(yīng)該區(qū)分來(lái)看待。對(duì)于文本來(lái)說(shuō),模型確實(shí)越大越好,但視覺(jué)上并不一定是這樣。因?yàn)橐曈X(jué)處理的信號(hào)和文本信號(hào)有本質(zhì)上的區(qū)別。文本信號(hào)是人類創(chuàng)造出來(lái)存儲(chǔ)知識(shí)和表達(dá)知識(shí)的,他一定要注重高效性,所以文本的信息密度非常大;而視覺(jué)信號(hào)是人類從傳感器中獲得的,注重真實(shí)性,所以它信息密度比較低。因此,對(duì)于這兩種信號(hào),我們所使用的學(xué)習(xí)方法和模型必然是很不一樣的。在語(yǔ)言任務(wù)上,模型越大越好是因?yàn)檎Z(yǔ)言多多少少有種死記硬背的感覺(jué),記住那么多語(yǔ)料,就能進(jìn)行泛化;但視覺(jué)信號(hào)對(duì)真實(shí)世界的采樣密度還是非常低的,無(wú)法通過(guò)一些死記硬背或者預(yù)訓(xùn)練的方式去達(dá)到非常高的通用程度。所以說(shuō)在當(dāng)下,對(duì)于視覺(jué)任務(wù)來(lái)說(shuō),比起做大模型,我們更多地還要去做一些其他的事情,比如對(duì)視覺(jué)信號(hào)進(jìn)行高效地抽取,創(chuàng)造一個(gè)良好的環(huán)境使得視覺(jué)上的scaling law能夠顯現(xiàn)出來(lái)?,F(xiàn)在視覺(jué)領(lǐng)域暫時(shí)的情況是,把遷移學(xué)習(xí)做好、把各類的任務(wù)分開(kāi)來(lái)做好,會(huì)更有用一些。或許在未來(lái)的某一天,當(dāng)我們把視覺(jué)的基礎(chǔ)建設(shè)提上來(lái)后,達(dá)到了和文本同一起跑線,那么scaling law可能就會(huì)出現(xiàn)了。這是我對(duì)毋老師的問(wèn)題的回答。謝謝!
雖然有點(diǎn)跑題了,但我還是想回應(yīng)一下剛才兩個(gè)老師說(shuō)的這個(gè)問(wèn)題。我在網(wǎng)上看到Tesla的Andrej Karpathy(現(xiàn)在已離職)說(shuō)過(guò),10年前視覺(jué)、語(yǔ)音和自然語(yǔ)言是分離的,圖像也是分為Static和Video,同時(shí)在Static圖像里做分割、分類和檢測(cè)也是使用不同的方法,但這幾年的趨勢(shì)是AI Consolidation。我們可以看到BERT、Transformer等Language里的模型在Vision里取得很好的成果,也看到更多的證據(jù)表明同一個(gè)模型也可以做不同的任務(wù)。因此,我覺(jué)得我們可能需要一個(gè)可以學(xué)習(xí)到一些更本質(zhì)東西的大模型,需要學(xué)到一些非常Fundamental的東西。這和我們今天討論的MIM到底該學(xué)什么東西是相似的?
謝謝夏老師把我的問(wèn)題拉回來(lái)。我們想探討MIM學(xué)到什么?現(xiàn)在這個(gè)方案在這個(gè)目的上能學(xué)到什么?
首先我想回應(yīng)一下凌曦,目前并沒(méi)有明顯的證據(jù)表明MIM中使用Pixel作為監(jiān)督信息會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象。根據(jù)MAE的Paper里匯報(bào)的實(shí)驗(yàn),即使訓(xùn)練周期非常長(zhǎng)(達(dá)到1600個(gè)Epoch),其在小數(shù)量的數(shù)據(jù)集上也并沒(méi)有表現(xiàn)出過(guò)擬合的現(xiàn)象,其性能還是會(huì)持續(xù)地增長(zhǎng)。此外,我認(rèn)為掩碼圖像建模的預(yù)訓(xùn)練任務(wù)是非常豐富的,豐富到在小數(shù)據(jù)集上也可以定義很多任務(wù)讓網(wǎng)絡(luò)去學(xué)習(xí)。
還有一個(gè)很重要的實(shí)驗(yàn)和毋老師的問(wèn)題相關(guān),MAE嘗試過(guò)很大的模型,比如ViT Huge,但用在ImageNet的100萬(wàn)張圖片上也沒(méi)有出現(xiàn)過(guò)擬合的問(wèn)題。相比之下,對(duì)比學(xué)習(xí)即使用在ViT Large模型上也會(huì)出現(xiàn)非常嚴(yán)重的過(guò)擬合現(xiàn)象。此外,對(duì)于之前的一些對(duì)比學(xué)習(xí)框架,它們都很難進(jìn)行ViT Large模型的訓(xùn)練。因此,我認(rèn)為掩碼圖像建模定義了更加廣闊的問(wèn)題空間。
我也有一些跟武老師相似的一些想法,我覺(jué)得對(duì)比學(xué)習(xí)、Masked Image Modeling和最近正?;鸬腄alleV2這種的Full Image Generation,這三者都是Special的自監(jiān)督任務(wù)。什么意思呢?對(duì)比學(xué)習(xí)相當(dāng)于一個(gè)Classification,輸出的number of bits為;對(duì)于Masked Image Modeling,輸出的number of bits為恢復(fù)多少的像素,比如在MAE中大概是75%的像素個(gè)數(shù);而對(duì)于DalleV2這種的Full Image Generation的話,不僅需要恢復(fù)圖像的每一個(gè)像素,每個(gè)像素恢復(fù)的精度也需要特別高。我認(rèn)為我們希望自監(jiān)督的任務(wù)越來(lái)越難,信息恢復(fù)得越來(lái)越多,這樣學(xué)到的Information才越來(lái)越多。此外,從實(shí)驗(yàn)效果來(lái)看,DalleV2的結(jié)果非常驚艷,隨便寫一句話,它都能生成非常符合這個(gè)語(yǔ)意的圖像。這讓我覺(jué)得DalleV2的Encoder學(xué)習(xí)到的信息量是更大的。
然后從另外一個(gè)角度來(lái)說(shuō)呢,為什么大家認(rèn)為對(duì)比學(xué)習(xí)很好?是因?yàn)樗腖inear Probing很強(qiáng),甚至對(duì)于DINO,它用在Nearest Neighbor Classifier也很強(qiáng),現(xiàn)在能達(dá)到70到80左右。
此外,我們還需要關(guān)注視覺(jué)標(biāo)準(zhǔn)到底有多么容易去Readout。對(duì)于對(duì)比學(xué)習(xí),它是非常容易R(shí)eadout的,因?yàn)轭A(yù)訓(xùn)練任務(wù)和下游任務(wù)是一樣的,都是在做Classification;對(duì)于MAE,其并沒(méi)有做InfoNCE,Paper中的Linear probing效果不好;對(duì)于DalleV2這類的任務(wù),雖然Paper中沒(méi)有提到Classification的效果,但我估計(jì)效果并不好??偟膩?lái)說(shuō),我認(rèn)為視覺(jué)表征如何“easy to readout to your downstream task”可能是未來(lái)可能比較多關(guān)注的問(wèn)題。
下面我們看一下語(yǔ)言能為視覺(jué)基礎(chǔ)模型帶來(lái)什么,視覺(jué)基礎(chǔ)模型是不是一定需要語(yǔ)言?
我先接上一個(gè)問(wèn)題說(shuō)一下,然后再說(shuō)一下王老師所說(shuō)問(wèn)題。我也覺(jué)得對(duì)比學(xué)習(xí)更像是一種判別性的學(xué)習(xí),然后MIM更像一種生成式的學(xué)習(xí),這個(gè)可能跟前面的老師基本上是一樣的,我想說(shuō)就是對(duì)于MIM這種偏生成式的學(xué)習(xí),我覺(jué)得它可以學(xué)到的知識(shí)和能力其實(shí)是更廣泛的。對(duì)比學(xué)習(xí)可能更偏向判別性,學(xué)到的知識(shí)區(qū)分能力較強(qiáng),但可能泛化到其他任務(wù)時(shí),他的能力可能相對(duì)來(lái)說(shuō)就會(huì)弱一些。還有關(guān)于MIM,我覺(jué)得它比較好一點(diǎn)可能是我們不一定非得去重構(gòu)像素,去做像素級(jí)的重構(gòu),其實(shí)我們可以去做不同的粒度的重構(gòu),而且非像素的特征其實(shí)也可以去重構(gòu),比如說(shuō)我們?cè)谧鰝鹘y(tǒng)CV方法的時(shí)候,那時(shí)候有很多的特征是根據(jù)先驗(yàn)人工設(shè)計(jì)出來(lái)的,也可以去試著去重構(gòu)這些特征,這樣的話其實(shí)它會(huì)學(xué)到一些相應(yīng)的先驗(yàn)知識(shí),所以我個(gè)人認(rèn)為MIM可能也會(huì)更靈活一些。
然后關(guān)于語(yǔ)言這個(gè)問(wèn)題,其實(shí)我也做過(guò)一些簡(jiǎn)單的思考,比較像剛才王興剛老師也提到的混合多模態(tài)的模型,比如利用語(yǔ)言時(shí),把一句話中的一些詞摳掉,然后換成一些圖像區(qū)域的表示,做這種context的學(xué)習(xí),反過(guò)來(lái),可以把一幅圖的一些區(qū)域扣掉,換成其對(duì)應(yīng)的物體的語(yǔ)言的表示,這樣將image embedding和word embedding混合在一起去學(xué),會(huì)更加促進(jìn)視覺(jué)與語(yǔ)言兩種表示空間的連接,這就是我比較簡(jiǎn)單的一些看法。謝謝。
我再補(bǔ)充一點(diǎn),其實(shí)第一個(gè)問(wèn)題,我可能問(wèn)得不是很好,其實(shí)應(yīng)該說(shuō)我們解決這個(gè)對(duì)比學(xué)習(xí)的任務(wù)和解決掩碼圖像的任務(wù)能給我們帶來(lái)什么,而不是這個(gè)任務(wù)本身,
我覺(jué)得語(yǔ)言對(duì)于視覺(jué)基礎(chǔ)模型是非常重要的,因?yàn)橐曈X(jué)的理解還是要跟語(yǔ)義聯(lián)系起來(lái),我們希望不光是做一些low level的任務(wù),更要理解圖像里面有什么東西,然后這個(gè)東西它有什么部件,這個(gè)物體跟其他物體之間怎么去交互。從這個(gè)任務(wù)目的來(lái)說(shuō),視覺(jué)數(shù)據(jù)的開(kāi)發(fā)是遠(yuǎn)遠(yuǎn)滯后于自然語(yǔ)言領(lǐng)域的。在自然語(yǔ)言理解領(lǐng)域,大家可以想象現(xiàn)在訓(xùn)練語(yǔ)言大模型的數(shù)據(jù),對(duì)語(yǔ)言的覆蓋是接近完備的,用它訓(xùn)練完大模型之后,可以覆蓋語(yǔ)言里面的各種問(wèn)題。然而視覺(jué)方面的數(shù)據(jù)還遠(yuǎn)遠(yuǎn)達(dá)不到,把web上所有的圖像數(shù)據(jù)都抓下來(lái),仍然還有很多問(wèn)題,無(wú)法覆蓋視覺(jué)領(lǐng)域的所有問(wèn)題。在視覺(jué)數(shù)據(jù)有限的情況下,語(yǔ)言是可以幫助我們?nèi)プ稣Z(yǔ)義上的擴(kuò)展,這非常重要。從我們最近的一些視覺(jué)基礎(chǔ)模型上的工作來(lái)看,訓(xùn)練數(shù)據(jù)實(shí)際上還是比較有限的,但是仍然能看到它有一定的泛化能力。我覺(jué)得語(yǔ)言帶過(guò)來(lái)的一些知識(shí),與視覺(jué)信息是相關(guān)聯(lián)的,視覺(jué)的表示跟語(yǔ)言結(jié)合后,隨著語(yǔ)言的擴(kuò)展,視覺(jué)的表示也會(huì)擴(kuò)展自己的表征能力。
我說(shuō)一下我的觀點(diǎn),就是視覺(jué)基礎(chǔ)模型一定是需要語(yǔ)言的,未來(lái)一定是視覺(jué)跟語(yǔ)言相融合的一個(gè)態(tài)勢(shì),比如說(shuō)過(guò)了幾年以后,業(yè)界最好的模型中,可能就不存在純粹的視覺(jué)基礎(chǔ)模型,最好的模型都是視覺(jué)和語(yǔ)言融合的。順便也回應(yīng)一下這個(gè)問(wèn)題:圖文弱監(jiān)督和視覺(jué)自監(jiān)督兩個(gè)是不是都需要?我的觀點(diǎn)是非常明確,兩個(gè)都需要。因?yàn)閳D文弱監(jiān)督就像剛才黃高老師說(shuō)的,它是包含有一種互監(jiān)督的概念,可以幫助我們?nèi)タ朔円曈X(jué)預(yù)訓(xùn)練存在的問(wèn)題,即你很難抽出有效的語(yǔ)義信息。一旦有了文本的輔助,這件事情就變得好做很多。那么自監(jiān)督為什么也需要呢?是因?yàn)樽员O(jiān)督它本身更加適應(yīng)視覺(jué)任務(wù),對(duì)圖像的性質(zhì)捕捉得更好。進(jìn)一步說(shuō),這兩個(gè)方法不僅都需要,而且我們?cè)谘芯亢吐涞氐倪^(guò)程中,發(fā)現(xiàn)它們是有先后順序的:先做圖文弱監(jiān)督的預(yù)訓(xùn)練,然后以它作為基礎(chǔ)模型,再做視覺(jué)預(yù)訓(xùn)練,相當(dāng)于把視覺(jué)預(yù)訓(xùn)練作為一個(gè)圖文預(yù)訓(xùn)練的fine-tuning。更明確地說(shuō),我們現(xiàn)在的方法分為三步走:先用圖文弱監(jiān)督去做預(yù)訓(xùn)練,再用視覺(jué)自監(jiān)督去做二次預(yù)訓(xùn)練,最后才去下游任務(wù)上做微調(diào)。我們最近在ECCV發(fā)表了一個(gè)叫做MVP文章,也確定了這樣做是有益的,包括對(duì)于檢測(cè)分割這種下游任務(wù),都有明顯的性能提升。
關(guān)于各種自監(jiān)督弱監(jiān)督方法,我個(gè)人的看法就是語(yǔ)言涵蓋了大量的語(yǔ)義信息,但是語(yǔ)言它不可能是無(wú)限精確地描述圖片的信息。那么互聯(lián)網(wǎng)上的圖片和文字描述,文字以泛泛描述為主,精確描述很少。所以我覺(jué)得我們依賴圖文弱監(jiān)督的話,主要是理解大概上的事情,那么對(duì)這個(gè)MAE和MIM這種方法,剛剛虞老師也談到了,我個(gè)人覺(jué)得它是在隱式地思考圖片里的幾何信息。但很可惜我覺(jué)得現(xiàn)有的MAE的方式,它的loss是一個(gè)MSE loss,這種loss其實(shí)它并不能夠發(fā)現(xiàn)看不見(jiàn)的部分, MIM mse這種loss對(duì)SSL來(lái)說(shuō)是不利的,所以我也在想這幾種方式,他們其實(shí)是互補(bǔ)的。如果我們關(guān)心的是物體的low level的幾何,特別是我們做智能,我們要感興趣怎么跟它接觸,那么幾何是很重要的,在這個(gè)問(wèn)題上可能語(yǔ)義并沒(méi)有什么作用。我們做弱監(jiān)督,其實(shí)真的缺乏能用的視覺(jué)數(shù)據(jù)。所以說(shuō)我們變換一個(gè)視角,我們可以reconstruct它,但是目前的弱監(jiān)督,很難去真正反映其中的幾何,那么目前的這個(gè)mae的這種監(jiān)督也只能說(shuō)是在這種先天條件缺失的情況下,去給他找一個(gè)方式去學(xué)看不見(jiàn)的地方是什么,我感覺(jué)對(duì)于數(shù)據(jù)模態(tài)的類型的補(bǔ)充和 loss方式,還有很多可以探討的地方。
在圖像檢索和視頻理解中,我們經(jīng)常提到結(jié)構(gòu)化、語(yǔ)義化。這就是說(shuō),計(jì)算機(jī)視覺(jué)領(lǐng)域主要解決兩個(gè)問(wèn)題:(一)語(yǔ)義化,圖片中含有什么實(shí)體,它的語(yǔ)義概念是什么?例如:圖中有一架飛機(jī),一個(gè)人。(二)結(jié)構(gòu)化,實(shí)體間的關(guān)系是什么?例如: 人從飛機(jī)走下舷梯。當(dāng)實(shí)體和關(guān)系都描述清楚了,我們就理解圖片包含的語(yǔ)義是乘客下飛機(jī),而不是上飛機(jī),坐飛機(jī),駕駛飛機(jī)或站在拖拉機(jī)旁。計(jì)算機(jī)視覺(jué)的根本目標(biāo)是視覺(jué)信息的結(jié)構(gòu)化和語(yǔ)義化,對(duì)應(yīng)到自然語(yǔ)言就是命名實(shí)體、實(shí)體關(guān)系(空間關(guān)系,交互關(guān)系)。對(duì)于視頻,結(jié)構(gòu)化還要考慮持續(xù)時(shí)間的上下文關(guān)系。
關(guān)于視覺(jué)基礎(chǔ)模型學(xué)習(xí)方法,今天大家探討了很多。對(duì)比學(xué)習(xí)(CL)是通過(guò)比較兩個(gè)對(duì)象是否相似來(lái)解決區(qū)分力問(wèn)題(實(shí)體識(shí)別);大量標(biāo)注樣本對(duì)模型訓(xùn)練肯定是很有幫助的。但實(shí)際上,我們?cè)谧瞿P陀?xùn)練時(shí),經(jīng)常缺少大量的標(biāo)注樣本,所以就產(chǎn)生了解決樣本自標(biāo)注,自監(jiān)督學(xué)習(xí)問(wèn)題的掩碼學(xué)習(xí)方法(MAE),即通過(guò)掩碼抹掉子圖,然后由自編碼器填空生成缺失的已知部分(實(shí)體關(guān)系)來(lái)實(shí)現(xiàn)學(xué)習(xí)的一種方式。
我記得悟道大模型的研制者唐杰老師,他在一篇論文的標(biāo)題中提到:“所有的一切都是生成“。我當(dāng)時(shí)在想,難道不是所有的一切是分類?但他卻說(shuō)一切都是生成,生成是識(shí)別的基礎(chǔ),其實(shí)就是類似于掩碼學(xué)習(xí),生成的思想如出一轍。就是你缺少一個(gè)東西,你去生成它的時(shí)候(原始照片本來(lái)就有,挖掉一塊區(qū)域,通過(guò)生成把它填充好),在反復(fù)的生成過(guò)程中就學(xué)習(xí)到了這個(gè)東西?,F(xiàn)實(shí)中,我們訓(xùn)練樣本實(shí)在是太缺乏了,基于MAE的生成學(xué)習(xí)為我們提供了一種新的學(xué)習(xí)方式。
我就說(shuō)這些。另外我提一個(gè)問(wèn)題,去年RACV2021,我們討論過(guò)視覺(jué)大模型。正好這次華為盤古視覺(jué)大模型的謝曦凌來(lái)了,百度視覺(jué)的專家王井東也在,能否介紹一下您們視覺(jué)大模型的最新進(jìn)展、經(jīng)驗(yàn)和問(wèn)題?
這個(gè)問(wèn)題很好,那么第一個(gè)就是其實(shí)興剛提到的那個(gè)大模型,不過(guò)是個(gè)150億參數(shù),我們前段時(shí)間發(fā)布了一個(gè)更大的、170億參數(shù)多任務(wù)大模型。
我簡(jiǎn)單說(shuō)一下,非常感謝王濤老師給我這樣一個(gè)說(shuō)一下自己落地工作的機(jī)會(huì)。其實(shí)我剛才回答毋老師問(wèn)題的時(shí)候已經(jīng)講過(guò)了:視覺(jué)跟文本是不一樣的。就語(yǔ)言來(lái)說(shuō),現(xiàn)在我們收集到語(yǔ)料庫(kù)已經(jīng)是現(xiàn)實(shí)世界的一個(gè)非常好的采樣,它覆蓋的范圍足夠大,于是我們用預(yù)訓(xùn)練去死記硬背,甚至過(guò)擬合語(yǔ)料庫(kù),依然能夠取得明顯的收益。但是,視覺(jué)還遠(yuǎn)遠(yuǎn)達(dá)不到這個(gè)程度。在落地的過(guò)程當(dāng)中,如果我們拿一個(gè)在通用數(shù)據(jù)集上訓(xùn)練好的模型直接用于實(shí)際業(yè)務(wù),比如說(shuō)你把ImageNet訓(xùn)練好的模型用到醫(yī)療影像上去、用到礦井圖像當(dāng)中去、用到工業(yè)質(zhì)檢的電路板圖像上面去,效果不一定會(huì)好。這是因?yàn)橐曈X(jué)的預(yù)訓(xùn)練數(shù)據(jù)集沒(méi)有覆蓋這么多復(fù)雜的場(chǎng)景,那么過(guò)擬合的副作用就顯現(xiàn)出來(lái)。這是大模型在視覺(jué)上沒(méi)有全面鋪開(kāi)的第一個(gè)原因。
第二個(gè)原因其實(shí)也是一個(gè)非?,F(xiàn)實(shí)的原因:視覺(jué)大模型太慢了。文本大模型,即使有千億參數(shù),它推理一句話還是很快的。但是視覺(jué)大模型,如果做到十幾億的參數(shù)量,那么在一張圖片上做檢測(cè),可能要20秒鐘的時(shí)間。一張圖片20秒,誰(shuí)能忍受?那不可能的。所以說(shuō)我們?cè)趯?shí)際業(yè)務(wù)當(dāng)中必須把這個(gè)東西給調(diào)整過(guò)來(lái),比如說(shuō)有一個(gè)預(yù)訓(xùn)練大模型作為基礎(chǔ),在微調(diào)的過(guò)程中,通過(guò)蒸餾剪枝或者說(shuō)別的方法,你把它弄成一個(gè)稍微小一點(diǎn)的業(yè)務(wù)上能用的模型,用到業(yè)務(wù)上去。而且我們發(fā)現(xiàn)在這個(gè)過(guò)程當(dāng)中,微調(diào)的收益比起模型規(guī)模的收益要大得多。這也是我前面說(shuō)過(guò)的,因?yàn)橐曈X(jué)信號(hào)太復(fù)雜了,你沒(méi)有辦法通過(guò)預(yù)訓(xùn)練去覆蓋所有的數(shù)據(jù)分布。所以在視覺(jué)領(lǐng)域做落地的思路,跟語(yǔ)言肯定不一樣。我們現(xiàn)在做視覺(jué)大模型的思路也不是像在文本那樣,一定要往大的去走;在視覺(jué)上我們就是做到10億左右參數(shù),基本上就可以了,不用再做大了,而是把精力放在模型的下游微調(diào)上。這是我對(duì)于我們業(yè)務(wù)的一些解釋,謝謝。
我就第五個(gè)問(wèn)題談一談我自己的觀點(diǎn)。語(yǔ)言能給視覺(jué)模型帶來(lái)什么,我覺(jué)得大家都比較認(rèn)可語(yǔ)言是有幫助的,但現(xiàn)在我們關(guān)注更多的是怎么帶來(lái)或者怎么做性能提升。我在想我們是不是應(yīng)該思考現(xiàn)在語(yǔ)言的使用方式是不是合理,或者有沒(méi)有更合理更優(yōu)的方式。
大模型的發(fā)展目前有四個(gè)維度,第一個(gè)是空間的維度,空間的維度主要體現(xiàn)在粒度上,由圖片分類這樣的粗粒度向中層粒度(object level)及細(xì)粒度(pixel level)不斷深入,第二個(gè)是時(shí)間上的維度,由靜態(tài)圖像向動(dòng)態(tài)視頻方向擴(kuò)展,第三個(gè)是模態(tài)的維度,由RGB模態(tài)、向紅外、深度、語(yǔ)言等多模態(tài)發(fā)展。第四個(gè)是多任務(wù)的維度,大模型需要向下游不同的任務(wù)擴(kuò)展,從而實(shí)現(xiàn)一網(wǎng)多能,一網(wǎng)通吃。
當(dāng)前語(yǔ)言和圖像融合的大模型,如Clip對(duì)視覺(jué)理解的發(fā)展有很好的促進(jìn),語(yǔ)言的描述相比圖像來(lái)說(shuō),實(shí)際上是非常精煉的,通常是人類的對(duì)圖像的一個(gè)總結(jié),可能眼前這個(gè)圖什么都有,但是你通過(guò)語(yǔ)言描述后,人會(huì)對(duì)圖像的注意力更精準(zhǔn),理解更到位。其實(shí)語(yǔ)言它還有一些明確的描述,它其實(shí)是表征了一些結(jié)構(gòu)信息,很多是知識(shí)性的信息,這些知識(shí)在圖譜中又有上下文的關(guān)聯(lián)關(guān)系,這些其實(shí)都是對(duì)視覺(jué)的有指導(dǎo)意義,通過(guò)知識(shí)圖譜的方式來(lái)指導(dǎo)視覺(jué)模型,那么會(huì)使得我們會(huì)對(duì)視覺(jué)理解的更充分,在很多任務(wù)上面都提升明顯。
所以說(shuō)我覺(jué)得其實(shí)語(yǔ)言為視覺(jué)帶來(lái)了很多,但是另外一個(gè)問(wèn)題呢,我其實(shí)也不太了解,就是NLP方面是不是需要視覺(jué)的一些知識(shí)和模型?相比圖像的粒度來(lái)說(shuō),語(yǔ)言描述的粒度較粗,而且圖像本身變化是多種多樣的,它的空間表征更更大一些,有些其實(shí)超出了語(yǔ)言描述的內(nèi)容,所以說(shuō)這樣翻過(guò)來(lái),為了對(duì)語(yǔ)言的理解更深刻,NLP究竟會(huì)不會(huì)用視覺(jué)大模型,我想拋出這個(gè)問(wèn)題。
各位老師上午好,剛才聽(tīng)了各位老師的報(bào)告和發(fā)言,很受啟發(fā),我談一下對(duì)視覺(jué)基礎(chǔ)模型的一些理解。過(guò)去這兩年我也一直從事視覺(jué)基礎(chǔ)模型方向的研究,在國(guó)內(nèi)很多地方也匯報(bào)了我們課題組在這方面的一些工作。我們可以簡(jiǎn)單回顧一下近10年來(lái)這一波的計(jì)算機(jī)視覺(jué)發(fā)展歷程,從2012年到2022這10年其實(shí)可以分兩個(gè)階段:從2012年到2017年,計(jì)算機(jī)視覺(jué)應(yīng)該說(shuō)能夠成功其實(shí)也是受到語(yǔ)言的啟發(fā),大家可以看一下深度學(xué)習(xí)最開(kāi)始成功的其實(shí)并不是在圖像識(shí)別任務(wù)上,那個(gè)時(shí)候我在新加坡工作,深度學(xué)習(xí)在語(yǔ)音識(shí)別任務(wù)上成功了很久,在2012年才在視覺(jué)任務(wù)開(kāi)始成功,所以說(shuō)那個(gè)時(shí)間節(jié)點(diǎn)上其實(shí)也多少受到一些語(yǔ)言的啟發(fā)。這一波從2017年到2022,我們都看清楚,實(shí)際上計(jì)算機(jī)視覺(jué)是在跟著NLP在走,如果說(shuō)早些年我們可以比較驕傲地說(shuō)計(jì)算機(jī)視覺(jué)推動(dòng)了人工智能的發(fā)展,現(xiàn)在很多時(shí)候我們沒(méi)有辦法。剛才盧老師講的很對(duì),就我們把模型用在圖像視頻上,根本解釋不清楚為什么需要Transformer這樣的東西。所以我的觀點(diǎn)就是說(shuō)語(yǔ)言跟視覺(jué)一個(gè)本質(zhì)的區(qū)別,那就算語(yǔ)言是有非常清晰的語(yǔ)法,而視覺(jué)是比較缺失的。今天上午討論了很多對(duì)比學(xué)習(xí),我感覺(jué)我們更需要關(guān)注語(yǔ)法這種東西在視覺(jué)數(shù)據(jù)里面如何挖掘,這是一個(gè)很難的問(wèn)題。因?yàn)楝F(xiàn)在視覺(jué)沒(méi)有語(yǔ)法,而語(yǔ)言是有很強(qiáng)的語(yǔ)法,十幾年前美國(guó)一個(gè)知名教授跟我講一句話,我至今印象非常深刻。他講的一個(gè)觀點(diǎn)就是computer vision is language。他說(shuō)計(jì)算機(jī)視覺(jué)也是一門語(yǔ)言,語(yǔ)言的本質(zhì)就是語(yǔ)法,視覺(jué)現(xiàn)在沒(méi)有語(yǔ)法,所以我希望或者說(shuō)各位同行一起就在這個(gè)方向能夠研究,一起用語(yǔ)法來(lái)指導(dǎo)視覺(jué)基礎(chǔ)模型的構(gòu)建,謝謝。
這個(gè)問(wèn)題很有意思。語(yǔ)言有語(yǔ)法,那么圖像或者識(shí)別有沒(méi)有語(yǔ)法呢?因?yàn)檎Z(yǔ)言是我們自己發(fā)明創(chuàng)造的,所以我們認(rèn)為它有語(yǔ)法;但是圖像雖然不是人創(chuàng)造的,可能是自然界某種規(guī)律創(chuàng)造的,是不是也有自然界的語(yǔ)法呢?
因?yàn)槲覍?duì)計(jì)算機(jī)視覺(jué)不是很熟悉,之前有做過(guò)一點(diǎn),但沒(méi)有繼續(xù)做了,后來(lái)主要是做機(jī)器學(xué)習(xí)和人工智能理論。所以呢,我就說(shuō)一下第三、第五這兩點(diǎn)吧。機(jī)器學(xué)習(xí)早年的時(shí)候也曾經(jīng)有一個(gè)夢(mèng)想,這個(gè)夢(mèng)想和第三個(gè)問(wèn)題差不多是一樣的。當(dāng)時(shí)是想這種學(xué)習(xí)任務(wù)會(huì)有一個(gè)統(tǒng)一的學(xué)習(xí)算法。但這是不可能的,因?yàn)?5年的時(shí)候就有人證明了沒(méi)有免費(fèi)午餐定理,97年這個(gè)觀點(diǎn)就進(jìn)了教科書,從此機(jī)器學(xué)習(xí)就不再夢(mèng)想去構(gòu)建一個(gè)統(tǒng)一的機(jī)器學(xué)習(xí)模型了。如果說(shuō)在一些條件下這種模型是可能的,那么就意味著這些任務(wù)要么是存在投影(同態(tài))關(guān)系,要么是可以互相重構(gòu)的。如果不是這種關(guān)系的話,那我認(rèn)為這是一個(gè)很困難的事情。從機(jī)器學(xué)習(xí)上來(lái)說(shuō),對(duì)于不同的學(xué)習(xí)任務(wù),利用沒(méi)有免費(fèi)午餐定理,每種任務(wù)都應(yīng)存在更適合的算法。當(dāng)然這是我的理解,也不一定完全正確,萬(wàn)一日后證明了在機(jī)器視覺(jué)領(lǐng)域各類任務(wù)之間居然存在同構(gòu)或同態(tài)關(guān)系,那確實(shí)會(huì)是很大的成就。但是,如果證明不了這件事情,那么這些任務(wù)本質(zhì)上就是不同的應(yīng)用。這就是我的觀點(diǎn),從機(jī)器學(xué)習(xí)的角度對(duì)第三個(gè)問(wèn)題進(jìn)行了一點(diǎn)補(bǔ)充。
接著說(shuō)一下第五個(gè)問(wèn)題。語(yǔ)言和視覺(jué)的實(shí)現(xiàn)是非常不一樣的。從符號(hào)的角度來(lái)說(shuō),視覺(jué)屬于相似符號(hào),語(yǔ)言屬于象征符號(hào),它們是完全不同的。雖然像相似符號(hào)之間會(huì)存在一些相互關(guān)系,比如說(shuō)照相和漫畫之間可以存在映射的關(guān)系;但是不同的符號(hào)之間,比如相似符號(hào)到象征符號(hào),這種映射是極其復(fù)雜的。對(duì)語(yǔ)言來(lái)講,從漢語(yǔ)到漢語(yǔ)是可以同構(gòu)的,英語(yǔ)到漢語(yǔ)不見(jiàn)得是同構(gòu),但可以說(shuō)是近似同構(gòu)。因?yàn)槿绻唤仆瑯?gòu)的話,翻譯就是不可能的,所以可以說(shuō)是近似同構(gòu)。但是對(duì)視覺(jué)而言,我們計(jì)算機(jī)的圖像到語(yǔ)言是同構(gòu)嗎?從我的觀點(diǎn)上來(lái)說(shuō),可能是差得很遠(yuǎn),從自然符號(hào)到相似符號(hào)就差很遠(yuǎn)了,再?gòu)南嗨品?hào)到我們所謂的象征符號(hào),那就更加天差地別。實(shí)際上我們象征符號(hào)的單位是有限的,已經(jīng)有人證明實(shí)際上每種語(yǔ)言的常用詞也就5萬(wàn)個(gè)左右。對(duì)于每個(gè)人來(lái)說(shuō)就更少了,與圖像的數(shù)量有很顯著的差異。
于老師講的挺底層和哲學(xué),我也來(lái)談一點(diǎn)觀點(diǎn)。實(shí)際上,語(yǔ)言和視覺(jué)在逐漸的統(tǒng)一,從NLP的角度上來(lái)講,語(yǔ)言可以向量化,從而轉(zhuǎn)變成一個(gè)傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)的問(wèn)題;而圖像可以Token化,也可以轉(zhuǎn)換成NLP處理范式的問(wèn)題,這兩者當(dāng)中的差距是越來(lái)越小的。視覺(jué)和語(yǔ)言之間也有很多的互相受益的地方。我特別同意謝老師講的觀點(diǎn),在自然語(yǔ)言方面我們有比較全面的數(shù)據(jù),但直到今天,我們還是很缺乏大規(guī)模多任務(wù)的視覺(jué)數(shù)據(jù)。現(xiàn)在NLP里面有像SuperBLUE、Big-Bench等多任務(wù)benchmarks,但是視覺(jué)領(lǐng)域像ImageNet這種任務(wù)太簡(jiǎn)單了,哪怕加上segmentation和detection任務(wù),總體來(lái)說(shuō)還是單一的。如果我們能構(gòu)建一個(gè)大規(guī)模數(shù)據(jù)集,增加更加豐富的任務(wù)例如視覺(jué)推理、問(wèn)答、細(xì)粒度的CV任務(wù)如人臉識(shí)別、ReID、OCR等等,將來(lái)有一天先把一個(gè)超大規(guī)模的多任務(wù)圖像視覺(jué)數(shù)據(jù)集構(gòu)造和定義出來(lái),再去研究面向視覺(jué)的大模型,可能會(huì)更加更加有價(jià)值和有意義。
從我們實(shí)驗(yàn)室的一些經(jīng)驗(yàn)來(lái)講,語(yǔ)言對(duì)于我們視覺(jué)的理解是很有大幫助的。比如說(shuō)對(duì)于跨模態(tài)的多模態(tài)文檔圖像理解。在文檔圖像理解中,中文或英文的數(shù)據(jù)有很多,但是對(duì)于小語(yǔ)種而言,不管是無(wú)標(biāo)注的數(shù)據(jù)還是有標(biāo)注的數(shù)據(jù)都很難獲取。如果把視覺(jué)模型和語(yǔ)言模型解耦出的訓(xùn)練,利用某種方式再把它們耦合在一起時(shí)會(huì)有很好的效果。比如說(shuō)利用跨幾十種語(yǔ)言的大規(guī)模語(yǔ)言模型,把它遷移到視覺(jué)里面,就可以幫助我們解決一些few-shot或者zero-shot場(chǎng)景下文檔圖像的分類、識(shí)別、信息抽取等視覺(jué)上的問(wèn)題。我們今年在ACL2022年就有一篇文章在做這個(gè)工作,我們發(fā)現(xiàn)即使是zero-shot情況下,如果有語(yǔ)言知識(shí)幫助我們建模,是可以更好的去解決視覺(jué)問(wèn)題的。
從這個(gè)意義上來(lái)講,我很看好將來(lái)視覺(jué)和語(yǔ)言可以走到一起。剛才繼文老師提到,回顧過(guò)去10年AI領(lǐng)域的發(fā)展,前5年可能是CV領(lǐng)域在引領(lǐng)主流,從17年到現(xiàn)在是以Transformer為代表的這種NLP領(lǐng)域中的方法在引領(lǐng)主流。展望未來(lái)5年或10年,這兩個(gè)領(lǐng)域可能會(huì)走得越來(lái)越近,我們也希望這兩個(gè)領(lǐng)域中還能夠產(chǎn)生讓人眼前一亮的或者具有革命性的一些工作,比如說(shuō)像MAE,還有Hinton教授去年提出的Pix2Seq,今年也出了Pix2Seq v2,把視覺(jué)檢測(cè)、實(shí)例分割、關(guān)鍵點(diǎn)檢測(cè)、圖像描述等任務(wù)統(tǒng)一到了一個(gè)基于Transformer的框架,方法簡(jiǎn)潔,效果驚艷。我覺(jué)得這些方法還是能夠給我們帶來(lái)一些新的啟發(fā)。
我剛剛聽(tīng)了金老師和于老師的發(fā)言,我覺(jué)得很有啟發(fā),忍不住想要問(wèn)張磊老師和井東老師一個(gè)問(wèn)題。其實(shí)前面已經(jīng)提到,現(xiàn)在已經(jīng)出現(xiàn)了很多根據(jù)語(yǔ)言做圖像生成的工作,至少?gòu)囊曈X(jué)來(lái)看,這個(gè)任務(wù)已經(jīng)做的非常的好了。那么根據(jù)語(yǔ)言生成的大規(guī)模的圖像,對(duì)于視覺(jué)基礎(chǔ)模型到底有沒(méi)有幫助呢?對(duì)這個(gè)問(wèn)題,我的看法是,有幫助或沒(méi)有幫助都很重要。假如說(shuō)沒(méi)有幫助,即這些圖像對(duì)于機(jī)器視覺(jué)不會(huì)有任何幫助,這表明我們已經(jīng)cover了所有的information,不可能再生成additional information了,所以即使這個(gè)問(wèn)題的答案是no,也是很有意義的。如果答案是yes,也就是有幫助的話,那么舉例來(lái)說(shuō),如果我能夠生成在原始圖像里面不可能存在的,比如剛才講到的熊貓?jiān)谏碁┥弦活惖谋静豢赡茉谀愕臄?shù)據(jù)里產(chǎn)生的圖像,但也許有一天真的會(huì)出現(xiàn)這樣的數(shù)據(jù),這種明顯是基于語(yǔ)言生成的高質(zhì)量圖像,對(duì)視覺(jué)基礎(chǔ)模型會(huì)不會(huì)帶來(lái)幫助呢?我很想聽(tīng)聽(tīng)兩位的觀點(diǎn)。
虞老師的問(wèn)題是一個(gè)比較新穎的角度。在我看來(lái),現(xiàn)在做的生成模型,并不是在解決representation learning的問(wèn)題,主要是把大量圖像映射到空間里,對(duì)它的分布做采樣的過(guò)程。很少用生成模型這種方式去做表示學(xué)習(xí),表示學(xué)習(xí)還是用弱監(jiān)督或者自監(jiān)督的方法比較多。我認(rèn)為從生成的角度來(lái)說(shuō),某種程度上仍然是一個(gè)類似于重構(gòu)的任務(wù)。當(dāng)它重構(gòu)了數(shù)據(jù)之后,可以做更好的采樣。我覺(jué)得至少目前這個(gè)研究領(lǐng)域里還不是在探討使用生成模型去解表示學(xué)習(xí)的問(wèn)題,所以我對(duì)這個(gè)問(wèn)題還沒(méi)有一個(gè)特別好的答案。
我來(lái)補(bǔ)充一點(diǎn)點(diǎn)。我沒(méi)記錯(cuò)的話,DALL·E 2中使用的是CLIP模型,它的表征是從CLIP出來(lái)的。DALL·E 2可以認(rèn)為在語(yǔ)義空間中做diffusion sampling,然后使用diffusion decoder完成圖像的生成。其實(shí)這個(gè)地方就是剛剛提到的,怎么樣才能生成的漂亮,怎么能把隱含空間里面的表征變成真實(shí)的東西。像Google做的Imagen,也是融合了這些過(guò)程的。我覺(jué)得在那個(gè)隱含空間里面sampling還是需要一個(gè)好的表征空間的。
尤其是語(yǔ)言特征空間,需要有一個(gè)好的表示。DALL·E 2實(shí)際上也是利用了CLIP來(lái)幫它解決問(wèn)題,而不是它去幫CLIP解決問(wèn)題。我認(rèn)為在DALL·E 2中沒(méi)有加入增強(qiáng)CLIP表征能力的地方。因?yàn)間eneration的問(wèn)題比表征學(xué)習(xí)更難,所以它實(shí)際上是在借助于表征學(xué)習(xí)的一些工作的進(jìn)展來(lái)進(jìn)一步解決問(wèn)題,而不是反過(guò)來(lái)幫助解決表征學(xué)習(xí)的問(wèn)題,當(dāng)然后者也是一個(gè)很好的方向。
其實(shí)DALL·E 1生成的東西也不錯(cuò),只是quality沒(méi)那么高。主要的差異在diffusion decoder,使得DALL·E 2的quality非常高,也就是生成地更漂亮,單從語(yǔ)義的角度來(lái)說(shuō),差異并沒(méi)有那么顯著。
我也想提一個(gè)問(wèn)題,這個(gè)問(wèn)題可能有一定的爭(zhēng)論。今天上午我們這個(gè)專題講的是大模型,大模型是數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方式。現(xiàn)在,除了各大公司以外,很多學(xué)校也在做,是個(gè)很流行的研究方向。我擔(dān)心的是,這樣下去是不是會(huì)對(duì)我們計(jì)算機(jī)視覺(jué)的研究產(chǎn)生一些負(fù)面的影響呢?
這話是什么意思呢?我們?cè)谧龃竽P脱芯康臅r(shí)候,基本上都把數(shù)據(jù)獲取這個(gè)過(guò)程給忽略掉了。我們知道計(jì)算機(jī)視覺(jué)是應(yīng)該包含數(shù)據(jù)獲取、數(shù)據(jù)選擇等環(huán)節(jié)的。生物也好人也好,像很久之前生態(tài)心理學(xué)所主張的那樣,視覺(jué)系統(tǒng)是要把感知、認(rèn)知及其決策這些功能融合到一起去的。但現(xiàn)在如果使這些功能處于一種分離狀態(tài)的話,這是不是會(huì)對(duì)我們這個(gè)領(lǐng)域產(chǎn)生影響?
當(dāng)然,從另外一個(gè)角度來(lái)看,我們也看到這種數(shù)據(jù)驅(qū)動(dòng)的方式在一些視覺(jué)任務(wù)中能夠發(fā)揮作用,能夠提升系統(tǒng)在一些特定問(wèn)題上的視覺(jué)認(rèn)知質(zhì)量。但我還想問(wèn)一下,從本質(zhì)上講,除了刷榜之外,大模型能解決哪些我們以前解決不了的問(wèn)題,或者說(shuō)它在哪些方面可能會(huì)引起計(jì)算機(jī)視覺(jué)研究方法論上的突破呢?
正好我們也在做大模型,所以我就先回答一下查老師的問(wèn)題。其實(shí)大模型在我自己看來(lái),在預(yù)訓(xùn)練算法部分,跟小模型其實(shí)沒(méi)有太大區(qū)別,它更多是一個(gè)工程問(wèn)題,所以業(yè)界也很少有學(xué)者針對(duì)大模型去專門發(fā)表論文。那么大模型它能帶來(lái)什么改變呢?從落地上來(lái)講,大模型帶來(lái)的規(guī)范,會(huì)讓我們落地會(huì)更快更便捷。比如說(shuō),當(dāng)我們有一個(gè)基礎(chǔ)模型以后,就可以比較方便、規(guī)范地把它遷移到不同的下游場(chǎng)景里面去;而且由于預(yù)訓(xùn)練的原因,在小樣本任務(wù)上,它的能力確實(shí)是有所提升的,因?yàn)樗黶hare了一些公共的feature。這是我們?cè)诖竽P蜕夏軌虻玫降囊粋€(gè)比較明確的好處。
關(guān)于前面虞老師提到的,生成圖像輔助識(shí)別的問(wèn)題,剛才張磊老師說(shuō)沒(méi)有這方面經(jīng)驗(yàn),但正好我有這方面的一個(gè)失敗的經(jīng)驗(yàn)。我們?cè)?jīng)用生成圖像嘗試去提升識(shí)別精度,但是最終失敗了。背景是這樣的。我們知道在圖像分類里有一個(gè)工作叫mixup,它的想法非常簡(jiǎn)單:假如有兩張圖像,圖像A是狗,圖像B是貓,我們把A的像素乘以0.8,B的像素乘以0.2,兩者相加創(chuàng)造出一個(gè)重疊的圖像,然后強(qiáng)行讓分類器得出這張圖像0.8概率是狗、0.2概率是貓的結(jié)論。這種做法可以提升分類精度。我們就進(jìn)一步想,這樣做是不是太弱了,能不能用圖像生成技術(shù)來(lái)改進(jìn)這件事情。我們知道GAN inversion出來(lái)以后,很多工作都會(huì)展示一個(gè)被稱為image warping的實(shí)驗(yàn)。比如說(shuō)一張圖像是貓,一張圖像是狗,warping就可以創(chuàng)造一個(gè)序列,使得貓漸變成狗,相信大家也有都有見(jiàn)過(guò)這樣的圖片。具體做法,是把兩張圖像分別逆映射到特征空間,在特征空間中插值,然后再映射回來(lái),就可以做到這樣漸變的效果。于是我就想,能不能用它來(lái)替代mixup呢?這是一個(gè)很自然的想法,但它最終失敗了,而且是很徹底的失敗,沒(méi)有任何提升性能的跡象。這是為什么呢?后來(lái),我們發(fā)現(xiàn)一個(gè)很明確的點(diǎn)。在warping時(shí),我們一般都假設(shè)它在語(yǔ)義空間上是連續(xù)變化的,但是實(shí)際上不是這樣。我再舉個(gè)例子,比如說(shuō)有一只頭朝左的狗和一只頭朝右的狗,我們理想中的warping,應(yīng)該是這個(gè)狗逐漸地從左邊轉(zhuǎn)到右邊,但實(shí)際產(chǎn)生的效果是,左邊的狗頭逐漸消失,而右邊逐漸長(zhǎng)出一個(gè)狗頭來(lái)。這種warping效果,跟我們想要的就不一樣,無(wú)法幫助我們?cè)趫D像分類或者識(shí)別這個(gè)任務(wù)上做得更好。
所以我可以回答剛才的問(wèn)題。總結(jié)我在這方面的失敗經(jīng)驗(yàn)就是,當(dāng)前的生成模型還沒(méi)有真正根據(jù)語(yǔ)義去生成,而是根據(jù)統(tǒng)計(jì)學(xué)習(xí)直接去生成的,這就導(dǎo)致它生成出來(lái)東西很不確定,可能還沒(méi)有辦法很穩(wěn)定地去幫助分類或識(shí)別的任務(wù)。但是,在某些情況下,生成數(shù)據(jù)還是有用的。比如說(shuō)我生成了一些熊貓?jiān)诔刈永镉斡镜膱D片,而我下游要做的檢測(cè)任務(wù),目標(biāo)恰好就是熊貓?jiān)诔刈永镉斡?。這個(gè)時(shí)候你沒(méi)有真實(shí)的數(shù)據(jù),那么生成一些數(shù)據(jù)總比沒(méi)有要強(qiáng)。但是在一般的情況下,因?yàn)樯赡P蛯?duì)語(yǔ)義的把握還沒(méi)有那么強(qiáng),它就很難輔助識(shí)別任務(wù)。這是我的失敗的經(jīng)驗(yàn)和教訓(xùn)。
這個(gè)我來(lái)說(shuō)一下,我覺(jué)得前面講得很有道理,就是說(shuō)在語(yǔ)義中是沒(méi)有考慮到三維的,這種情況下,是會(huì)存在geometric constraints的。
我快速回應(yīng)一下。我們確實(shí)沒(méi)有考慮三維信息。但就算考慮了,這個(gè)過(guò)程也是不可控的。
我是覺(jué)得現(xiàn)在深度學(xué)習(xí)這種數(shù)據(jù)驅(qū)動(dòng)基本上沒(méi)有考慮到三維,把圖像恢復(fù)出來(lái),我們都想象不到背后在做什么,我認(rèn)為這還是一個(gè)pattern的重現(xiàn)過(guò)程。因?yàn)槲覀兊乃惴ɡ锩鏇](méi)有為三維重建專門設(shè)計(jì)任何東西,雖然我們不能排除它沒(méi)有學(xué),但我覺(jué)得確實(shí)是沒(méi)有看到這個(gè)東西?,F(xiàn)在的圖文相關(guān)的、尤其是大規(guī)模的工作,基本上就是分類。
就像凌曦剛才講,對(duì)于大模型而言,90%都是工程問(wèn)題,因?yàn)橐堰@么多GPU一起去訓(xùn)練,然后把數(shù)據(jù)加載保證不出問(wèn)題,它基本上就可以看做是一個(gè)工程問(wèn)題了。我在微軟也是在做這個(gè)方向,這個(gè)方向確實(shí)有大量的工程。不過(guò)確實(shí)可以看到它的結(jié)果在逐漸地變好,數(shù)據(jù)量不斷增多,模型不斷變大,效果也在不斷變好。所以我是覺(jué)得這個(gè)趨勢(shì)是沒(méi)有問(wèn)題的,但它的工程會(huì)越來(lái)越復(fù)雜,它就變得不太像是一個(gè)典型的研究方式得到的成果了。
我也想補(bǔ)充一下,我是北京大學(xué)王鶴。我覺(jué)得像CLIP這種大的圖文的弱監(jiān)督模型,也是有很多問(wèn)題的。我們會(huì)發(fā)現(xiàn)在互聯(lián)網(wǎng)上的一些語(yǔ)言中,會(huì)經(jīng)常性的出現(xiàn)信息丟失,或者是大家不在意的一些信息。對(duì)于這些我們不在意的東西,通過(guò)Visual language pretraining就學(xué)不到,比如說(shuō)有一張大合影,其實(shí)很難注意到這個(gè) image里面有多少個(gè)人。像這些信息不一定有,即使有,模型也學(xué)不到,所以我們現(xiàn)在用clip的pretrain model的時(shí)候,如果想把它knowledge distill 出來(lái),我們會(huì)發(fā)現(xiàn)比較common的一些東西是可以distill出來(lái)的,但一些detail的東西則distill不出來(lái)。這個(gè)時(shí)候再聯(lián)想到DALL·E模型,因?yàn)槲覀兡軌蚴褂谜Z(yǔ)言來(lái)控制它的生成,那么我們給出一些特殊的語(yǔ)句,它也能夠給我們一些想要的輸出,以此形成這樣的image和text的pair。
但由此會(huì)出現(xiàn)兩個(gè)困擾著我的問(wèn)題。第一個(gè)問(wèn)題是就連我們這些大學(xué)的researcher都沒(méi)有辦法access到這些非常好的image生成模型。即使申請(qǐng)獲批了,可能一天也就生成10張圖片左右,不可能允許進(jìn)行大規(guī)模的生成,之后再用來(lái)做訓(xùn)練。今天咱們有很多國(guó)內(nèi)公司的代表,能不能咱們中國(guó)搞一個(gè)open access的模型讓我們r(jià)esearcher也來(lái)玩一玩生成,我覺(jué)得這個(gè)能很快boost相關(guān)方面的一些進(jìn)展。第二個(gè)問(wèn)題就是我們發(fā)現(xiàn)在他們的training data里有很多missing area。我個(gè)人本身就比較喜歡關(guān)注的是圖像里面part的結(jié)構(gòu),比如說(shuō)拿clip去做表征,它能不能知道椅子的背上有幾條橫幅這樣的信息?我們發(fā)現(xiàn)這些模型根本不知道,更精細(xì)的來(lái)講,比如說(shuō)一個(gè)遙控器上哪個(gè)按鈕是關(guān)機(jī)鍵,哪個(gè)按鈕是調(diào)聲音的,這些事情是完全沒(méi)有任何信息的,因?yàn)檫@些東西本身在互聯(lián)網(wǎng)上就是處于一個(gè)信息缺失的狀態(tài)。所以我們也在想是不是對(duì)某種特殊task,我們也需要用一些data來(lái)distill或者是enrich vision和language model,build一個(gè)小范圍的specific的vision-language的pair。我覺(jué)得這些都是可能推動(dòng)vision language model在具體task應(yīng)用上的一些方向。
各位老師好,我是來(lái)自于合合信息的丁凱,關(guān)于視覺(jué)大模型,我這邊想提兩個(gè)問(wèn)題,請(qǐng)教一下各位老師。第一個(gè)問(wèn)題是關(guān)于視覺(jué)和語(yǔ)言融合的,目前大家提到的視覺(jué)跟語(yǔ)言的融合中的語(yǔ)言一般來(lái)說(shuō)都是自然語(yǔ)言,同時(shí)語(yǔ)言還有一種表述的方式,也就是經(jīng)過(guò)人類這么多年抽象之后形成的知識(shí)。在業(yè)界中也有很多知識(shí)的表示方式,比如知識(shí)圖譜等等,那么這些知識(shí)如何和我們的視覺(jué)模型融合起來(lái),更好的去指導(dǎo)我們模型的訓(xùn)練,并且去避免一些人類的常識(shí)問(wèn)題呢?舉個(gè)例子,之前在NLP領(lǐng)域里面比較火熱的大模型GPT-3,它生成出來(lái)的有些語(yǔ)言也會(huì)缺乏甚至違背常識(shí)。所以視覺(jué)大模型與知識(shí)的融合這個(gè)方向有沒(méi)有可能是未來(lái)的一個(gè)發(fā)展方向呢?
第二個(gè)問(wèn)題,就是剛剛查老師提到一點(diǎn),大模型的發(fā)展會(huì)不會(huì)有什么負(fù)面作用?現(xiàn)在的大模型有幾個(gè)特點(diǎn):數(shù)據(jù)量非常大,參數(shù)非常多,訓(xùn)練成本非常高,變成了只有一些大的公司或者機(jī)構(gòu)才能做的工作,像一般的科研工作者只能去用這個(gè)模型,這樣的好處是大幅度降低了下游任務(wù)的難度和門檻,同時(shí)也會(huì)出現(xiàn)同質(zhì)化的情況。即大家都是用同一個(gè)預(yù)訓(xùn)練模型,然后再去做下游任務(wù),做到后面會(huì)發(fā)現(xiàn)這個(gè)任務(wù)的瓶頸就是這個(gè)預(yù)訓(xùn)練模型了,導(dǎo)致大家做出來(lái)的結(jié)果都差不多,缺乏新的東西出來(lái)。所以我再想,未來(lái)在大模型蓬勃發(fā)展的同時(shí),有沒(méi)有一個(gè)可能得方向就是讓我們的視覺(jué)大模型具備數(shù)據(jù)選擇能力的,在大量數(shù)據(jù)中可以去選擇有價(jià)值的數(shù)據(jù)。這樣好處是通過(guò)對(duì)數(shù)據(jù)的選擇,同時(shí)持續(xù)的對(duì)新數(shù)據(jù)不斷地進(jìn)行迭代訓(xùn)練,那是否可能會(huì)在一些場(chǎng)景里面產(chǎn)生非常多樣性的大模型或者預(yù)訓(xùn)練模型。例如,在同一個(gè)場(chǎng)景里面,因?yàn)槊總€(gè)大模型預(yù)訓(xùn)練任務(wù)的數(shù)據(jù)選擇的方式不同,迭代的數(shù)據(jù)不同,使得在具體任務(wù)上的模型是具有多樣性的,從而避免出現(xiàn)一個(gè)大模型統(tǒng)一天下的情況。這就是我的兩個(gè)問(wèn)題,謝謝各位。
謝謝丁凱老師,下面我們看看除了丁凱老師的問(wèn)題,我們看看未來(lái)1~2年什么樣的一個(gè)方向是值得我們往下做的。
我想首先回應(yīng)一下剛才查老師的問(wèn)題,就是大模型到底對(duì)我們有什么幫助,是否有什么負(fù)面的影響。這實(shí)際上是一個(gè)視覺(jué)研究中的路線之爭(zhēng)的問(wèn)題。肯定有人擁抱它,有人懷疑它,這都是正常的。我個(gè)人的觀點(diǎn)是非常支持它的。我這里跟各位老師匯報(bào)一下,大概就是去年這個(gè)時(shí)候,北京智源人工智能研究院黃鐵軍老師帶著我們一起,探索視覺(jué)大模型的構(gòu)建,就是希望將來(lái)有一天視覺(jué)基礎(chǔ)模型能夠像今天的電力一樣服務(wù)于千家萬(wàn)戶。我們知道在信息域有一個(gè)鏈條,有基礎(chǔ)軟件,工業(yè)軟件,那么將來(lái)視覺(jué)模型可能會(huì)類似于我們手機(jī)的操作系統(tǒng)。國(guó)家也特別支持,今年的2030新一代人工智能重大研究計(jì)劃里面就支持了這個(gè)方向,并且希望將來(lái)能夠開(kāi)放共享,讓大家去用,這還是非常有意義的。第二點(diǎn)查老師剛才已經(jīng)講了,就是目前還沒(méi)有看到有大模型和沒(méi)有大模型的本質(zhì)變化。我認(rèn)為確實(shí)也是這樣的,現(xiàn)在除了在精度上有一些幫助之外在其他方面沒(méi)有看到,但是不排除未來(lái)通過(guò)我們的努力,比如說(shuō)5年或8年后,可能會(huì)出現(xiàn)一種解釋性比較強(qiáng)、通用性比較好的基礎(chǔ)模型。所謂通用性主要有兩點(diǎn),第一點(diǎn)是對(duì)視覺(jué)數(shù)據(jù)的通用性,不管是對(duì)可見(jiàn)光、紅外、射頻、雷達(dá)等等數(shù)據(jù)都有通用性;第二個(gè)是任務(wù)的通用性,包括檢測(cè)、分割、識(shí)別等,所有任務(wù)都有通用性。如果真的能做出這個(gè)東西,我們傳統(tǒng)的計(jì)算機(jī)視覺(jué)方法是做不了的。
大家好,我是清華大學(xué)的弋力。聽(tīng)到各位老師討論之后有很多自己的想法和思考,可能也跟最后的這些問(wèn)題有一些掛鉤。我本身是做三維視覺(jué)的,三維點(diǎn)云的數(shù)據(jù)量是非常有限的,根本考慮不到大模型這個(gè)事情。因?yàn)楹芏鄷r(shí)候我們都是要三維借助于二維的大模型,或者是借助語(yǔ)言的大模型去做一些事情。有的時(shí)候我也在想到底我們能從這個(gè)大模型中benefit到什么。我覺(jué)得今天講的 language對(duì)我而言其實(shí)還挺有啟發(fā)的,因?yàn)槲矣X(jué)得其實(shí)language對(duì)于這個(gè)場(chǎng)景的描述其實(shí)是包含了很多維度的東西,可能現(xiàn)階段大模型更多的還是在研究有什么東西或者是什么東西的層面。也就是 language里面的concept可能影響我們對(duì)圖片中concept的形成,但其實(shí)language里也會(huì)有很多關(guān)于為什么或者怎么樣的一些描述,這是和認(rèn)知推理相關(guān)的東西。那么我們可以思考一下,借助 language的信息去從 visual的feature中提取出一些有助于reasoning相關(guān)的一些特征,或者來(lái)幫助我們結(jié)合一些spatial的信息來(lái)更好的去預(yù)測(cè)物體的變化等等。這些可能可以真正能服務(wù)到下游的一些機(jī)器人視覺(jué)或者是機(jī)器人交互的一些層面上,對(duì)這個(gè)問(wèn)題我還是非常感興趣的。
再有一個(gè)就是黃高老師提到的多模態(tài),盧老師剛剛也說(shuō)要做既有3D又有2D的universal的模型。現(xiàn)在的2D大模型中對(duì)于視角的信息做得不好,3D在這個(gè)方面有天然的優(yōu)勢(shì),但是缺少很匹配的文本數(shù)據(jù)。那是不是在整個(gè)交叉的領(lǐng)域里,我們可以搞一個(gè)更加universal的model。可能并不是每個(gè)領(lǐng)域都必須得有大的數(shù)據(jù)的支持,因?yàn)槿绻f(shuō)需要3D的大的數(shù)據(jù)的支持,那恐怕現(xiàn)在可能只有車廠有雷達(dá)數(shù)據(jù)一類的信息。現(xiàn)在的深度圖的數(shù)據(jù)也還是比較小體量的,所以最好是大模型能夠benefit或者h(yuǎn)elp其他的domain,我覺(jué)得這個(gè)會(huì)非常有價(jià)值,謝謝。
我覺(jué)得未來(lái)1~2年視覺(jué)基礎(chǔ)模型最有前景發(fā)展方向既不是架構(gòu)設(shè)計(jì),也不是模型訓(xùn)練,而是定義一種更加通用的評(píng)價(jià)指標(biāo)。現(xiàn)在天下苦ImageNet久矣,包括分類、檢測(cè)、分割任務(wù)的定義,都已經(jīng)是很久之前提出來(lái)的,不能適應(yīng)現(xiàn)在的需求。那么我們?cè)趺礃佣x一個(gè)新的指標(biāo),讓這些任務(wù)都能統(tǒng)一起來(lái),從而更好地往前推進(jìn)視覺(jué)識(shí)別的一些本質(zhì)問(wèn)題,這是未來(lái)發(fā)展方向。我今天做的報(bào)告,就是希望往這個(gè)方向去走,謝謝大家。
RACV2022 | 計(jì)算機(jī)視覺(jué)前沿進(jìn)展研討會(huì)成功召開(kāi)
RACV2022觀點(diǎn)集錦 | 三維重建和沉浸式渲染
總結(jié)
以上是生活随笔為你收集整理的RACV2022观点集锦 | 视觉基础模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: idea 断点debug没有勾勾,导致调
- 下一篇: ML Collections的介绍(一)