CVPR 2018现场见闻
關(guān)于作者:萬(wàn)緯韜,本科畢業(yè)于清華大學(xué)電子工程系,現(xiàn)于清華大學(xué)信息認(rèn)知與智能系統(tǒng)研究所攻讀博士二年級(jí),主要研究方向包括基于深度學(xué)習(xí)的人臉檢測(cè)與識(shí)別,對(duì)抗樣本,圖像語(yǔ)義分割。
計(jì)算機(jī)視覺(jué)頂級(jí)會(huì)議 CVPR 于 2018 年于 6 月 18 日在美國(guó)鹽湖城召開(kāi)。一年一度的 CVPR 收錄了來(lái)自全球?qū)W者的最新研究,這里不僅是學(xué)術(shù)界交流的盛會(huì),還是產(chǎn)業(yè)界展示成果的平臺(tái)。隨著算法與硬件的飛速發(fā)展,計(jì)算機(jī)視覺(jué)、人工智能等技術(shù)在我們的生產(chǎn)和生活中的應(yīng)用越來(lái)越普及,與此同時(shí),CVPR 會(huì)議本身也在不斷地發(fā)展和變化。
CVPR 如同一個(gè)風(fēng)向標(biāo),向我們展示了在最近一年里該領(lǐng)域的關(guān)注熱點(diǎn)和最優(yōu)秀的成果。筆者全程參與了本屆 CVPR 會(huì)議,在這里與大家分享本屆會(huì)議的特點(diǎn)、最新的研究熱點(diǎn)和該領(lǐng)域相關(guān)企業(yè)的動(dòng)向。
會(huì)議規(guī)模顯著擴(kuò)大
今年 CVPR 的論文投遞數(shù)逾 3359 篇,相比去年增長(zhǎng)約 25%。而論文接收率幾乎不變(約 29%),最終被接收的論文多達(dá) 979 篇。從如此大量的論文中挑選出符合 CVPR 品質(zhì)的論文絕非易事,會(huì)議組織了 2385 名來(lái)自世界各地的優(yōu)秀審稿人進(jìn)行評(píng)審。同時(shí),參會(huì)人數(shù)多達(dá) 6500 余人,比去年增長(zhǎng)約 30%。
因此,正如會(huì)議的 general chair,Michael Brown 教授所說(shuō),參會(huì)者不可能在 5 天的時(shí)間里顧全所有的事情,你必須做出取舍,這樣才能充分的利用時(shí)間。的確如此,在主會(huì)議期間,每天都會(huì)并行地開(kāi)展 3 場(chǎng) oral/spotlight 報(bào)告,參會(huì)者需要提前了解并從中選擇自己最感興趣的話題來(lái)聽(tīng)。
▲?圖說(shuō):CVPR的參會(huì)人數(shù)和投稿數(shù)都出現(xiàn)了大幅增長(zhǎng)
除了論文數(shù)量明顯增長(zhǎng),今年贊助商的數(shù)量和贊助金額也明顯增長(zhǎng)。會(huì)議擁有來(lái)自全世界的 149 家贊助商,共接收贊助/展示費(fèi)用達(dá) 200 萬(wàn)美元。可以看到,產(chǎn)業(yè)界對(duì) CVPR 這一學(xué)術(shù)會(huì)議顯示出了極大的興趣,這也從側(cè)面反映了計(jì)算機(jī)視覺(jué)、人工智能等方面的研究在實(shí)際場(chǎng)景中有巨大應(yīng)用價(jià)值。贊助商除了在會(huì)場(chǎng)以豐富的形式展示各自的產(chǎn)品和研究成果以外,還提供了大量的招聘和實(shí)習(xí)崗位,希望吸引來(lái)自該領(lǐng)域的精英加入他們。一部分參會(huì)者就是沖著這些名企的招聘來(lái),對(duì)他們來(lái)說(shuō)這里也相當(dāng)于是一場(chǎng)招聘會(huì)。
值得注意的是,無(wú)論是論文發(fā)表還是贊助商方面,華人都貢獻(xiàn)了巨大的力量。在已接收的論文中,華人作者所占比重相當(dāng)可觀。在 9 家鉆石贊助商中,中國(guó)企業(yè)就有 3 家;在 20 家鉑金贊助商中,中國(guó)企業(yè)占到 9 家。一個(gè)最直觀的感受是,在會(huì)議現(xiàn)場(chǎng),中國(guó)人面孔非常普遍。在參加 poster 展覽時(shí),常常一篇 poster 面前全是中國(guó)學(xué)者,這個(gè)時(shí)候作者也許會(huì)索性用中文給大家講解。參會(huì)的人面前都掛著自己的名牌,上面寫有姓名和學(xué)校/單位,會(huì)議現(xiàn)場(chǎng)常常有人看了一眼筆者的名牌,然后就開(kāi)始用中文打招呼。在這種氛圍下,雖然身處美國(guó),也有一種賓至如歸的感覺(jué)。
企業(yè)參與度極高
相關(guān)領(lǐng)域的企業(yè)通過(guò)多種方式深度參與了本次會(huì)議。
首先,在主會(huì)期間,大量贊助商在會(huì)場(chǎng)展示區(qū)通過(guò)多種形式展示了各自的研究和應(yīng)用。有以視頻 Demo 形式展示的,比如字節(jié)跳動(dòng)(ByteDance),他們以世界杯比賽視頻為例展示了基于計(jì)算機(jī)視覺(jué)的足球比賽理解技術(shù)。該技術(shù)能夠?qū)η騿T和足球進(jìn)行實(shí)時(shí)的追蹤和分割,并且能自動(dòng)生成鳥(niǎo)瞰圖。目前正值俄羅斯世界杯期間,這樣的展示很容易吸引參觀者圍觀。公司旗下的短視頻應(yīng)用非常火爆,他們也展示了對(duì)于短視頻中多人物的實(shí)時(shí)姿態(tài)檢測(cè),以及基于這些技術(shù)的有趣應(yīng)用,比如抖音尬舞機(jī),讓人印象深刻。
▲?字節(jié)跳動(dòng)的系統(tǒng)可以基于計(jì)算機(jī)視覺(jué),理解足球比賽技術(shù)
現(xiàn)場(chǎng)還有以視頻或?qū)嶓w模型形式來(lái)展示的公司,比如 Momenta、圖森科技、AURORA 等。京東展示了倉(cāng)庫(kù)巡邏機(jī)器人等無(wú)人倉(cāng)庫(kù)場(chǎng)景下的智能產(chǎn)品。還有以用戶互動(dòng)形式來(lái)展示的公司,比如商湯科技允許用戶坐在模擬駕駛位,展示其對(duì)司機(jī)駕駛狀態(tài)、目光注意力以及司機(jī)手勢(shì)的識(shí)別能力;Adobe 則允許用戶在觸摸板上畫(huà)出一個(gè)人像,然后算法會(huì)對(duì)其自動(dòng)上色。會(huì)場(chǎng)中,各個(gè)企業(yè)展示了涵蓋智能監(jiān)控、自動(dòng)駕駛、無(wú)人商店和智慧理療等多個(gè)重要領(lǐng)域的 AI 應(yīng)用,顯示出 AI 落地的廣闊前景。
除了在主會(huì)展示,各大企業(yè)都在不同場(chǎng)所分別組織了 party,邀請(qǐng) CVPR 的參會(huì)者參與。筆者參與了商湯、字節(jié)跳動(dòng)(旗下有今日頭條和抖音等產(chǎn)品)和 Momenta 的聚會(huì)。在活動(dòng)中,企業(yè)詳細(xì)介紹了自己的企業(yè)文化、主要產(chǎn)品和研究方向,以及未來(lái)的發(fā)展規(guī)劃。以字節(jié)跳動(dòng)為例,作為國(guó)內(nèi)發(fā)展勢(shì)頭迅猛的 AI 企業(yè),它已經(jīng)開(kāi)始了全球布局,例如在包括美國(guó)硅谷在內(nèi)的全球各地設(shè)立 AI 實(shí)驗(yàn)室,從而招募更多的行業(yè)精英。以數(shù)據(jù)挖掘、內(nèi)容推薦為驅(qū)動(dòng)的今日頭條吸引了大量用戶。基于視頻理解技術(shù),它在短視頻、視頻直播等應(yīng)用上也推出了極具創(chuàng)新的應(yīng)用,助使其打造 AI+ 娛樂(lè)應(yīng)用新模式。在宴會(huì)期間,筆者與同一桌的參會(huì)者進(jìn)行了交流。他們都是來(lái)自中國(guó)的在讀博士,除了一位來(lái)自英國(guó)帝國(guó)理工大學(xué),一位來(lái)自同濟(jì)大學(xué),其余都來(lái)自美國(guó)的各個(gè)不同大學(xué)。
值得注意的是,企業(yè)同時(shí)也是 CVPR 會(huì)議中重要的論文發(fā)表者。據(jù)統(tǒng)計(jì),論文發(fā)表數(shù)名列前茅的是,谷歌發(fā)表 45 篇,商湯科技發(fā)表 44 篇,Facebook 發(fā)表 35 篇,騰訊 AILab 發(fā)表 21 篇。可以看到,相關(guān) AI 企業(yè)展示出越來(lái)越強(qiáng)大的科研實(shí)力和科研熱情。產(chǎn)業(yè)界在實(shí)際應(yīng)用中會(huì)第一時(shí)間發(fā)現(xiàn)問(wèn)題、提出問(wèn)題并迅速尋找解決方案。通過(guò)學(xué)術(shù)論文的發(fā)表,產(chǎn)業(yè)界與學(xué)術(shù)界共同分享新的思路和想法,這對(duì)學(xué)術(shù)的發(fā)展起到了很好的推動(dòng)作用。如今,產(chǎn)業(yè)界和學(xué)術(shù)界的聯(lián)系越來(lái)越緊密,在 AI 領(lǐng)域,真正做到了高效的產(chǎn)學(xué)研結(jié)合,這對(duì)整個(gè) AI 生態(tài)的高效可持續(xù)發(fā)展是至關(guān)重要的。
研究熱點(diǎn)概覽
深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域繼續(xù)發(fā)揮重要作用。眾所周知,深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng)的,在這個(gè)數(shù)據(jù)為王的時(shí)代,收集和標(biāo)注大量的數(shù)據(jù)來(lái)訓(xùn)練模型往往是實(shí)際場(chǎng)景中提升性能最簡(jiǎn)單有效的辦法。然而,即便是有大量人力物力的企業(yè),也很難對(duì)手頭的海量數(shù)據(jù)完全標(biāo)注,因此,半監(jiān)督/弱監(jiān)督學(xué)習(xí)是一個(gè)十分重要的課題。
以語(yǔ)義分割任務(wù)為例,研究者往往會(huì)采用圖像類別標(biāo)簽進(jìn)行弱監(jiān)督學(xué)習(xí)。利用類別概率的響應(yīng)熱圖(class activation map 或 peak response map)產(chǎn)生初始分割,不同的文章在后續(xù)進(jìn)行各自的處理,從而實(shí)現(xiàn)弱監(jiān)督的圖像語(yǔ)義分割。
關(guān)于數(shù)據(jù)的另一個(gè)問(wèn)題是,即使我們?cè)谝粋€(gè)龐大的數(shù)據(jù)集上訓(xùn)練得到了很好的模型(以驗(yàn)證集為評(píng)價(jià)依據(jù)),當(dāng)我們將其投入實(shí)際應(yīng)用時(shí),可能會(huì)因?yàn)樵搱?chǎng)景下的數(shù)據(jù)分布與已有的數(shù)據(jù)分布有較大差異,性能明顯下降。例如,這一問(wèn)題在行人再識(shí)別中尤其明顯,由于攝像頭參數(shù)、光照等原因,實(shí)際場(chǎng)景可能會(huì)遇到分布很不相同的數(shù)據(jù)。遷移學(xué)習(xí)(Transfer Learning)是解決這一問(wèn)題的常用思路,這也是本次會(huì)議論文的一個(gè)重要方向。?
生成對(duì)抗網(wǎng)絡(luò)(GAN)依然火熱,在多種應(yīng)用中都發(fā)揮了重要作用。比如,本屆 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》,想要解決人臉檢測(cè)中尺度多變的問(wèn)題。為了更好地檢測(cè)圖像中較小的人臉,它利用生成器將低分辨率圖像轉(zhuǎn)換為高分辨率圖像,并設(shè)計(jì)了兩路的判別器,對(duì)高分辨率/低分辨率、人臉/背景進(jìn)行判斷。該方法能有效地對(duì)低分辨率的 proposal 進(jìn)行超分辨率變換,并且能保持其原有的類別(人臉或背景),從而有效地幫助檢測(cè)圖像中分辨率很低的人臉。在其他方面,我們也看到了許多關(guān)于 GAN 的應(yīng)用。
隨著深度學(xué)習(xí)應(yīng)用落地,在很多場(chǎng)景下可利用的存儲(chǔ)和計(jì)算資源受限,比如在手機(jī)端、自動(dòng)駕駛車輛上。因此,關(guān)于模型壓縮、計(jì)算加速的文章也是非常重要的課題。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》,提出了通過(guò)平移feature map和使用卷積的方式,來(lái)取代傳統(tǒng)的卷積,從而極大地縮小模型尺寸、減小計(jì)算量,并且由于去除了隱層特征中的冗余信息,該方法還能帶來(lái)識(shí)別率上的提升。
筆者來(lái)到這篇文章的 poster 面前時(shí),發(fā)現(xiàn)圍觀的人群已經(jīng)擠滿了位置。展板前面一位面似中國(guó)人的帥小伙在聲情并茂地為大家講解,而且他的口語(yǔ)十分地道。后來(lái)等到人群散去,我與他交流才發(fā)現(xiàn)原來(lái)他是美國(guó)人,不會(huì)說(shuō)中文。他看到我的名牌后說(shuō),他的 mentor,即本文的第一作者,也來(lái)自清華。我與這位學(xué)長(zhǎng)溝通后知道,原來(lái)他也是清華電子系畢業(yè),在伯克利讀博,已經(jīng)五年級(jí)了。他向我介紹了他們實(shí)驗(yàn)室目前在于自動(dòng)駕駛公司合作,做的項(xiàng)目專注于深度學(xué)習(xí)的模型壓縮、加速,以及基于激光雷達(dá)的語(yǔ)義分割等。他們還舉辦了本屆 CVPR 的一場(chǎng) workshop:Efficient Deep Learning for Computer Vision。筆者參加了這場(chǎng) workshop,有許多大牛來(lái)講解了在硬件資源受限的情況下,高效地設(shè)計(jì)和使用神經(jīng)網(wǎng)絡(luò)的相關(guān)技術(shù)和研究。?
獲得了 ImageNet 2017 冠軍的 Squeeze-and-Excitation Networks 也在現(xiàn)場(chǎng)進(jìn)行了講解,Oral 的時(shí)間雖然是早晨 8 點(diǎn)多,但依舊吸引了大批觀眾,Poster 前更是聚攏了一大群交流的學(xué)者。SE 架構(gòu)大幅提升了模型的精度。通過(guò)引入全局圖像的信息自動(dòng)對(duì)卷積特征重新分配權(quán)重,增強(qiáng)對(duì)分類有用的特征,而抑制無(wú)效或收益甚微的特征。在只引入極少的計(jì)算量和參數(shù)量的情況下,可以將現(xiàn)有的絕大多數(shù) CNN 的性能進(jìn)行大幅提升。
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 加入社區(qū)刷論文
總結(jié)
以上是生活随笔為你收集整理的CVPR 2018现场见闻的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 暑假没人带怎么办?还有我们为你推荐论文
- 下一篇: 从动力学角度看优化算法SGD:一些小启示