當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2018现场见闻

發布時間：2024/10/8 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2018现场见闻小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

關于作者：萬緯韜，本科畢業于清華大學電子工程系，現于清華大學信息認知與智能系統研究所攻讀博士二年級，主要研究方向包括基于深度學習的人臉檢測與識別，對抗樣本，圖像語義分割。

計算機視覺頂級會議 CVPR 于 2018 年于 6 月 18 日在美國鹽湖城召開。一年一度的 CVPR 收錄了來自全球學者的最新研究，這里不僅是學術界交流的盛會，還是產業界展示成果的平臺。隨著算法與硬件的飛速發展，計算機視覺、人工智能等技術在我們的生產和生活中的應用越來越普及，與此同時，CVPR 會議本身也在不斷地發展和變化。

CVPR 如同一個風向標，向我們展示了在最近一年里該領域的關注熱點和最優秀的成果。筆者全程參與了本屆 CVPR 會議，在這里與大家分享本屆會議的特點、最新的研究熱點和該領域相關企業的動向。

會議規模顯著擴大

今年 CVPR 的論文投遞數逾 3359 篇，相比去年增長約 25%。而論文接收率幾乎不變（約 29%），最終被接收的論文多達 979 篇。從如此大量的論文中挑選出符合 CVPR 品質的論文絕非易事，會議組織了 2385 名來自世界各地的優秀審稿人進行評審。同時，參會人數多達 6500 余人，比去年增長約 30%。

因此，正如會議的 general chair，Michael Brown 教授所說，參會者不可能在 5 天的時間里顧全所有的事情，你必須做出取舍，這樣才能充分的利用時間。的確如此，在主會議期間，每天都會并行地開展 3 場 oral/spotlight 報告，參會者需要提前了解并從中選擇自己最感興趣的話題來聽。

▲?圖說：CVPR的參會人數和投稿數都出現了大幅增長

除了論文數量明顯增長，今年贊助商的數量和贊助金額也明顯增長。會議擁有來自全世界的 149 家贊助商，共接收贊助/展示費用達 200 萬美元。可以看到，產業界對 CVPR 這一學術會議顯示出了極大的興趣，這也從側面反映了計算機視覺、人工智能等方面的研究在實際場景中有巨大應用價值。贊助商除了在會場以豐富的形式展示各自的產品和研究成果以外，還提供了大量的招聘和實習崗位，希望吸引來自該領域的精英加入他們。一部分參會者就是沖著這些名企的招聘來，對他們來說這里也相當于是一場招聘會。

值得注意的是，無論是論文發表還是贊助商方面，華人都貢獻了巨大的力量。在已接收的論文中，華人作者所占比重相當可觀。在 9 家鉆石贊助商中，中國企業就有 3 家；在 20 家鉑金贊助商中，中國企業占到 9 家。一個最直觀的感受是，在會議現場，中國人面孔非常普遍。在參加 poster 展覽時，常常一篇 poster 面前全是中國學者，這個時候作者也許會索性用中文給大家講解。參會的人面前都掛著自己的名牌，上面寫有姓名和學校/單位，會議現場常常有人看了一眼筆者的名牌，然后就開始用中文打招呼。在這種氛圍下，雖然身處美國，也有一種賓至如歸的感覺。

企業參與度極高

相關領域的企業通過多種方式深度參與了本次會議。

首先，在主會期間，大量贊助商在會場展示區通過多種形式展示了各自的研究和應用。有以視頻 Demo 形式展示的，比如字節跳動（ByteDance），他們以世界杯比賽視頻為例展示了基于計算機視覺的足球比賽理解技術。該技術能夠對球員和足球進行實時的追蹤和分割，并且能自動生成鳥瞰圖。目前正值俄羅斯世界杯期間，這樣的展示很容易吸引參觀者圍觀。公司旗下的短視頻應用非常火爆，他們也展示了對于短視頻中多人物的實時姿態檢測，以及基于這些技術的有趣應用，比如抖音尬舞機，讓人印象深刻。

▲?字節跳動的系統可以基于計算機視覺，理解足球比賽技術

現場還有以視頻或實體模型形式來展示的公司，比如 Momenta、圖森科技、AURORA 等。京東展示了倉庫巡邏機器人等無人倉庫場景下的智能產品。還有以用戶互動形式來展示的公司，比如商湯科技允許用戶坐在模擬駕駛位，展示其對司機駕駛狀態、目光注意力以及司機手勢的識別能力；Adobe 則允許用戶在觸摸板上畫出一個人像，然后算法會對其自動上色。會場中，各個企業展示了涵蓋智能監控、自動駕駛、無人商店和智慧理療等多個重要領域的 AI 應用，顯示出 AI 落地的廣闊前景。

除了在主會展示，各大企業都在不同場所分別組織了 party，邀請 CVPR 的參會者參與。筆者參與了商湯、字節跳動（旗下有今日頭條和抖音等產品）和 Momenta 的聚會。在活動中，企業詳細介紹了自己的企業文化、主要產品和研究方向，以及未來的發展規劃。以字節跳動為例，作為國內發展勢頭迅猛的 AI 企業，它已經開始了全球布局，例如在包括美國硅谷在內的全球各地設立 AI 實驗室，從而招募更多的行業精英。以數據挖掘、內容推薦為驅動的今日頭條吸引了大量用戶。基于視頻理解技術，它在短視頻、視頻直播等應用上也推出了極具創新的應用，助使其打造 AI+ 娛樂應用新模式。在宴會期間，筆者與同一桌的參會者進行了交流。他們都是來自中國的在讀博士，除了一位來自英國帝國理工大學，一位來自同濟大學，其余都來自美國的各個不同大學。

值得注意的是，企業同時也是 CVPR 會議中重要的論文發表者。據統計，論文發表數名列前茅的是，谷歌發表 45 篇，商湯科技發表 44 篇，Facebook 發表 35 篇，騰訊 AILab 發表 21 篇。可以看到，相關 AI 企業展示出越來越強大的科研實力和科研熱情。產業界在實際應用中會第一時間發現問題、提出問題并迅速尋找解決方案。通過學術論文的發表，產業界與學術界共同分享新的思路和想法，這對學術的發展起到了很好的推動作用。如今，產業界和學術界的聯系越來越緊密，在 AI 領域，真正做到了高效的產學研結合，這對整個 AI 生態的高效可持續發展是至關重要的。

研究熱點概覽

深度學習在計算機視覺領域繼續發揮重要作用。眾所周知，深度學習是數據驅動的，在這個數據為王的時代，收集和標注大量的數據來訓練模型往往是實際場景中提升性能最簡單有效的辦法。然而，即便是有大量人力物力的企業，也很難對手頭的海量數據完全標注，因此，半監督/弱監督學習是一個十分重要的課題。

以語義分割任務為例，研究者往往會采用圖像類別標簽進行弱監督學習。利用類別概率的響應熱圖（class activation map 或 peak response map）產生初始分割，不同的文章在后續進行各自的處理，從而實現弱監督的圖像語義分割。

關于數據的另一個問題是，即使我們在一個龐大的數據集上訓練得到了很好的模型（以驗證集為評價依據），當我們將其投入實際應用時，可能會因為該場景下的數據分布與已有的數據分布有較大差異，性能明顯下降。例如，這一問題在行人再識別中尤其明顯，由于攝像頭參數、光照等原因，實際場景可能會遇到分布很不相同的數據。遷移學習（Transfer Learning）是解決這一問題的常用思路，這也是本次會議論文的一個重要方向。?

生成對抗網絡（GAN）依然火熱，在多種應用中都發揮了重要作用。比如，本屆 CVPR 的 oral 文章《Finding Tiny Faces in the Wild with Generative Adversarial Network》，想要解決人臉檢測中尺度多變的問題。為了更好地檢測圖像中較小的人臉，它利用生成器將低分辨率圖像轉換為高分辨率圖像，并設計了兩路的判別器，對高分辨率/低分辨率、人臉/背景進行判斷。該方法能有效地對低分辨率的 proposal 進行超分辨率變換，并且能保持其原有的類別（人臉或背景），從而有效地幫助檢測圖像中分辨率很低的人臉。在其他方面，我們也看到了許多關于 GAN 的應用。

隨著深度學習應用落地，在很多場景下可利用的存儲和計算資源受限，比如在手機端、自動駕駛車輛上。因此，關于模型壓縮、計算加速的文章也是非常重要的課題。比如 UC Berkeley 提出的《Shift: A Zero FLOP, Zero Parameter Alternative to Spatial Convolutions》，提出了通過平移feature map和使用卷積的方式，來取代傳統的卷積，從而極大地縮小模型尺寸、減小計算量，并且由于去除了隱層特征中的冗余信息，該方法還能帶來識別率上的提升。

筆者來到這篇文章的 poster 面前時，發現圍觀的人群已經擠滿了位置。展板前面一位面似中國人的帥小伙在聲情并茂地為大家講解，而且他的口語十分地道。后來等到人群散去，我與他交流才發現原來他是美國人，不會說中文。他看到我的名牌后說，他的 mentor，即本文的第一作者，也來自清華。我與這位學長溝通后知道，原來他也是清華電子系畢業，在伯克利讀博，已經五年級了。他向我介紹了他們實驗室目前在于自動駕駛公司合作，做的項目專注于深度學習的模型壓縮、加速，以及基于激光雷達的語義分割等。他們還舉辦了本屆 CVPR 的一場 workshop：Efficient Deep Learning for Computer Vision。筆者參加了這場 workshop，有許多大牛來講解了在硬件資源受限的情況下，高效地設計和使用神經網絡的相關技術和研究。?

獲得了 ImageNet 2017 冠軍的 Squeeze-and-Excitation Networks 也在現場進行了講解，Oral 的時間雖然是早晨 8 點多，但依舊吸引了大批觀眾，Poster 前更是聚攏了一大群交流的學者。SE 架構大幅提升了模型的精度。通過引入全局圖像的信息自動對卷積特征重新分配權重，增強對分類有用的特征，而抑制無效或收益甚微的特征。在只引入極少的計算量和參數量的情況下，可以將現有的絕大多數 CNN 的性能進行大幅提升。

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 加入社區刷論文

總結

以上是生活随笔為你收集整理的CVPR 2018现场见闻的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：暑假没人带怎么办？还有我们为你推荐论文
下一篇：从动力学角度看优化算法SGD：一些小启示