CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文
導語:本文將分組介紹計算機視覺頂級會議 CVPR 中騰訊 AI Lab 的重點研究方向和入選論文。
計算機視覺頂級會議 CVPR 2019 將于 6 月 15 日– 6 月 21 日在加利福尼亞州長灘舉辦,今年騰訊公司共有 58 篇論文入選,其中騰訊 AI Lab 33 篇(含 8 篇oral),騰訊優圖實驗室 25 篇。騰訊 AI Lab 入選論文涉及視頻理解、人臉識別、對抗攻擊、視覺-語言描述、模型壓縮和多任務學習等幾大重點研究方向,下面將分組介紹論文。往年參會入選論文可見公眾號歷史文章。
注:本文分組方式并不嚴格,部分論文同時分屬多個主題。
對抗攻擊
Against?Attack
深度神經網絡在很多應用領域都取得了驚人的效果,比如圖像分類和人臉識別。但與此同時,深度神經網絡也是十分脆弱的。最典型的例子就是對抗攻擊,具體而言,在輸入樣本(比如圖像)上加入人類難以察覺的微小噪聲,可以讓深度神經網絡的預測出現嚴重偏差。對抗攻擊的研究,對于加強深度神經網絡的安全性以及可解釋性,具有很重要的意義。以往大多數研究工作集中在白盒對抗攻擊和非結構化輸出模型的攻擊,而我們CVPR 2019的入選論文重點研究了更具挑戰的黑盒對抗攻擊,和對結構化輸出模型的攻擊。
1.針對人臉識別的基于決策的高效黑盒對抗攻擊方法?
Efficient Decision-based Black-box Adversarial Attacks on Face Recognition
本文由騰訊AI Lab主導,與清華大學合作完成,是在黑盒對抗攻擊領域的一項重要探索。近年來,基于深度卷積神經網絡的人臉識別取得了顯著的成就。但是,深度卷積神經網絡很容易受到對抗樣本的攻擊。因此,人臉識別系統的安全性也可能受到很大的威脅。
為了驗證當前最先進人臉識別模型的安全性能,我們研究了基于決策的黑盒攻擊,即無法獲知人臉識別模型的參數或結構,只能通過詢問來獲取模型的結果。這種設定完全符合現實情況下的攻擊情形。我們提出了一種基于進化算法的高效攻擊方法,其充分利用了搜索空間的局部幾何特性,并通過對搜索空間進行降維來提高攻擊效率。實驗表明我們的攻擊方法比已有的黑盒攻擊方法更高效。同時,我們還對第三方人臉識別系統進行了攻擊驗證,也充分展示了我們方法的優越性能。
2.基于帶有隱變量的結構化輸出學習的圖像描述精準對抗攻擊?
Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables
本文由騰訊AI Lab 主導,與電子科技大學合作完成,探索了對圖像描述模型實現精準對抗攻擊的方法。對抗攻擊對深度學習模型存在嚴重威脅,揭示了深度神經網絡的脆弱性。研究對抗攻擊有助于理解深度學習模型的內部機制,也能幫助提升模型的安全性,具有非常高的研究和實用價值。已有對抗攻擊方法主要以帶有獨立輸出的模型為攻擊對象,但很多問題的輸出結果往往是結構化的,比如在基于 CNN+RNN 的圖像描述問題中,輸出是一個序列。
我們以基于 CNN+RNN 的圖像描述模型為具體對象,在業內第一次定義了“精準結構化攻擊”,即通過優化對抗樣本,迫使模型在特定位置輸出特定的詞。由于輸出序列內部的關聯性,現有的針對獨立輸出的攻擊方法無法在序列輸出問題中實現精準攻擊。
我們的具體做法是將精準結構化攻擊問題建模成帶有隱變量的結構化輸出學習模型;此外我們還展示了兩種優化算法。我們對當前最流行的圖像描述模型進行了精準攻擊實驗,結果展現了非常高的攻擊成功率和非常低的對抗噪聲。
另外,我們還將精準結構化攻擊算法作為探測結構化輸出空間的工具,揭示出當前圖像描述模型還沒有很好地掌握人類的語法規則,比如被動語態和定語從句。這為進一步縮小圖像描述模型與人類描述的差距指明了方向。同時,本文所提出的模型和算法與具體圖像描述模型無關,可輕松地用于攻擊其它結構化模型。
視頻深度理解
Deep?Understanding of?Videos
機器要理解世界,就必需要處理和分析周圍動態環境能力。視頻的分析與處理在移動機器人、自動駕駛、監控視頻分析等許多應用中都是至關重要的技術,甚至關乎使用者的生命安全。同時,近些年基于卷積神經網絡(CNN)的方法已經在靜態圖像分析方面取得了重大的進展和突破,所以計算機視覺領域的研究重心也正向動態的視頻領域傾斜。
與靜態的圖像處理相比,視頻分析面臨著一些特有的難題,比如識別、跟蹤與重新判定視頻中目標的身份,預測目標的運動軌跡,多目標跟蹤,分析視頻內容并提取相關片段等。
騰訊 AI Lab 入選的 33 篇論文中有 9 篇與視頻直接相關,涉及到光流學習、視頻對象分割、目標跟蹤和視頻定位等多個研究方向
1.一種自監督的光流學習方法
SelfFLow: Self-Supervised Learning of Optical Flow
本文由騰訊AI Lab 主導,與香港中文大學合作完成,是CVPR oral 展示論文之一。光流是計算機視覺的一個基本任務,它描述了運動的信息,也有很多應用場景,比如物體跟蹤、視頻分析、三維重建、自動駕駛等。我們探索了使用卷積神經網絡估計光流的一個關鍵挑戰:預測被遮擋像素的光流。
首先,我們提出了一種從沒有標注的數據中學習光流的自監督框架。這個方法會人為創造一些遮擋,然后利用已經學習到的比較準確的沒有被遮擋像素的光流去指導神經網絡學習被遮擋像素的光流。
其次,為了更好地學習光流,我們設計了一個可以利用多幀圖像時序連續性的網絡結構。基于這兩個原則,我們的方法在MPI Sintel、KITTI 2012和KITTI 2015等數據集上取得了最好的無監督效果。更重要的是,我們的無監督方法得到的模型能為有監督的微調提供一個很好的初始化。經過有監督微調,我們的模型在以上三個數據集上取得了目前最優的性能。在寫這篇文章的時候,我們的模型在Sintel數據集上取得EPE=4.26 的成績,超過所有已經提交的方法。
框架概況:左側是每一層級的網絡架構,右側是我們的自監督訓練策略
2.MHP-VOS: 基于多假設傳播的視頻對象分割
MHP-VOS: Multiple Hypotheses Propagation for Video Object Segmentation
本文由騰訊AI Lab與華中科技大學合作完成,是CVPR oral 展示論文之一。本文首先闡述了半監督視頻對象分割(VOS)問題,其中感興趣的對象的掩碼在輸入視頻的第一幀中給出。要處理對象被遮擋或丟失的高難度案例,以前的工作依賴于貪婪的數據關聯策略為每幀單獨制定決策。在本文中,我們提出了一種對于每個幀中的目標對象推遲決策的新方法,直到全局地考慮了整個視頻后才進行決策。
我們的方法與多假設跟蹤(MHT)方法一脈相承,但也進行了幾項關鍵的修改以適用于VOS問題。我們使用的是掩模假設而不是方框假設,這能讓我們設計出更專門定制的VOS算法。具體來說,從第一幀中的初始對象掩碼開始,通過將前一幀的掩模傳播到后一幀門控區域里檢測到的方框建議來生成多個假設。該門控區域是通過一種門控方案來確定的,該方案考慮了更全面的運動模型,而不是傳統MHT中的簡單卡爾曼濾波模型。我們設計了一個全新的掩模傳播分數,而不是MTH中的外觀相似度分數,因為外觀相似度分數在物體變形較大時不夠魯棒。該掩模傳播分數與運動分數一起,共同確定了多個假設之間的親近關系,這個親近關系可以用于后續的假設樹的剪枝算法。
此外,我們還提出了一種新穎的掩模合并策略,用以處理多個被跟蹤物體之間的掩模沖突。實驗表明,該方法能有效處理具有挑戰性的數據集,特別是在對象丟失的情況下。
3.PA3D:基于3D 姿態-動作的視頻識別
PA3D: Pose-Action 3D Machine for Video Recognition
本文由騰訊AI Lab與中國科學院深圳先進技術研究院合作完成。目前大多數動作識別方法都采用3D CNN提取特征,但這些方法都是基于RGB和光流,并未完全利用動作的動態變化規律。本文提出的精確Pose-Action 3D Machine方法能夠在統一的 3D 框架下有效地編碼多種姿態以及學習時空域姿態表征,進而實現更好的動作識別。我們在三個公開數據集上進行了測試,結果表明本文提出的方法優于已有的基于姿態的動作識別方法。?
4.具有目標感知能力的追蹤框架
Target-Aware Deep Tracking
本文由哈爾濱工業大學、騰訊AI Lab、上海交通大學與加州大學默塞德分校合作完成,提出了一種具有目標感知能力的追蹤框架。當前基于深度學習的追蹤方法常使用的深度特征提取都是在分類任務上預訓練好的。盡管這樣的做法在多個視頻領域取得了很大的成功,但是在追蹤領域中,其有效性還未得到深入挖掘。
關鍵原因是在追蹤任務中,目標物體類別和形式是未知的和不確定的,只有在追蹤開始時才確定。直接使用在類別固定的分類任務上訓練的深度特征,難以對追蹤中的目標進行有效地建模。為此,我們提出了一個基于梯度值的機制去學習能夠感知目標的特征。鑒于此,我們構建了一個回歸損失和一個排序損失來分別指導模型,生成能夠有效表征目標的特征和對于目標大小變化敏感的特征。
具體來講,我們首先利用反向傳播算法計算每個損失對于各個濾波器的梯度,然后根據梯度值的大小來確定每個濾波器的重要性,以此來生成適用于追蹤的特征。我們將具有目標感知性的特征用于孿生網絡框架來實現追蹤。大量的實驗結果表明,相較于當前的主流方法,我們提出的方法不論是在準確率方面還是在運行速度方面都能取得不錯的效果。
5.深度無監督式目標跟蹤
Unsupervised Deep Tracking
本文由騰訊AI Lab主導,與中科大和上海交通大學合作完成,提出了一種基于無監督學習的目標跟蹤方法。不同于之前的利用大量標注數據的監督學習方法,我們是利用未標注的視頻數據來訓練深度卷積網絡。我們的啟示是一個魯棒的跟蹤器應當在前向和后向的跟蹤過程中均有效,即跟蹤器能夠前向跟蹤目標物體并逐幀回溯到第一幀的初始狀態。我們利用孿生網絡實現了新提出的方法,該網絡完全由沒有標注的視頻數據訓練而成。
與此同時,我們提出了一個利用多軌跡優化和損失敏感的衡量函數來進一步提升跟蹤性能。單純利用無監督學習方法,我們的跟蹤器就能達到需要精確和完整訓練數據的全監督學習的基本水平。更值得關注的是,我們提出的無監督學習框架能夠更深入地利用未標注或者部分標注的數據來進一步提升跟蹤性能。
6.基于WarpLSTM的時空視頻再定位
Spatio-Temporal Video Re-localization by Warp LSTM
本文由騰訊AI Lab主導,與羅切斯特大學合作完成。隨著網絡上視頻井噴式的增長,高效地找到用戶想要的視頻的需求也隨之增長。現有的基于關鍵詞的檢索方法只能獲知某些視頻內容存在與否,并不能獲知視頻內容出現的時間和位置。本文提出了定位視頻內容出現的時間和位置的時空視頻再定位任務。給出一個查詢視頻和一個備選視頻,時空視頻再定位任務的目標是在備選視頻當中找到一個和查詢視頻相關的時空片段。
為了準確地定位,我們提出了一個新的WarpLSTM網絡,這種網絡的優勢是它可以提取視頻當中的長時間的時空信息。為了解決時空視頻再定位問題遇到的另外一個困難,即缺少標注數據,我們重新組織了AVA數據集當中的視頻,得到了一個用于時空再定位研究的新數據集。實驗表明我們提出的模型能取得優于基線方法的定位結果。
7.不是所有幀都相同:基于上下文相似度和視覺聚類損失的弱監督視頻定位
Not All Frames Are Equal: Weakly Supervised Video Grounding with Contextual Similarity and Visual Clustering Losses
本文由騰訊AI Lab與羅徹斯特大學合作完成。我們研究的問題是僅提供視頻層面的句子描述的弱監督視頻定位,即在沒有物體位置標注的情形下將語言的關鍵詞定位到視頻中的空間中。這是一個有挑戰性的任務;首先,視頻中有許多幀,會出現幀和語言描述不一定匹配的不一致問題;其次,盡管網絡中有大量的視頻,但是標注物體位置具有高昂的成本。并且。之前的基于多示例學習(MIL)的圖像定位方法難以有效用于視頻定位。最近的工作試圖將視頻層級的MIL分解為幀級別的MIL,通過將句子與幀之間的相似度作為權重作用到每一幀上,但是這樣做并不魯棒并且無法利用豐富的時序信息。
在本文中,我們利用假陽性幀包(frame-bag)限制來擴展幀級別的MIL,并且建模了視頻時序特征一致性。特別地,我們設計了形義和視覺特征的上下文相似度,從而克服物體在幀與幀之間的稀疏問題。更進一步,我們通過強化視覺空間中相似的特征來利用時序上的連貫性。我們在YouCookII和RoboWatch數據集上全面評估了這個模型,結果表明我們的方法較之間方法能夠大幅度提升性能。
8.基于多粒度分析的時序動作提名生成器
Multi-granularity Generator for Temporal Action Proposal
本文由騰訊AI Lab主導,與東南大學、哥倫比亞大學合作完成。時序動作提名是一項重要任務,其目的在于定位未修剪視頻中含有人類動作的視頻片段。我們提出了使用多粒度生成器來完成時序動作提名,其能從不同的粒度分析視頻并嵌入位置信息。
首先,我們使用雙線性匹配模塊來探索視頻序列中豐富的局部信息,隨后我們提出的片段動作生產器和幀動作生成器兩個模塊能從不同的粒度分析視頻。片段動作生產器以粗粒度的方式,通過特征金字塔的形式感知整個視頻并產生長度各異的動作提名;幀動作生成器則對每一個視頻幀采取細粒度的分析。雖然多粒度生成器涉及多個模塊,在訓練過程中卻能以端到端的形式進行。基于幀動作生成器細粒度的分析,片段動作生產器產生的動作提名可以被進一步位置微調,從而實現更精準的定位。
因此,相比于目前最優的模型,多粒度生成器在兩個公開的數據集ActivityNet1.3和Thumos14上都獲得了更好的效果。另一方面,在多粒度生成器產生的動作提名基礎上采用現有的分類器進行分類,相比于目前性能較優的視頻檢測方法,多粒度生成器都獲得了明顯的提升。
9.基于預測運動和外觀統計量的自監督視頻時空表征學習
Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics
本文由騰訊AI Lab與香港中文大學、華南理工大學合作完成。本文首先闡述了在無人工標注標簽時的視頻表征學習問題。雖然之前也有工作通過設計新穎的自監督任務來進行視頻的表征學習,但學習的表征一般都基于單幀圖像,而無法用于需要多幀時空特征的主流視頻理解任務。我們在本文中提出了一種新穎的自監督方法,可學習視頻的多幀時空表征。
受到視頻分類任務中的two-stream類方法的啟發,我們提出通過回歸時空兩個維度的運動和外觀的統計量來進行視覺特征學習。
具體來說,我們在多個視頻幀的時空兩個維度上提取一些統計概念(例如快速運動區域及其相應的主要運動方向、時空上的色彩多樣性、主導顏色等)。不同于之前的一些預測稠密像素值的方法,我們提出的方法與人類固有的視覺習慣一致,并且易于學習。我們用C3D作為基干網絡進行了大量實驗,結果表明該方法可以顯著提高C3D用于視頻分類等任務時的性能。
人臉
Human?Face
人臉分析與識別已經在一些娛樂、安檢和身份校驗等應用中得到了實際應用,但該領域仍存在一些有待解決的問題,比如如何適應視角變化、如何在不同的環境(比如弱光環境)中有效工作、如何鑒別被識別的臉是否真實、如何判別相似的人臉(比如臉部一樣的雙胞胎)、如何識別特殊的人臉(比如受傷或有偽裝的人臉)以及分析人臉隨時間的變化。另外,人臉的重建也是很重要的研究方向,在游戲和虛擬助手等方面有很有價值的應用前景。
騰訊 AI Lab 今年有多篇與人臉相關的研究論文入選 CVPR,涉及到跨年齡人臉識別、人臉活體檢測和、多視角 3D 人臉重建、人臉面部動作單位強度估計、人臉識別系統的對抗攻擊研究等方向。其中,在人臉活體檢測方面的研究與我們支持的云智慧眼業務密切相關,這是我們在公司內首推而且在 H5 場景下屬于業界首創的靜默活體檢測技術(靜默活體檢測指的是不需要用戶交互配合即可完成人臉活體檢測,非常易用。
1.人臉活體檢測:模型很重要,數據也是?
Face Anti-Spoofing: Model Matters, So Does Data
本文由騰訊AI Lab主導,與上海交通大學合作完成,為人臉活體檢測提出了一種新模型和新的數據收集方法。活體檢測在全棧的人臉應用中扮演著重要的必不可少的角色,它的目的是為了檢測攝像頭前的人臉是真人樣本還是偽造的攻擊樣本(比如翻拍的人臉照片或者預先錄制的人臉視頻等)。
以往方法的模型通常基于一些不能很好模擬真實場景的數據庫,這會影響到模型的泛化性能。本文提出了一種數據收集的解決方案,可以很好地模擬真實的活體攻擊,從而能以很低的成本快速獲取大量訓練數據。
我們還開發了一個利用時空信息的活體檢測模型,將當前公開數據庫上面的性能推進了一大步。我們的模型可以自動關注有助于區分活體和非活體的局部區域,這也能幫助我們分析網絡的行為。實驗結果也表明我們的模型可以關注到摩爾紋、屏幕邊緣等一些區域,進而實現更好的活體檢測。
2.針對跨年齡人臉識別的去相關對抗學習
Decorrelated Adversarial Learning for Age-Invariant Face Recognition
本文由騰訊AI Lab獨立完成。跨年齡人臉識別問題受到了非常廣泛的研究關注。然而,識別年齡間隔較大的人臉圖像仍然非常具有挑戰性,這主要是因為年齡變化會引起人臉圖像呈現出較大的差異。
為了減少年齡變化所造成的差異,本文提出一個全新的算法,目的在于去除混合了身份和年齡信息的人臉特征中的年齡成分。具體而言,我們將混合的人臉特征分解成為兩個不相關的組成成分:身份成分和年齡成分,其中的身份成分包含了對人臉識別有用的信息。
為了實現這個想法,我們提出去相關的對抗學習算法,其中引入了一個典型映射模塊,用于得到生成的成分特征之間的最大相關性,與此同時主干網絡和特征分解模塊則用于生成特征以最小化這個相關性。這樣,主干網絡能夠學習得到身份特征和年齡特征并使得其相關性顯著降低。與此同時,身份特征和年齡特征通過身份保持和年齡保持的監督信號進行學習,以確保它們的信息正確。我們在公開的跨年齡人臉識別數據集(FG-NET、MORPH Album 2 和 CACD-VS)進行了實驗,結果表明了這個方法的有效性。
3.MVF-Net: 多視角3D人臉可變形模型的參數回歸?
MVF-Net:? Multi-View 3D Face Morphable Model Regression
本文由騰訊AI Lab主導,與香港中文大學合作完成。本文闡述的問題是用多視角人臉圖片作為輸入重建3D人臉模型。雖然最新的基于3D人臉可變形模型(3DMM)的方法取得了不少進步,但大部分工作仍局限于單張照片的輸入。
單張照片3D人臉重建有一個內在的缺點:缺乏3D約束會導致無法解決的幾何結構混淆。我們在本文中探索了給定多視角人臉照片輸入的設定下進行基于3DMM的3D人臉重建問題。我們提出了一種全新的使用端到端卷積神經網絡來回歸3DMM參數的方法。在這個方法中,通過使用一種新型的自監督視角對齊損失函數,模型能建立不同視角之間的稠密像素對應關系,從而引入多視角幾何約束。
該新型損失函數使用可導的光流估計模塊將投影合成的目標視角圖像與原始輸入圖像之間的對齊誤差反向傳播回3DMM參數的回歸中。這樣就能在最小化損失函數的過程中恢復對齊誤差較小的3D形狀。實驗驗證了多視角照片輸入相對于單張照片輸入的優勢。
4.基于聯合表征和估計器學習的人臉面部動作單元強度估計?
Joint Representation and Estimator Learning for Facial Action Unit Intensity Estimation
本文由騰訊AI Lab主導,與中科院自動化研究所和美國倫斯勒理工學院合作完成,提出了一種用于人臉面部動作單元強度估計的新方法。人臉面部動作單元描述的是人臉上局部的肌肉運動,對其強度的估計面臨著兩個難題:其表觀變化難以捕捉;含有面部動作單元標注的數據集較少。
我們針對這些難題提出了一個樣本特征和回歸模型聯合學習框架。該框架可以靈活地嵌入各種形式的先驗知識,且僅需少量標注數據集即可進行模型學習。實驗結果表明,該方法在標注數據較少時能得到比現有算法更好的結果。深度學習模型可視為聯合學習特征和回歸的模型,但訓練數據不足時會發生嚴重的過擬合;而我們提出的方法即使僅有 2% 的標注數據,也依然可以達到較好的效果。
視覺-語言技術
Visual -?Language?Technology
視覺和語言是人類了解世界以及與世界交流的兩種主要方式,深度學習技術的發展為這兩個原本相對獨立的學科搭建了橋梁,使這個交叉領域成為了計算機視覺和自然語言處理的重要研究方向。這個研究方向的基本問題是用語言描述圖像或視頻中的內容,在此基礎上,我們可以查詢圖像或視頻中與語言描述相關的部分,甚至根據語言描述的內容生成對應的視覺內容。視覺-語言技術在視頻網站、視頻處理、游戲以及與人溝通的機器人等許多領域都會有重要的應用。
騰訊 AI Lab 有多篇 CVPR 入選論文探索了這一技術領域的新方法,除了下面的兩篇,上文“視頻”部分也介紹了基于語言查詢定位視頻片段的研究。
1.基于詞性的快速準確且多樣化的圖像生成自然語言描述方法?
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
本文由美國伊利諾伊大學香檳分校(UIUC)與騰訊AI Lab 合作完成,是CVPR oral 展示論文之一,提出了一種新的基于輸入圖像生成自然語言描述的方法。針對輸入的圖像,我們首先生成有語義的圖像總結,然后利用這種圖像總結來產生自然語言描述。我們利用詞性標簽序列來表達這種總結內容,再利用這種表達來驅動圖像描述的生成。
我們的方法實現了?
(1)更高的準確率;
(2)比傳統波束搜索等更快的多樣化句子生成速度;
(3)更加多樣化的語言描述。
2.無監督圖像描述生成
Unsupervised Image Captioning
本文由騰訊 AI Lab 主導,與羅切斯特大學合作完成,提出了一種無監督圖像描述生成模型。深度神經網絡模型在圖像描述任務上取得了巨大的成功。但是大多數現有的圖像描述模型都依賴圖像-句子對,而這種圖像-句子對的收集過程又成本高昂。本文首次嘗試用無監督的方式來訓練圖像描述模型。
我們提出的方法僅需要一個圖片集、一個句子集和一個已有的檢測模型。我們用句子集來讓圖像描述模型學習如何生成通順的句子,同時我們把檢測模型的知識蒸餾到圖像描述模型當中,從而使得后者可以識別圖像內容。為了讓圖像和生成的描述更加相關,我們把圖像和描述語句投影到了同一個語義空間。因為已有的句子集主要是為語言研究設計的,它們涉及的圖像內容不多,并不適合用于無監督圖像描述研究。所以我們從網上下載了二百萬個圖像描述用于此項研究。實驗表明我們提出的模型可以在沒有使用任何標注句子的情況下,生成合理的圖片描述。
圖像分割?
Image Segmentation
圖像分割是指將圖像細分為多個圖像子區域(像素的集合)的過程,可簡化或改變圖像的表示形式,使得圖像更容易理解和分析。圖像分割可用于定位圖像中的物體和邊界,這在移動機器人和自動駕駛等需要對目標的范圍有精確判定的應用中具有非常重要的價值。圖像分割方面的難題包括如何設定不同的分割層次、分析不常見目標的形狀、不同視角與深度的場景、對遮擋情況的處理以及邊緣的精確認定等等。
騰訊AI Lab 有多篇 CVPR 入選論文在圖像和視頻分割上做出了有價值的貢獻。除了前文用于視頻對象分割的 MHP-VOS,我們還提出了一種不依賴于物體檢測的人體實例分割方法,并為之創造了一個新的數據集。另外,我們還探索了室內場景形義分割與人群計數問題。
1.Pose2Seg:不依賴于物體檢測的人體實例分割
Pose2Seg: Detection Free Human Instance Segmentation
本文由騰訊AI Lab、清華大學和卡迪夫大學合作完成,提出了一種不依賴于物體檢測的人體實例分割方法和一個新的數據集。目前主流的圖像實例分割方法大多需要首先從圖像中檢測物體的包圍框,然后從包圍框中分割目標對象。Mask R-CNN 等最新的一些工作將這兩個步驟合二為一。
但是很少有研究考慮到“人”這一類別的特殊性——“人”不僅可以通過包圍框定位實例,還可以通過骨骼姿態檢測來定位。同時,在一些嚴重遮擋的情況下,相比于包圍框,人體骨骼姿態可以更有效地區分不同的實例。
本文提出了一種全新的基于姿態的人體實例分割框架,可通過人體姿態檢測來分離實例。我們通過大量實驗證明了基于姿態的實例分割框架可以比最先進的基于包圍框的實例分割方法獲得更好的準確性,同時還可以更好地處理遮擋情況。
此外,由于目前很少有公開數據集包含大量的豐富標注的嚴重遮擋實例,使得遮擋問題很少被研究者注意到。在本文中我們還公開了一個新的數據集“Occluded Human (OCHuman)”。這個數據集包含4731張圖像,有8110個詳細標注的人體實例。標注信息包括包圍框、實例分割掩碼以及人體姿態關鍵點。全部人體實例都存在嚴重的互相遮擋,因此這個數據集是目前最有挑戰的數據集。通過這個數據集,我們希望強調遮擋問題的挑戰性,并推動在檢測以及分割中對遮擋問題的研究。
2.基于幾何感知知識蒸餾方法的室內場景形義分割
Geometry-Aware Distillation for Indoor Semantic Segmentation
本文由騰訊AI Lab與伊利諾伊大學香檳分校、香港城市大學合作完成,提出了一種新的室內場景語義分割方法。已有研究表明,聯合推理來自RGB-D域的2D外觀和3D信息有利于室內場景語義分割。然而,大多數現有方法需要精確的深度圖作為輸入來分割場景,這嚴重限制了它們的應用。
在本文中,我們提出通過提取幾何感知嵌入特征來聯合推斷語義和深度信息,以消除這種強約束,同時仍然利用有用的深度域信息。
此外,我們還提出了幾何感知傳播框架和多級跳過特征融合模塊,可使用這種學習嵌入來提高語義分割的質量。通過將單個任務預測網絡解耦為語義分割和幾何嵌入學習這兩個聯合任務,加上我們提出的信息傳播和特征融合架構,我們在若干公開的具有挑戰性的室內數據集上進行了實驗,結果表明我們的方法可以超過目前最先進的語義分割方法。
應用價值:
3.基于殘差回歸和形義先驗的人群計數
Residual Regression with Semantic Prior for Crowd Counting
本文由騰訊AI Lab主導,與香港城市大學合作完成。人群計數是一個很有挑戰性的問題。最近基于深度學習的方法雖然取得了一些進展,但是樣本之間的相關性帶來的知識還沒被全面挖掘。本文提出了利用殘差回歸來學習樣本之間的相關性。通過融入相關性,我們實現了人群計數性能的提升。我們也展示了怎樣如何有效地利用形義先驗來提升模型性能。另外我們還觀察到對抗損失可以用來提升預測的密度圖質量,繼而提升結果。實驗結果證明了我們方法的有效性和泛化能力。
機器學習和優化方法
Machine?Learning and?Optimization?Methods
基于卷積神經網絡的深度學習確實已經推動計算機視覺領域實現了巨大的進步,但這個方法還遠非完美,在少樣本學習、學習效率和泛化能力等問題上還有很多改進的空間。同時,人工智能研究界也在不斷探索新的機器學習方法以及為各種機器學習技術提供理論驗證和支持。
今年的 CVPR 上,我們入選的論文涵蓋單樣本學習、開放域學習、模型壓縮、多任務與自適應學習等多個研究方向,也在訓練方法等方面做出了一些理論研究貢獻——我們首次提出了一種全新的用于保證 Adam/RMSProp 的全局收斂性的充分條件,還提出了一種用于稀疏廣義特征值問題的分解算法。
1.為視覺環境構建動態樹結構的學習方法
Learning to Compose Dynamic Tree Structures for Visual Contexts
本文由騰訊AI Lab與新加坡南洋理工大學合作完成,是CVPR oral 展示論文之一。我們提出了一種動態樹構建方法,可將圖像中的物體放置到一個完整的視覺環境中。該方法有助于解決場景圖生成、視覺問答等視覺推理問題。
相比于現有的結構化物體表示方法,我們提出的視覺環境樹模型VCTree具有兩大優點:1)二叉樹非常高效且具有很強的表示能力,可以學習物體之間內在的并行或層次關系(例如,“衣服”和“褲子”往往同時出現,且它們都屬于人的一部分);2)不同圖像和任務的動態結構往往各有不同,我們的模型能捕獲這種變化,從而在物體之間傳遞依賴于具體圖像內容和任務的信息。
在構建VCTree時,我們設計了一種評分函數來計算每一對物體和給定任務的有效性,從而得到物體之間的評分矩陣。然后我們在該評分矩陣上構建最大生成樹,并進行二值化。隨后,我們采用雙向樹LSTM模型對VCTree進行編碼,并利用任務相關的模型進行解碼。我們開發了一種混合學習流程,將監督學習和樹結構強化學習結合到了一起。我們在場景圖生成和視覺問答這兩個視覺推理任務上進行了充分的實驗,結果表明VCTree不僅在這兩個任務上優于當前最佳方法,同時還能挖掘出可解釋的視覺環境。
2.基于五胞胎損失的步態聯合學習
Learning Joint Gait Representation via Quintuplet Loss Minimization
本文由騰訊AI Lab主導,與澳洲國立大學合作完成,是CVPR oral 展示論文之一。步態識別是指通過走路的模態來遠距離地識別一個人,這是視頻監控領域一個重要問題。現有的方法要么是通過單張步態圖來學習獨一的步態特征,要么是通過一對步態圖來學習不同的步態特征。有證據表明這兩種方法是互補的。
在本文中,我們提出了一種步態聯合學習的網絡,其融合了這兩種方法的優勢。另外,我們還提出了一種“五胞胎損失”,通過該損失可以同時最小化類內差和最大化類間差。實驗結果表明我們提出的方法取得了當前的最佳性能,超過了現有的方法。?
3.基于圖像變形元網絡模型的單樣本學習
Image Deformation Meta-Networks for One-Shot Learning
本文由騰訊AI Lab、復旦大學、卡耐基梅隆大學合作完成,是CVPR oral 展示論文之一。人類可以精確地識別和學習圖像,即使圖像缺少了一塊或與另一幅圖像相重疊。結合這種能力來合成包含新概念的變形實例可以幫助視覺識別系統完成更好的單樣本學習,即從一個或少數幾個示例中學習相應的視覺概念。
我們的主要觀點是:雖然變形的圖像可能在視覺上不真實,但它們仍然保有關鍵的形義信息,并且對相應的分類器決策邊界有很大貢獻。受到最近元學習進展的啟發,我們將元學習者與圖像變形子網絡結合起來,進而產生額外的訓練樣例,并以端到端的方式同時優化兩個模型。變形子網絡通過融合一對圖像來得到相應的變形圖像。在業界公認的單樣本學習的基準數據集上(即miniImageNet和ImageNet 1K Challenge),我們所提出的方法明顯優于現有技術。
4.Adam 和 RMSProp 收斂的充分條件
A Sufficient Condition for Convergences of Adam and RMSProp
本文由騰訊AI Lab主導,與石溪大學合作完成,是CVPR oral 展示論文之一。Adam/RMSProp作為用于訓練深度神經網絡的兩種最有影響力的自適應隨機算法,已經從理論上被證明是發散的。針對這一問題,目前的作法是通過對 Adam/RMSProp 的算法結構進行修改來促進Adam/RMSProp 及其變體收斂。常用的策略包括:降低自適應學習速率、采用大的batch-size、減少學習率與梯度的相關性。?
在本文中,我們首次提出了一種全新的充分條件來保證 Adam/RMSProp的全局收斂性。該充分條件僅取決于基本學習速率參數和歷史二階矩的線性組合參數, 并且無需對? Adam/RMSProp 算法結構做任何修改。根據文中提出的充分條件,我們的結論直接暗含 Adam 的幾個變體(AdamNC、AdaEMA等)的收斂性。
另外,我們嚴格說明 Adam 可以等價地表述為具有指數移動平均動量的 Weighted AdaGrad,從而為理解 Adam/RMSProp 提供了新的視角。結合這種觀察結果與文中提出的充分條件,我們更深入地解釋了Adam/RMSProp 發散的本質原因。最后,我們實驗了應用 Adam/RMSProp 來解決反例和訓練深度神經網絡,從而對本文提出的充分條件進行了驗證。結果表明,數值結果與理論分析完全一致。
5.在開放域的大規模長尾識別
Large-scale Long-Tailed Recognition in an Open World
本文由騰訊AI Lab與香港中文大學、加州大學伯克利分校合作完成,是CVPR oral 展示論文之一。我們的物理世界本質上是長尾和開放式的,對現有的需要大量訓練數據的機器學習模式構成了挑戰。盡管小樣本學習在快速識別尾部類別方面表現出有潛力的結果,但它忽略了頭類和開放類帶來的影響。
在這項工作中,我們正式將開放式長尾識別問題(OLTR)定義如下:給定自然分布的數據集(有長尾、有開放類),我們的目標是優化在所有感興趣類上的準確度。
為此,我們提出了一種新穎的動態元嵌入方法,它可以同時學習(1)在頭類和尾類嵌入之間傳遞視覺概念,(2)校準嵌入規范以增加它們對開放類的魯棒性。具體地,動態元嵌入是“慢特征”和“快速特征”的組合。“慢速特征”由標準隨機梯度下降更新,而“快速特征”通過關聯和查詢存儲器模塊而產生。
最后,嵌入規范通過計算其對學習的存儲器模塊的可達性來動態校準。為了促進大規模調查,我們將現有的以物體為中心(ImageNet)、以場景為中心(Places)和以面部為中心(MS1M)的數據集調整到開放式長尾設置,并設計了專用的評估協議。我們進行了大量實驗,結果表明我們的框架能夠為開放式長尾識別學習提供有效且強大的嵌入,并在所有基準測試中實現一致的增益。
6.基于可分解卷積濾波器的卷積神經網絡壓縮方法
Compressing Convolutional Neural Networks via Factorized Convolutional Filters
本文由騰訊AI Lab主導,與清華大學深圳研究生院合作完成,為深度卷積神經網絡壓縮提出了一種全新的濾波器剪枝方法。傳統的剪枝方法往往分為三個階段:預訓練原始模型、根據預先設定的規則(例如根據濾波器的范數大小排序)減去一些濾波器、對剪枝后的模型進行微調。很多已有方法將注意力放在第二階段的規則設定上。但是,由于這些規則與前后訓練階段相對獨立,壓縮模型的性能無法控制。
針對這一問題,我們提出了一種統一優化模型,可同時進行濾波器選擇和濾波器參數學習。為此,我們定義了一種可分解卷積濾波器,其由一個標準的實數卷積濾波器、一個二值標量和點積算子組成。由于二值約束的存在,傳統的連續優化算法(反向傳播)無法直接優化可分解卷積神經網絡。我們的做法是首先將二值約束等價轉換為多個連續變量約束,然后用我們提出的融合了交替方向乘子法(ADMM)的反向傳播算法進行優化。等訓練收斂后,有些二值標量會變為0,則對應的實數濾波器被剪枝,模型也就得到了壓縮。我們在CIFAR-10和ImageNet數據集上驗證了我們的壓縮方法,取得了超過對比方法的壓縮效果。
7.NDDR-CNN: 基于神經判別性降維的多任務學習層次特征融合
NDDR-CNN: Layer-wise Feature Fusing in Multi-Task CNNs by Neural Discriminative Dimensionality Reduction
本文由騰訊AI Lab主導,與武漢大學、香港城市大學、約翰·霍普金斯大學合作完成,提出了一種新的用于一般性多任務學習的CNN架構。相比于傳統的啟發式地共享與分裂的多任務學習CNN架構(如共享所有卷積層直到全連接層分出不同的任務),我們所提出的架構在不同任務的每層網絡均能實現特征自動融合。我們提出的層次融合框架將常用的CNN操作進行了新的組合,并且有明確的數學解釋,即判別性降維。故該層次融合框架被命名為神經判別性降維(NDDR)。
特別地,我們首先將不同任務中具有同樣空間分辨率(即同層)的特征在通道的維度上合并。然后,我們展示了判別性降維可以被1x1卷積、批歸一化(BatchNorm)以及權值衰減(weight decay)表示在一個CNN中。這些常用的CNN操作使得我們的神經判別性降維層可以即插即用地擴展到現有的CNN架構中并實現端到端訓練。我們給出了詳細的消融分析,證明了我們的方法很容易訓練并且對不同的超參數有很好的魯棒性。我們在不同任務組合以及不同基礎網絡上進行了實驗,結果超過了目前最先進的一般性多任務學習架構,并且我們方法優秀的可擴展性也得到了體現。
8.使用雙自編碼網絡的深度譜聚類
Deep Spectral Clustering using Dual Autoencoder Network
本文由騰訊AI Lab、西安電子科技大學、南方科技大學與上海交通大學合作完成,提出了一種深度嵌入學習和聚類學習的聯合學習框架。聚類方法一直廣受機器學習與計算機視覺領域關注,聯合了深度嵌入學習的深度聚類方法能實現優于傳統嵌入方法的性能。
本論文提出的聯合學習框架能同時執行有區分性的深度嵌入和譜聚類。我們首先設計一種雙自編碼網絡,其損失函數為一個隱表示和其含噪音版本的重建誤差,經過訓練優化后能學習得到一個有效的隱表示,此即輸入數據的“可區分式深度嵌入”,該嵌入對噪音有很強的魯棒性。然后,我們在此嵌入上使用深度譜聚類方法,學習得到一個特征譜空間,隨后在這個空間中完成聚類。
本文提出的深度譜聚類方法能夠深層次地利用輸入數據間的關系,取得最優的聚類結果。在公開的基準數據集上的實驗結果表明,本文提出的深度譜聚類方法性能優于業內代表性的聚類方法。
9.基于漸進式特征對齊的無監督域自適應方法
Progressive Feature Alignment for Unsupervised Domain Adaptation
本文由騰訊AI Lab與廈門大學合作完成。無監督域適應是為了將領域知識從標簽豐富的源域遷移到完全無標簽的目標域。為了解決這個問題,最近的方法借助于偽標簽來尋求具有判別性特征的域遷移,用于鼓勵跨域的相同類別的特征進行對齊。然而,這些方法不能明確地保證偽標簽的精度且容易受到誤差累積的影響,因此無法保持跨域類別的一致性。
在本文中,我們提出了漸進式特征對齊網絡,通過利用目標域的類內特征分布差異,以漸進的方法對跨域相同類別的特征進行對齊。具體而言,我們提出了一種由易到難的遷移策略(EHTS)和一個自適應中心向量對齊步驟 (APA)來迭代地并交替地訓練域適應網絡。此外,我們觀察到一個好的域適應模型通常需要一個非飽和的源域分類器,由此我們提出在分類器的softmax函數中添加一個可變的溫度系數(大于1)來簡單有效地延緩源域分類損失函數的收斂速度。實驗結果表明本文所提出的模型在三個通用的無監督域適應數據集上均能達到最優性能。
10.稀疏廣義特征值問題的分解算法
A Decomposition Algorithm for the Sparse Generalized Eigenvalue Problem
本文由騰訊AI Lab 與鵬城實驗室、中山大學合作完成。稀疏廣義特征值問題大量存在于現代機器學習模型中,例如稀疏主成分分析(PCA)、稀疏Fisher判別分析(FDA)和稀疏典型相關性分析 (CCA)。但是這類問題往往是NP-hard。
在本文中,我們采用了一類新的分解算法來求解這類問題,并且從理論上說明了這個算法的收斂性。在算法中,我們采用了隨機和調換的策略來尋找一個小的工作集,然后在這個工作集上采用全局搜索策略。另外, 我們進一步利用了二分搜索以及坐標下降算法的技術來求解這個二次分式優化子問題。最后我們從實驗上證明了我們算法的高效性以及穩定性。
11.一種基于凸優化的對單張圖像快速去反光方法
Fast Single Image Reflection Suppression via Convex Optimization
本文由騰訊AI Lab與香港科技大學、愛荷華大學合作完成。從圖像中去除無意義的玻璃反光是計算機視覺領域一個重要研究課題。該問題既涉及到從美觀角度增強圖像的質量,又涉及到如何用機器學習方法對圖像進行處理。
我們提出了一種可以僅從單張輸入圖像中抑制反光的凸模型。我們的模型使用一種梯度閾值的偏微分方程,并且我們證明該方程可以通過離散余弦變換方法得以高效的求解。我們在合成圖像和真實圖像上進行了大量實驗,結果表明我們的方法能取得非常理想的圖像反光去除效果,同時模型的計算效率也大大優于其它先進算法。
12.蒸餾哈希:通過蒸餾數據對的無監督深度哈希
DistillHash: Unsupervised Deep Hashing by Distilling Data Pairs
本文由騰訊AI Lab、西安電子科技大學、悉尼大學合作完成。因為存儲和搜索上的高效性,哈希方法已經成為大規模相似度搜索的主流。尤其是最近幾年興起的深度哈希方法,在監督場景下大大提升了搜索精準度。相比較之下,由于缺乏可信賴的監督的相似度信號,現有的無監督深度哈希方法很難取得滿意的搜索精度。
為了解決這一問題,本論文提出了一個新的無監督的深度哈希模型——蒸餾哈希,該模型能從有確定相似度信號的數據對集合中學習出一個蒸餾的數據集。該論文特別研究了從局部數據結構中學出的初始有噪音的相似度信號與貝葉斯最優分類器學出的語義相似度標簽之間的關系,從中發現:在溫和的條件下,那些相似度信號與貝葉斯最優分類器給出的語義相似度是標簽一致的數據對,是能夠被潛在的蒸餾提煉出來的。
基于這個發現,本論文設計了一種簡單而有效的策略來自動地蒸餾數據對,并提出一個從蒸餾出的數據集中學習哈希函數的貝葉斯學習框架。最后,在三個公開基準數據集上的大量實驗結果表明,本文提出的蒸餾哈希方法取得了業內領先的搜索性能。
總結
以上是生活随笔為你收集整理的CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯AI Lab发布「电竞虚拟人」,视频
- 下一篇: 云开发数据库又增新技能!