细粒度分析综述(Fine-grain image analysis)
細粒度分析(Fine-grain image analysis)
簡介:
細粒度性質會引起的小的類間變化和大的類內變化,我們將現有的 FGIA 技術研究分為三大類:細粒度圖像識別、細粒度圖像檢索和細粒度圖像生成。FGIA 的目標是檢索、識別和生成屬于超類別的多個從屬類別的圖像。
問題背景:
- 細粒度特征,考量圖片中微小的區別。
- 小的類內變化 vs 大的類間變化
常用數據集:
其中CUB200-2011是最流行的細粒度數據集之一。多種類型的監督包括:圖像標簽、部分注釋(也稱為關鍵點定位)、對象邊界框(即綠色邊界框)、屬性標簽(即“ATR”)和自然語言的文本描述。
細粒度識別范式:
-
具有定位分類子網絡的細粒度識別
- 使用兩個子網絡,為定位子網絡和分類子網絡。
- 定位子網絡來定位關鍵部分,可以獲得更多有區別的中間級別(部分級別)表示。進一步增強了分類子網絡的學習能力。這些方法將多個部分級特征連接為一個整體圖像表示,并將其輸入到下面的分類子網絡中進行最終識別。
- 分類子網絡跟隨并用于識別。這兩個協作子網絡的框架形成了第一個范式,即具有定位分類子網絡的細粒度識別。
- 然而,需要人工注釋關注的部分,限制了可拓展性。趨勢:先找到對應的部分,然后比較它們的外觀。希望捕獲語義部分(例如,頭部和軀干)以在細粒度類別之間共享,同時希望發現這些部分表示之間的細微差異。
-
具有端到端特征編碼
-
傾向于通過開發強大的深度模型進行細粒度識別來直接學習更具辨別力的特征表示。
-
雙線性 CNN :將圖像表示為來自兩個深度 CNN 的特征的池化外積,因此對卷積激活的高階統計進行編碼以增強中級學習能力。由于其高模型容量,雙線性 CNN 實現了顯著的細粒度識別性能。然而,雙線性特征的極高維數仍然使其在實際應用中不切實際,尤其是對于大規模應用。
-
-
具有外部信息
-
網絡數據
由于注釋的難度(總是需要領域專家)和無數的細粒度類別(即元數據中有數千個從屬類別-類別)。因此,一部分細粒度的識別方法試圖利用免費但嘈雜的網絡數據來提高識別性能。
現有的大部分作品可以大致分為兩個方向。其中之一是將測試類別的噪聲標記網絡數據作為訓練數據進行爬網,這被視為網絡監督學習。
這些方法的主要工作集中在:(1)克服容易獲取的網絡圖像和標準數據集中標記良好的數據之間的數據集差距; (2) 減少噪聲數據帶來的負面影響。為了處理上述問題,經常使用對抗學習的深度學習技術和注意力機制。
使用網絡數據的另一個方向是從經過良好訓練的輔助類別中轉移知識,通常采用零樣本學習和元學習。
-
多模態數據
隨著多媒體數據(如圖像、文本、知識庫等)的快速增長,多模態分析引起了人們的廣泛關注。
在細粒度識別中,它需要多模態數據來建立聯合表示/嵌入以結合多模態信息。它能夠提高細粒度的識別精度。與細粒度圖像的強監督(例如部分注釋)相比,文本描述是弱監督。經常使用的多模態數據包括文本描述(例如自然語言的句子和短語)和圖形結構的知識庫。
在實踐中,文本描述和知識庫都可以有效地作為更好的細粒度圖像表示學習的額外指導。收集文本描述,并通過結合文本和圖像引入結構化聯合嵌入,用于零樣本細粒度圖像識別。
-
人機交互
人類參與的細粒度識別通常是一個由機器和人類用戶組成的迭代系統,它結合了人類和機器的努力和智能。此外,它要求系統盡可能以人類勞動經濟的方式工作。一般來說,對于這些類型的識別方法,每一輪的系統都在尋求理解人類是如何進行識別的,例如,通過要求未經訓練的人類標記圖像類別并挑選困難的例子,或者通過識別關鍵部分定位并選擇判別特征進行細粒度識別。
-
第一范式和第二范式僅利用與細粒度圖像相關的監督來限制自己,例如圖像標簽、邊界框、部分注釋等。
研究人員逐漸嘗試將外部但廉價的信息(例如,網絡數據、文本描述)納入細粒度識別,以進一步提高準確性,這對應于細粒度識別的第三范式。
細粒度圖像檢索:
除了圖像識別,細粒度檢索是 FGIA 的另一個重要方面,并成為熱門話題。
它的評估指標是共同平均精度(mAP)。在細粒度圖像檢索中,給定相同子類別(例如鳥類或汽車)和查詢的數據庫圖像,它應該返回與查詢相同種類的圖像,而不求助于任何其他監督信號。
與基于內容相似性(例如紋理、顏色和形狀)檢索近似重復圖像的通用圖像檢索相比,而細粒度檢索側重于檢索相同類型的圖像(例如,動物使用相同的從屬物種,汽車使用相同的型號)。細粒度圖像中的對象只有細微的差異,并且在姿勢、尺度和旋轉方面有所不同
細粒度圖像生成:
細粒度生成將合成細粒度類別中的圖像,例如特定人的面部或從屬類別中的對象。它部署了深度生成模型,例如 GAN [Goodfellow et al., 2014],以學習合成看起來真實的逼真圖像。
CVAE-GAN:在條件生成過程下將變分自動編碼器與生成對抗網絡相結合來解決這個問題。具體來說,CVAE-GAN 將圖像建模為概率模型中標簽和潛在屬性的組合。然后,通過改變輸入生成模型的細粒度類別,它可以生成特定類別的圖像。
展望:
-
自動細粒度模型
AutoML(自動機器學習)旨在自動化將機器學習應用于實際任務的端到端過程。而 NAS(神經架構搜索)是自動化神經網絡架構設計的過程。
因此,利用 AutoML 或 NAS 技術開發的自動細粒度模型也有望找到更好、更量身定制的深度模型,同時反過來推動 AutoML 和 NAS 的研究。
-
細粒度的少樣本學習
人類能夠在很少監督的情況下學習新的細粒度概念,例如,一種鳥類的示例圖像很少,但我們最好的深度學習細粒度系統需要數百或數千個標記示例。更糟糕的是,細粒度圖像的監督既耗時又昂貴,因為細粒度對象應始終由領域專家準確標記。因此,需要開發細粒度的小樣本學習。
FGFS 的任務要求學習系統以元學習的方式從少數示例(只有一個或少于五個)中為新穎的細粒度類別構建分類器。穩健的 FGFS 方法可以極大地增強細粒度識別的可用性和可擴展性。
-
細粒度散列
在像細粒度圖像檢索這樣的實際應用中,很自然會提出一個問題,即在參考數據庫非常大的情況下,找到精確最近鄰的成本過高。
哈希表,作為最流行和最有效的近似最近鄰搜索技術之一,具有處理大規模細粒度數據的潛力。因此,細粒度散列是一個值得進一步探索的有前途的方向。
-
在更現實的環境中進行細粒度分析
這些設置不能滿足當今各種現實世界應用的日常需求,例如,通過在受控環境中收集的圖像訓練的模型識別存儲架中的零售產品 和識別/檢測野外的自然物種 。
因此,新的細粒度圖像分析主題,需要與現實結合的更為緊密。如具有領域適應的細粒度分析、具有知識轉移的細粒度分析、具有長尾分布的細粒度分析和細粒度分析運行在資源受限的嵌入式設備上——值得對更先進和實用的 FGIA 進行大量研究。
總結
以上是生活随笔為你收集整理的细粒度分析综述(Fine-grain image analysis)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: STM32F103ZE开发板WS2812
- 下一篇: Tcl数学运算