日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

细粒度分析综述(Fine-grain image analysis)

發(fā)布時(shí)間:2023/12/20 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 细粒度分析综述(Fine-grain image analysis) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

細(xì)粒度分析(Fine-grain image analysis)

簡介:

細(xì)粒度性質(zhì)會(huì)引起的小的類間變化和大的類內(nèi)變化,我們將現(xiàn)有的 FGIA 技術(shù)研究分為三大類:細(xì)粒度圖像識(shí)別、細(xì)粒度圖像檢索和細(xì)粒度圖像生成。FGIA 的目標(biāo)是檢索、識(shí)別和生成屬于超類別的多個(gè)從屬類別的圖像。

問題背景:

  • 細(xì)粒度特征,考量圖片中微小的區(qū)別。
  • 小的類內(nèi)變化 vs 大的類間變化

常用數(shù)據(jù)集:

其中CUB200-2011是最流行的細(xì)粒度數(shù)據(jù)集之一。多種類型的監(jiān)督包括:圖像標(biāo)簽、部分注釋(也稱為關(guān)鍵點(diǎn)定位)、對(duì)象邊界框(即綠色邊界框)、屬性標(biāo)簽(即“ATR”)和自然語言的文本描述。

細(xì)粒度識(shí)別范式:

  • 具有定位分類子網(wǎng)絡(luò)的細(xì)粒度識(shí)別

    • 使用兩個(gè)子網(wǎng)絡(luò),為定位子網(wǎng)絡(luò)和分類子網(wǎng)絡(luò)。
    • 定位子網(wǎng)絡(luò)來定位關(guān)鍵部分,可以獲得更多有區(qū)別的中間級(jí)別(部分級(jí)別)表示。進(jìn)一步增強(qiáng)了分類子網(wǎng)絡(luò)的學(xué)習(xí)能力。這些方法將多個(gè)部分級(jí)特征連接為一個(gè)整體圖像表示,并將其輸入到下面的分類子網(wǎng)絡(luò)中進(jìn)行最終識(shí)別。
    • 分類子網(wǎng)絡(luò)跟隨并用于識(shí)別。這兩個(gè)協(xié)作子網(wǎng)絡(luò)的框架形成了第一個(gè)范式,即具有定位分類子網(wǎng)絡(luò)的細(xì)粒度識(shí)別。
    • 然而,需要人工注釋關(guān)注的部分,限制了可拓展性。趨勢(shì):先找到對(duì)應(yīng)的部分,然后比較它們的外觀。希望捕獲語義部分(例如,頭部和軀干)以在細(xì)粒度類別之間共享,同時(shí)希望發(fā)現(xiàn)這些部分表示之間的細(xì)微差異。
  • 具有端到端特征編碼

    • 傾向于通過開發(fā)強(qiáng)大的深度模型進(jìn)行細(xì)粒度識(shí)別來直接學(xué)習(xí)更具辨別力的特征表示。

    • 雙線性 CNN :將圖像表示為來自兩個(gè)深度 CNN 的特征的池化外積,因此對(duì)卷積激活的高階統(tǒng)計(jì)進(jìn)行編碼以增強(qiáng)中級(jí)學(xué)習(xí)能力。由于其高模型容量,雙線性 CNN 實(shí)現(xiàn)了顯著的細(xì)粒度識(shí)別性能。然而,雙線性特征的極高維數(shù)仍然使其在實(shí)際應(yīng)用中不切實(shí)際,尤其是對(duì)于大規(guī)模應(yīng)用。

  • 具有外部信息

    • 網(wǎng)絡(luò)數(shù)據(jù)

    由于注釋的難度(總是需要領(lǐng)域?qū)<?#xff09;和無數(shù)的細(xì)粒度類別(即元數(shù)據(jù)中有數(shù)千個(gè)從屬類別-類別)。因此,一部分細(xì)粒度的識(shí)別方法試圖利用免費(fèi)但嘈雜的網(wǎng)絡(luò)數(shù)據(jù)來提高識(shí)別性能。

    現(xiàn)有的大部分作品可以大致分為兩個(gè)方向。其中之一是將測試類別的噪聲標(biāo)記網(wǎng)絡(luò)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)進(jìn)行爬網(wǎng),這被視為網(wǎng)絡(luò)監(jiān)督學(xué)習(xí)。

    這些方法的主要工作集中在:(1)克服容易獲取的網(wǎng)絡(luò)圖像和標(biāo)準(zhǔn)數(shù)據(jù)集中標(biāo)記良好的數(shù)據(jù)之間的數(shù)據(jù)集差距; (2) 減少噪聲數(shù)據(jù)帶來的負(fù)面影響。為了處理上述問題,經(jīng)常使用對(duì)抗學(xué)習(xí)的深度學(xué)習(xí)技術(shù)和注意力機(jī)制。

    使用網(wǎng)絡(luò)數(shù)據(jù)的另一個(gè)方向是從經(jīng)過良好訓(xùn)練的輔助類別中轉(zhuǎn)移知識(shí),通常采用零樣本學(xué)習(xí)和元學(xué)習(xí)。

    • 多模態(tài)數(shù)據(jù)

    隨著多媒體數(shù)據(jù)(如圖像、文本、知識(shí)庫等)的快速增長,多模態(tài)分析引起了人們的廣泛關(guān)注。

    在細(xì)粒度識(shí)別中,它需要多模態(tài)數(shù)據(jù)來建立聯(lián)合表示/嵌入以結(jié)合多模態(tài)信息。它能夠提高細(xì)粒度的識(shí)別精度。與細(xì)粒度圖像的強(qiáng)監(jiān)督(例如部分注釋)相比,文本描述是弱監(jiān)督。經(jīng)常使用的多模態(tài)數(shù)據(jù)包括文本描述(例如自然語言的句子和短語)和圖形結(jié)構(gòu)的知識(shí)庫。

    在實(shí)踐中,文本描述和知識(shí)庫都可以有效地作為更好的細(xì)粒度圖像表示學(xué)習(xí)的額外指導(dǎo)。收集文本描述,并通過結(jié)合文本和圖像引入結(jié)構(gòu)化聯(lián)合嵌入,用于零樣本細(xì)粒度圖像識(shí)別。

    • 人機(jī)交互

    人類參與的細(xì)粒度識(shí)別通常是一個(gè)由機(jī)器和人類用戶組成的迭代系統(tǒng),它結(jié)合了人類和機(jī)器的努力和智能。此外,它要求系統(tǒng)盡可能以人類勞動(dòng)經(jīng)濟(jì)的方式工作。一般來說,對(duì)于這些類型的識(shí)別方法,每一輪的系統(tǒng)都在尋求理解人類是如何進(jìn)行識(shí)別的,例如,通過要求未經(jīng)訓(xùn)練的人類標(biāo)記圖像類別并挑選困難的例子,或者通過識(shí)別關(guān)鍵部分定位并選擇判別特征進(jìn)行細(xì)粒度識(shí)別。

第一范式和第二范式僅利用與細(xì)粒度圖像相關(guān)的監(jiān)督來限制自己,例如圖像標(biāo)簽、邊界框、部分注釋等。

研究人員逐漸嘗試將外部但廉價(jià)的信息(例如,網(wǎng)絡(luò)數(shù)據(jù)、文本描述)納入細(xì)粒度識(shí)別,以進(jìn)一步提高準(zhǔn)確性,這對(duì)應(yīng)于細(xì)粒度識(shí)別的第三范式。

細(xì)粒度圖像檢索:

除了圖像識(shí)別,細(xì)粒度檢索是 FGIA 的另一個(gè)重要方面,并成為熱門話題。

它的評(píng)估指標(biāo)是共同平均精度(mAP)。在細(xì)粒度圖像檢索中,給定相同子類別(例如鳥類或汽車)和查詢的數(shù)據(jù)庫圖像,它應(yīng)該返回與查詢相同種類的圖像,而不求助于任何其他監(jiān)督信號(hào)。

與基于內(nèi)容相似性(例如紋理、顏色和形狀)檢索近似重復(fù)圖像的通用圖像檢索相比,而細(xì)粒度檢索側(cè)重于檢索相同類型的圖像(例如,動(dòng)物使用相同的從屬物種,汽車使用相同的型號(hào))。細(xì)粒度圖像中的對(duì)象只有細(xì)微的差異,并且在姿勢(shì)、尺度和旋轉(zhuǎn)方面有所不同

細(xì)粒度圖像生成:

細(xì)粒度生成將合成細(xì)粒度類別中的圖像,例如特定人的面部或從屬類別中的對(duì)象。它部署了深度生成模型,例如 GAN [Goodfellow et al., 2014],以學(xué)習(xí)合成看起來真實(shí)的逼真圖像。

CVAE-GAN:在條件生成過程下將變分自動(dòng)編碼器與生成對(duì)抗網(wǎng)絡(luò)相結(jié)合來解決這個(gè)問題。具體來說,CVAE-GAN 將圖像建模為概率模型中標(biāo)簽和潛在屬性的組合。然后,通過改變輸入生成模型的細(xì)粒度類別,它可以生成特定類別的圖像。

展望:

  • 自動(dòng)細(xì)粒度模型

AutoML(自動(dòng)機(jī)器學(xué)習(xí))旨在自動(dòng)化將機(jī)器學(xué)習(xí)應(yīng)用于實(shí)際任務(wù)的端到端過程。而 NAS(神經(jīng)架構(gòu)搜索)是自動(dòng)化神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的過程。

因此,利用 AutoML 或 NAS 技術(shù)開發(fā)的自動(dòng)細(xì)粒度模型也有望找到更好、更量身定制的深度模型,同時(shí)反過來推動(dòng) AutoML 和 NAS 的研究。

  • 細(xì)粒度的少樣本學(xué)習(xí)

人類能夠在很少監(jiān)督的情況下學(xué)習(xí)新的細(xì)粒度概念,例如,一種鳥類的示例圖像很少,但我們最好的深度學(xué)習(xí)細(xì)粒度系統(tǒng)需要數(shù)百或數(shù)千個(gè)標(biāo)記示例。更糟糕的是,細(xì)粒度圖像的監(jiān)督既耗時(shí)又昂貴,因?yàn)榧?xì)粒度對(duì)象應(yīng)始終由領(lǐng)域?qū)<覝?zhǔn)確標(biāo)記。因此,需要開發(fā)細(xì)粒度的小樣本學(xué)習(xí)。

FGFS 的任務(wù)要求學(xué)習(xí)系統(tǒng)以元學(xué)習(xí)的方式從少數(shù)示例(只有一個(gè)或少于五個(gè))中為新穎的細(xì)粒度類別構(gòu)建分類器。穩(wěn)健的 FGFS 方法可以極大地增強(qiáng)細(xì)粒度識(shí)別的可用性和可擴(kuò)展性。

  • 細(xì)粒度散列

在像細(xì)粒度圖像檢索這樣的實(shí)際應(yīng)用中,很自然會(huì)提出一個(gè)問題,即在參考數(shù)據(jù)庫非常大的情況下,找到精確最近鄰的成本過高。

哈希表,作為最流行和最有效的近似最近鄰搜索技術(shù)之一,具有處理大規(guī)模細(xì)粒度數(shù)據(jù)的潛力。因此,細(xì)粒度散列是一個(gè)值得進(jìn)一步探索的有前途的方向。

  • 在更現(xiàn)實(shí)的環(huán)境中進(jìn)行細(xì)粒度分析

這些設(shè)置不能滿足當(dāng)今各種現(xiàn)實(shí)世界應(yīng)用的日常需求,例如,通過在受控環(huán)境中收集的圖像訓(xùn)練的模型識(shí)別存儲(chǔ)架中的零售產(chǎn)品 和識(shí)別/檢測野外的自然物種 。

因此,新的細(xì)粒度圖像分析主題,需要與現(xiàn)實(shí)結(jié)合的更為緊密。如具有領(lǐng)域適應(yīng)的細(xì)粒度分析、具有知識(shí)轉(zhuǎn)移的細(xì)粒度分析、具有長尾分布的細(xì)粒度分析和細(xì)粒度分析運(yùn)行在資源受限的嵌入式設(shè)備上——值得對(duì)更先進(jìn)和實(shí)用的 FGIA 進(jìn)行大量研究。

總結(jié)

以上是生活随笔為你收集整理的细粒度分析综述(Fine-grain image analysis)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。