當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

CVPR2018论文看点：基于度量学习分类与少镜头目标检测

發(fā)布時間：2023/11/28 生活经验 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR2018论文看点：基于度量学习分类与少镜头目标检测小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

CVPR2018論文看點：基于度量學習分類與少鏡頭目標檢測

簡介

本文鏈接地址：https://arxiv.org/pdf/1806.04728.pdf

距離度量學習(DML)已成功地應用于目標分類，無論是在訓練數(shù)據(jù)豐富的標準體系中，還是在每個類別僅用幾個例子表示的few-shot場景中。在中，提出了一種新的DML方法，在一個端到端訓練過程中，同時學習主干網(wǎng)絡參數(shù)、嵌入空間以及該空間中每個訓練類別的多模態(tài)分布。對于基于各種標準細粒度數(shù)據(jù)集的基于DML的目標分類，方法優(yōu)于最先進的方法。此外，將提出的DML架構作為分類頭合并到一個標準的目標檢測模型中，證明了方法在處理few-shot目標檢測問題上的有效性。與強基線相比，當只有少數(shù)訓練示例可用時，在ImageNet-LOC數(shù)據(jù)集上獲得了最佳結果。還為該領域提供了一個新的基于ImageNet數(shù)據(jù)集的場景benchmark，用于few-shot檢測任務。

1、簡介

提出了一種新的距離度量學習方法(DML)，并證明了它在few shot目標檢測和目標分類方面的有效性。用具有多個模態(tài)的混合模型表示每個類，并將這些模態(tài)的中心作為類的表示向量。與以往的方法不同，在單一的端到端訓練過程中，同時學習了訓練類別的嵌入空間、主干網(wǎng)絡參數(shù)和代表性向量。

對于few shot目標檢測，基于現(xiàn)代方法，該方法依賴于區(qū)域建議網(wǎng)絡(RPN)來生成感興趣的區(qū)域，并使用分類器“head”將這些RoI分類為目標類別之一或背景區(qū)域。為了通過幾個訓練示例學習一個健壯的檢測器(單次檢測示例見圖1)，建議使用提出的DML方法，用一個子網(wǎng)替換分類器頭部，該子網(wǎng)學習為每個ROI計算類后驗。這個子網(wǎng)的輸入是由ROIs匯集的特征向量，通過將其嵌入向量與每個類別的一組代表進行比較，計算給定ROI的類后驗。檢測任務需要解決“開放集識別問題”，即將ROI分為結構化前景類別和非結構化背景類別。在這種情況下，聯(lián)合端到端訓練非常重要，因為對DML單獨訓練的背景ROI進行采樣非常低效。

在few-shot檢出實驗中，引入了新的檢測類別。這是通過使用從為這些類別提供的少量訓練示例(k個用于k-shot檢測的示例)的前景RoI中計算的嵌入向量來替換所學習的代表(對應于舊類別)來實現(xiàn)的。還研究了微調(diào)模型的效果和baseline的few-shot學習。與基線和以前的工作相比，關于few-shot檢測任務的報告顯示了有希望的結果，強調(diào)了聯(lián)合優(yōu)化主干和DML嵌入的有效性。圖2概略地說明了few-shot檢測方法。

主要貢獻有三個方面。首先，提出了一種新的子網(wǎng)結構，用于聯(lián)合訓練嵌入空間和該空間中的混合分布集，每個類別都有一個(多模態(tài))混合。該體系結構對基于DML的目標分類和few-shot目標檢測都有較好的改善作用。其次，提出了一種基于DML分類器頭的目標檢測器的設計方法，該方法能夠識別新的類別，并將其轉化為一種few-shot檢測器。據(jù)所知，這是前所未有的。這可能是因為檢測器訓練批次通常被限制在每個GPU一個圖像，不允許在類別內(nèi)容方面進行批次控制。這種控制是目前任何使用情景訓練的few-shot學習者所需要的。這反過來又使得在端到端訓練的檢測器中使用這些方法具有挑戰(zhàn)性。在方法中，代表集充當“內(nèi)部存儲器”，在訓練批次之間傳遞信息。第三，在few-shot分類文獻中，評估方法的一種常見做法是通過平均多個少鏡頭任務實例(稱為插曲)的性能來評估。為few-shot檢測問題提供了這樣一種情景基準，建立在具有挑戰(zhàn)性的細粒度少鏡頭檢測任務之上。

3、RePMet的結構

提出一種子網(wǎng)結構和相應的損失，使能夠訓練一個DML嵌入與多模態(tài)混合分布用于計算類后驗在產(chǎn)生的嵌入空間。然后這個子網(wǎng)成為一個基于DML的分類器頭部，它可以附加在分類器或檢測主干的頂部。需要注意的是，DML子網(wǎng)是與生成功能的主干一起訓練的。圖3描述了所提出的子網(wǎng)的體系結構。

訓練是分批組織的，但是為了簡單起見，將把子網(wǎng)的輸入稱為由給定圖像(或ROI)的主干計算的單個(池化的)特征向量。主干的例子有Inception V3或FPN(沒有R-CNN)。首先使用了一個DML嵌入模塊，它由幾個具有批標準化(BN)和ReLU非線性的全連通(FC)層組成(在實驗中使用了2-3個這樣的層)。嵌入模塊的輸出是一個矢量，其中共同的作為一組額外的訓練參數(shù)，持有一組“代表”。每個向量Rij表示學習判別混合分布在嵌入空間的第j階模態(tài)的中心，對于總N類中的第i類。假設每個類的分布中有固定數(shù)量的K模(峰)，所以1≤j≤K。

圖4說明了所提出的DML子網(wǎng)是如何集成到用于基于DML的分類和few-shot檢測實驗的完整網(wǎng)絡體系結構中的。

4、結果

已經(jīng)評估了提出的DML子網(wǎng)在一系列分類和one-shot檢測任務上的實用性。

4.1、基于度量學習的分類

精細分類：在一組細粒度分類數(shù)據(jù)集上測試了方法，這些數(shù)據(jù)集廣泛應用于最先進的DML分類工作中:Stanford Dogs、Oxford- iiit Pet、Oxford 102 Flowers和ImageNet Attributes。表1中報告的結果表明，方法在除Oxford Flowers外的所有數(shù)據(jù)集上都優(yōu)于最先進的DML分類方法。圖5顯示了訓練實例在嵌入空間中隨訓練迭代的t-SNE圖的演變。

屬性分布：驗證了在DML分類訓練之后，具有相似屬性的圖像在嵌入空間中更加接近(即使訓練期間沒有使用屬性注釋)。使用了與DML相同的實驗方案。

對于這個數(shù)據(jù)集中的每個圖像，對于每個屬性，計算具有這個屬性的鄰居在不同鄰域基數(shù)上的比例。圖6(a)顯示了與[25]和其他方法相比得到的改進結果。

圖6(b)和圖6?表明，與[25]相比，方法對超參數(shù)的變化具有更強的魯棒性。這些圖分別描述了每一種方法和每一次訓練迭代時，通過改變嵌入網(wǎng)絡體系結構得到的分類誤差的標準差和每個類的代表數(shù)。

4.2、few-shot目標檢測

表3(在它看不見類的部分)中報告了對本文方法和一組不可見類的baseline的評估。對5路檢測任務(500個這樣的任務)計算平均平均精度(mAP)，單位為%。通過聯(lián)合收集和評估(計算精度和召回度的得分閾值)在所有500個測試集中檢測到的全部包圍框集合，每個包圍框包含50張查詢圖像，計算出地圖。此外，對于每一種測試方法(方法和基線)，重復實驗，同時僅在情節(jié)訓練圖像上微調(diào)網(wǎng)絡的最后一層(對于模型和使用DML的基線，對最后一層嵌入層和代表進行微調(diào))。表3還報告了微調(diào)后的結果。圖7顯示了單鏡頭檢測測試結果的示例。

6、總結和結論

在這項工作中，提出了一種新的DML方法，與其他基于DML的方法相比，在目標分類方面取得了最先進的性能。利用這種方法，設計了一種最早的few-shot方法，與目前最先進的few-shot方法進行了比較。

總結

以上是生活随笔為你收集整理的CVPR2018论文看点：基于度量学习分类与少镜头目标检测的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CVPR2019论文解读：单眼提升2D检
下一篇： CVPR2019论文看点：自学习Anch