當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Online Adaptation of Convolutional Neural Networks for Video Object Segmentation论文阅读

發布時間：2023/12/16 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Online Adaptation of Convolutional Neural Networks for Video Object Segmentation论文阅读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要

我們處理半監督視頻對象分割的任務，即使用第一幀的地面真實像素掩模來分割屬于視頻中的對象的像素。我們建立在最近引入的一次性視頻對象分割（OSVOS）方法上，該方法使用預訓練網絡并在第一幀對其進行微調。雖然在測試時間內實現了令人印象深刻的性能，但OSVOS以未改變的形式使用微調網絡，無法適應物體外觀的巨大變化。為了克服這個限制，我們提出了在線自適應視頻對象分割（OnAVOS），其使用基于網絡的可信度和空間配置而選擇的訓練示例在線更新網絡。另外，我們在PASCAL上學習基于對象的預訓練步驟。我們的實驗表明，兩種擴展都非常有效，并將DAVIS的最新技術狀態改進為85.7％的交叉點合并分數。

引言

視覺對象跟蹤是計算機視覺中的一個基本問題，許多應用程序包括視頻編輯，自動駕駛汽車和機器人。最近，有一種趨勢是從邊界框級別轉換到像素級別跟蹤，主要由新數據集的可用性驅動，特別是DAVIS [34]。在我們的工作中，我們關注于半監督視頻對象分割（VOS），即使用第一幀的地面真實像素遮罩來分割屬于視頻中的通用對象的像素的任務。

最近，基于深度學習的方法通常利用大分類數據集進行預訓練，對于VOS [7,20,24,35]和單目標跟蹤[5,18,31]和背景的相關任務建模[2,6,44]。特別是Caelles等人提出的一次性視頻對象分割（OSVOS）方法。 [7]對VOS顯示出非常有希望的結果。該方法在目標視頻的第一幀上微調預訓練卷積神經網絡。然而，由于在測試時OSVOS僅從序列的第一幀開始學習，所以它不能適應外觀上的大的變化，這可能例如由視點的劇烈變化引起。

雖然在線自適應已成功用于邊界框級別的跟蹤（例如[14,23,27,31,43]），但其對VOS的使用[3,4,10,32]受到的關注較少，特別是在上下文中深度學習。因此，我們提出了在線自適應視頻對象分割（OnAVOS），其基于所選擇的訓練實例來更新卷積神經網絡。為了避免漂移，我們通過選擇像素來仔細選擇訓練樣例，網絡非常確定它們屬于感興趣的對象作為正例，遠離最后假定的像素掩模的像素作為反例（請參閱圖1，第二行）。我們進一步表明，天真地執行在每一幀的在線更新很快就會導致漂移，這表現在性能強烈退化。作為一種對策，我們建議在第一幀（已知地面像素掩模）作為在線更新期間的附加訓練示例進行混合。

我們的貢獻如下：我們介紹OnAVOS，它使用在線更新來適應外觀變化。此外，我們采用更新的網絡架構和額外的目標性預訓練步驟[20,21]，并展示它們對半監督設置的有效性。我們進一步表明，OnAVOS顯著改善了兩個數據集的藝術狀態。

圖1：DAVIS驗證集的兩個序列的定性結果。第二行顯示選擇為正（紅色）和負（藍色）訓練示例的像素。可以看出，在線上適應后，網絡可以更好地處理視點（左側）和場景中出現的新對象（車輛以正確順序）中的變化。

2 Related Work

視頻對象分割。許多經典的視頻對象分割（VOS）方法的常用方法是減小輸入空間的粒度，例如，通過使用超像素[8,15]，補丁[12,38]或對象提議[33]。雖然這些方法顯著降低了后續優化步驟的復雜性，但它們可能會在流水線早期引入不可恢復的錯誤。然后將獲得的中間表示（或直接使用像素[30]）用于整個視頻的全局優化[30,33]，其中部分[15]，或僅使用當前幀和前一幀[8 ，12,38]。

最近，包括OSVOS [7]在內的基于神經網絡的方法[7,20,24,35]已經成為VOS的最新技術。由于OnAVOS是建立在OSVOS之上的，因此我們在第3節中包含詳細描述。盡管OSVOS獨立處理每個視頻幀，但我們期望合并時間上下文應該會有所幫助。作為這個方向的一步，Perazzi等人[35]提出了MaskTrack方法，其中將來自最后一幀的估計分割掩模用作神經網絡的附加輸入通道，使其能夠使用時間上下文。 Jampani等人[22]提出了一個視頻傳播網絡（VPN），該網絡應用了學習的雙邊過濾操作來跨視頻幀傳播信息。此外，在半監督[24,35]和無監督設置[40]中，光流被用作附加時間提示，其中第一幀的基本事實不可用。在我們的工作中，我們專注于通過在線修改網絡來隱式地包含上下文信息，即我們將時間上下文信息存儲在網絡的適應權值中。

最近，Jain等人[21]提出訓練像素對象的卷積神經網絡，即為每個像素決定它是否屬于類似物體的區域。在另一篇論文中，Jain等人[20]表明，使用像素對象在無監督的VOS設置中很有幫助。我們采用像素對象作為基于一次性方法的半監督設置的預訓練步驟。

來自Khoreva等人的LucidTracker獲得了DAVIS當前的最佳結果。 [24]，它通過一種精心設計的數據增強方法擴展了MaskTrack，該方法從第一批注釋的幀中創建了大量訓練樣例，并減少了大規模數據集對預訓練的依賴。我們的實驗表明，我們的方法使用傳統的數據增強方法實現了更好的性能。

在線適應。對于邊界框水平跟蹤，Kalal等人[23]引入了跟蹤 - 學習 - 檢測（TLD）框架，該框架試圖檢測使用的目標檢測器的錯誤并在線更新檢測器以避免將來出現這些錯誤。 Grabner和Bischof [14]使用AdaBoost的在線版本[13]進行包括跟蹤在內的多種計算機視覺任務。 Nam和Han [31]提出了一種用于邊界框級別跟蹤的多域網絡（MDNet）。 MDNet為每個訓練序列訓練一個單獨的域特定輸出層，并在測試時初始化一個新的輸出層，該層與兩個完全連接的層一起在線更新。為此，訓練樣本在當前假定的物體位置附近隨機抽樣，根據其分類得分用作正面或負面的目標。這種在線培訓實例的方案與我們的方法有一些相似之處。然而，我們的方法在像素級而不是邊界框級別上工作，為了避免漂移，我們特別注意只選擇在線的訓練樣例，我們非?？隙ㄋ麄兪钦婊蜇撁娴睦?/span>。對于VOS，在線適應方面的研究較少;主要提出了經典的方法，如在線更新的顏色和/或形狀模型[3,4,32]和在線隨機森林[10]。

完全卷積網絡的語義分割。 Long等人已經引入了用于語義分割的全卷積網絡（FCN）。 [29]。主要思想是通過用1x1卷積替換完全連接的層并引入跳過連接來幫助捕獲更高分辨率的細節，重新設計最初設計用于語義分割分類的網絡。這種方法的變種已被廣泛應用于語義分割，并取得了巨大的成功（例如He等人的ResNets [17]）。

最近，吳等人。 [45]引入了ResNet變體，其具有比原始ResNet架構更少但更寬的層[17]和簡單的分割方法，其通過用擴張卷積[47]替代它們并避免了一些子采樣步驟，并且不使用任何跳過連接。盡管分割架構簡單，但他們在多個分類和語義分割數據集中獲得了出色的結果，這促使我們采用他們的架構。

圖2：OnAVOS的管道。從預訓練的權重開始，網絡首先在PASCAL（a）上進行對象預訓練。之后，我們在DAVIS上預先介紹了具體的信息（b）。在測試期間，我們對第一幀進行微調，以獲得測試網絡（c）。在以下幀中，網絡隨后在線調整以適應外觀變化（d）。

3 One-Shot Video Object Segmentation

OnAVOS（參見圖2的概述）基于最近推出的一次性視頻對象分割（OSVOS）方法[7]，但將像素對象的預訓練[21]作為新組件引入，采用更新的網絡架構，并結合了一種新穎的在線適應方案，詳見第4節。

基地網絡。 OnAVOS的第一步是在大型數據集（例如用于圖像分類的ImageNet [9]）上預先訓練一個基礎網絡，以便學習對象的強大表示，以后可以將其用作視頻對象分割的起點（VOS ）任務。

物體網絡。在第二步中，使用二元交叉熵損失對網絡進行像素對象進一步預訓練[21]。為了獲得前景和背景的目標，我們使用PASCAL [11]數據集并將所有20個帶注釋的類映射到前景，并將所有其他圖像區域視為背景。正如Jain等人所證明的那樣。 [20]，僅由此產生的對象網絡已經在DAVIS上表現良好，但在這里我們只將對象用作預訓練步驟。

域特定對象網絡。對象網絡在PASCAL數據集上進行了訓練。然而，應在其上執行VOS的目標數據集可能表現出不同的特征，例如，在DAVIS的情況下分辨率更高，噪音更小。因此，我們使用DAVIS訓練數據對對象網絡進行微調，并獲得領域特定的對象網絡。DAVIS注釋不直接對應于對象，因為通常只有一個對象可能是多個注釋。然而，我們認為這里學到的任務仍然類似于一般的對象，因為在DAVIS的大多數序列中，可見對象的數量相對較少，并且感興趣的對象通常相對較大且顯著。請注意，OSVOS直接在DAVIS上訓練基礎網絡，無需在PASCAL上進行對象預訓練。我們的實驗表明這兩個步驟都是互補的。

測試網絡。在上述預訓練步驟之后，網絡已經學習了領域特定的對象概念，但是在測試時間內，它還不知道它應該分割的目標序列的可能多個對象中的哪一個。因此，我們在第一幀的地面實況蒙版上微調預訓練網絡，為它提供感興趣對象的身份和特定外觀，并允許它學習忽略背景。這一步驟已被證明對VOS非常有效[7]，我們在實驗中也證實了這一點。但是，第一幀并不能為網絡提供足夠的信息來適應外觀或視點的劇烈變化。在這些情況下，我們需要在線適應方法（見第4節）。

網絡架構。盡管OSVOS使用了眾所周知的VGG網絡[39]，但我們選擇采用更新的網絡架構，其中包含殘留連接。特別是，我們采用吳等人的模型A. [45]，這是一個非常廣泛的ResNet[17]變體，有38個隱藏層和大約1.24億個參數。分割的方法非常簡單，因為不使用上采樣機制或跳過連接。取而代之的是，使用步進卷積的向下取樣僅執行三次。這會導致每個維度的分辨率損失八倍，之后使用擴張卷積[47]增加感受野，而不會額外損失分辨率。盡管簡單，但這種架構在分類（ImageNet）和分割（PASCAL）任務方面都表現出了優異的結果[45]。當將其應用于分割時，我們在以0.5進行閾值化之前將像素后驗概率雙線性上采樣到初始分辨率。

我們使用Wu等人提供的權重。 [45]，這是通過在ImageNet [9]，Microsoft COCO [28]和PASCAL [11]上進行預訓練獲得的，作為基礎網絡的強大初始化。然后，我們用兩級softmax替換輸出層。作為損失函數，我們使用自助交叉熵損失函數[46]，該函數將交叉熵損失值的平均值僅作為最困難像素的一部分，即網絡預測最差的像素，而不是全部像素。這種損失函數已被證明對于不平衡的類分布很有效，這對于VOS來說也是常見的，這是由于背景類的主導。在我們所有的實驗中，我們使用25％最硬像素的一部分，并使用Adam優化器[25]優化這種損失。在我們的評估中，我們將網絡架構的效果與算法改進的效果分開。

4 Online Adaptation

由于感興趣對象的出現隨著時間的推移而變化并且可能出現新的背景對象，因此我們引入在線適應方案以適應這些變化（參見算法1）。進入場景的新物體在進行物體預訓練時特別成問題，因為它們從來沒有用作負面訓練的例子，因此被分配的概率很高（例如參見圖1（右））。

我們的在線自適應方案的基本思想是將非?？煽康念A測像素作為訓練示例。我們選擇預測的前景概率超過特定閾值α的像素作為正例。有人可能會爭辯說，使用這些像素作為正面的例子是無用的，因為網絡已經對它們給出了非常有把握的預測。然而，重要的是適應能夠保留積極類別的記憶，以便為增加的許多負面例子創造平衡。在我們的實驗中，忽略這一步驟會在前景蒙板上產生空洞。

我們最初以相同的方式選擇負面訓練樣例，即使用前景概率非常低的像素。然而，這可能會導致性能下降，因為在大的外觀變化過程中，假陰性像素將被選為負面訓練示例，從而有效地摧毀了適應這些變化的所有機會。因此，我們基于兩幀之間的移動很小的假設，以不同的方式選擇負面訓練示例。這個想法是選擇離最后預測的對象掩碼很遠的所有像素。為了處理噪音，最后的面具可以首先被侵蝕操作收縮。對于我們的實驗，我們使用大小為15的方形結構元素，但我們發現此參數的確切值并不重要。之后，我們計算一個距離變換，該變換為每個像素提供距離掩模最近的前景像素的歐幾里得距離。最后，我們應用閾值d并將距離大于d的所有像素視為負面示例。

既未標記為正面也未標為負面例子的像素被分配了“不關心”標簽，并且在線更新期間被忽略。我們現在可以在當前幀上微調網絡，因為每個像素都有一個用于訓練的標簽。然而，在實踐中，我們發現使用獲得的訓練樣例進行天真的微調很快就會導致漂移。為了避免這個問題，我們建議在第一幀中作為在線更新期間的附加訓練樣例，因為對于第一幀，地面實況是可用的。我們發現為了獲得好的結果，第一幀應該比當前幀更頻繁地采樣，即在在線適應期間，我們每幀執行總共非線性更新步驟，其中在當前幀上僅執行n行，并且其余的是在第一幀上執行的。此外，我們將當前幀的損失權重降低β因子（例如β≈0.05）。值為0.05可能看起來小得驚人，但必須記住第一幀經常用于更新，快速導致更小的梯度，而當前幀僅被選擇幾次。

在線自適應期間，根據前一幀的掩碼選擇否定訓練示例。因此，可能發生像素被選作負面的例子，并且它被同時預測為前景。我們稱這些像素為不利底片。發生硬陰性的常見情況是當先前看不見的物體遠離感興趣的物體進入場景時（見圖1（右）），這通常會被網絡檢測為前景。我們發現從下一幀中使用的前景蒙版中移除難以確定否定訓練示例的難題很有幫助。此步驟允許再次選擇下一幀中的負片作為反面示例。此外，我們試圖通過增加更新步驟的數量和/或在存在嚴重負面情況下當前幀的損失范圍來更強調網絡以適應硬性負面情況。但是，這并沒有進一步改善結果。

除了前面描述的步驟之外，我們還提出了一個簡單的啟發式方法，它可以使我們的方法更好地抵抗像遮擋這樣的困難：如果（在可選侵蝕之后）最后假定的前景蒙版上沒有任何東西，我們假設感興趣的對象丟失并且不要應用任何在線更新，直到網絡再次找到非空的前景蒙板。

5 Experiments

數據集。對于物體預訓練（參見第3節），我們使用了PASCAL VOC 2012數據集[14]的1,464個訓練圖像以及Hariharan等人提供的附加注釋。 [16]，總共有10 582個訓練圖像，包含20個類別，我們都將其映射到單個前景類別。對于視頻對象分割（VOS），我們對最近推出的DAVIS數據集[34]進行了大部分實驗，該數據集由50個短全高清視頻序列組成，其中30個用于訓練，另外20個用于驗證。與大多數先前的工作一致，我們對分采樣版本進行了所有實驗，分辨率為854×480像素。為了說明我們的方法的概括性，我們還對VOS的YouTube-Objects [19,37]數據集進行了實驗，該數據集由126個序列組成。

實驗裝置。我們在PASCAL和DAVIS上預訓，每個10個時代。對于基線一次性方法，我們在第一幀上發現了50個更新步驟，學習率為3·10-6，效果很好。為了簡單起見，我們只使用了一個圖像的小批量。由于DAVIS僅具有訓練和驗證集，因此我們使用三重交叉驗證調整了30個序列的訓練集上的所有超參數，即20個訓練序列用于訓練，并且10個用于每個折疊的驗證。按照慣例，我們通過隨機翻轉來增加訓練數據，使用從[0.7,1.3]和伽瑪增強[36]均勻采樣的因子進行縮放。

為了評估，我們使用了Jaccard指數，即預測的前景蒙板和地面實況蒙板之間的平均交匯點（mIoU）。 Perazzi等人提出的額外評估措施的結果[34]顯示在補充材料中。我們注意到，特別是對第一幀進行微調時，隨機增強會在結果中引入不可忽略的變化。因此，對于這些實驗，我們進行了三次運行并報告了平均值和標準偏差值。所有的實驗都是在我們基于TensorFlow [1]的實現中完成的，我們將在https://www.vision.rwth-aachen.de/software / OnAVOS上提供預訓練模型。

5.1?? BaselineSystems

預訓練步驟的效果。從基礎網絡開始（參見第3節），我們的完整基線系統（即無適應性）包括在PASCAL上進行物體第一預訓練步驟，然后是DAVIS訓練序列，最后在第一步進行微調幀。這三個步驟中的每一個都可以單獨啟用或禁用。表1顯示了DAVIS對所有結果組合的結果。可以看出，這些步驟中的每一步都很有用，因為刪除任何步驟總會使結果惡化。

基礎網絡被訓練用于與二元分割不同的任務，因此需要在微調網絡的其余部分的同時學習新的輸出層。沒有PASCAL或DAVIS預訓練，隨機初始化的輸出層僅從目標序列的第一幀中學習，這導致??僅僅65.2％mIoU的性能大幅降低。然而，當使用PASCAL或DAVIS進行預訓練時，結果分別顯著提高至77.6％mIoU和78.0％mIoU。雖然兩種結果非常相似，但可以看出PASCAL和DAVIS確實提供了補充信息，因為使用兩個數據集一起進一步將結果提高到80.3％。我們認為相對較大的PASCAL數據集對于學習一般對象是有用的，而有限的DAVIS數據對于適應DAVIS數據的特征（例如相對高的圖像質量）是有用的，這為DAVIS的評估提供了優勢序列。

有趣的是，即使沒有看第一幀的分段掩模，即在無監督的設置中，我們已經獲得72.7％mIoU的結果;稍好于當前最好的無監督方法FusionSeg [20]，它在DAVIS驗證集上獲得70.7％的mIoU，使用目標性和光流作為附加提示。

與OSVOS比較。如果不包括邊界捕捉后處理步驟，OSVOS在DAVIS上達到77.4％的mIoU。我們的系統在PASCAL上沒有對象進行預訓練，與此結果直接相當，達到78.0％mIoU。我們將這種適度的改進歸因于我們采用的更新的網絡架構。包括PASCAL在對象預訓練中將這一結果進一步提高了2.3％至80.3％。

表1：（預）訓練步驟對DAVIS驗證集的影響。可以看出，三個訓練步驟都是有用的。 PASCAL上的對象預訓練步驟顯著改善了結果。

5.2 OnlineAdaptation

超參數研究。如第4節所述，OnAVOS涉及相對較多的超參數。在DAVIS訓練集上進行粗略的手動調整后，我們發現α= 0.97，β= 0.05，d =220，非線性= 15，ncurr = 3可以很好地工作。雖然第一幀的最初50個更新步驟以3·10-6的學習率進行，但對于當前幀和第一幀的在線更新，使用不同的學習率λ= 10-5是有用的。從這些值作為操作點開始，我們通過一次更改一個超參數進行更詳細的研究，同時保持其他參數不變。我們發現OnAVOS對于大多數超參數的選擇并不是非常敏感，我們嘗試的每種配置都比非適配的基線表現得更好，與操作點相比，我們只取得了小的改進（詳細的圖表在補充材料中顯示）。為了避免過度擬合小DAVIS訓練集，我們保留了所有進一步實驗的操作點的值。

消融研究。表2顯示了在DAVIS驗證集上提出的在線自適應方案和多個變體的結果，其中部分算法被禁用。使用完整的方法，我們獲得了82.8％的mIoU分數。當禁用所有適應步驟時，性能顯著下降至80.3％，這證明了在線適應方法的有效性。該表進一步顯示負面的訓練例子比正面的例子更重要。如果我們在在線更新期間不混合第一幀，由于漂移，結果顯著降低到69.1％。

時序信息。對于第一幀的初始微調階段，我們使用了50個更新步驟。包括所有其他幀的正向傳遞時間，這導致使用NVIDIA Titan X（Pascal）GPU的DAVIS驗證集的每個序列的總運行時間約為90秒（對應于每幀約1.3秒）。當使用非線性= 15的在線適應時，運行時間增加到每個序列大約15分鐘（對應于每幀大約13秒）。然而，我們的超參數分析顯示，通過減少非線性而不會損失精度，可顯著降低運行時間。請注意，為了獲得最佳效果，OSVOS在第一幀上使用更多的更新步驟，每個序列需要大約10分鐘（對應于每幀大約9秒）。

5.3 Comparisonto State of the Art

當前最先進的方法使用后處理步驟，如邊界捕捉[7]或條件隨機場（CRF）平滑[24,35]來改善輪廓。為了與它們進行比較，我們使用DenseCRF [26]包括了每幀后處理。這可能特別有用，因為我們的網絡只為每個8×8像素塊提供一個輸出。另外，我們在測試期間添加了數據增強。為此，我們通過隨機翻轉，縮放和伽瑪增量創建了每個測試圖像的10個變體，并對所有10幅圖像的后驗概率進行平均。

為了演示OnAVOS的泛化能力，并且由于沒有針對YouTube-Objects的單獨訓練集，我們使用與DAVIS相同的超參數值（包括CRF參數）對該數據集進行了實驗。此外，我們省略了DAVIS的預訓練步驟。請注意，對于YouTube-Objects，以前出版物中的評估協議有時會因不包含感興趣對象不存在的幀而有所不同[24]。在這里，我們報告遵循DAVIS評估協議的結果，即包括這些框架，與Khoreva等人一致。 [24]。

表3顯示了我們的后處理步驟的效果，并將我們在DAVIS和YouTube-Objects上的結果與其他方法進行了比較。請注意，與在線適應相結合時，測試時間增加的效果更強。我們認為這是因為在這種情況下，增強不僅直接提高了最終結果作為后處理步驟，而且它們還提供了更好的適應目標。在DAVIS上，我們達到了85.7％的mIoU，據我們所知，這個數字遠遠高于以前發布的任何結果。與OSVOS相比，這個數字提高了近6％。在YouTube-Objects上，我們獲得了77.4％的mIoU，與LucidTracker獲得的第二最佳結果（76.2％）相比，這也是一個重大改進。

6 Conclusion

在這項工作中，我們提出了基于OSVOS方法的OnAVOS。我們已經證明，包含一個對象預訓練步驟和我們的半監督視頻對象分割的在線自適應方案是非常有效的。我們進一步表明，我們的在線自適應方案對超參數的選擇是強健的，并且推廣到另一個數據集。我們預計在未來，更多的方法將采用適應方案，使它們在外觀上發生較大變化時更加穩健。對于未來的工作，我們計劃明確地將時間背景信息納入我們的方法。

總結

以上是生活随笔為你收集整理的Online Adaptation of Convolutional Neural Networks for Video Object Segmentation论文阅读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： android wifi连接优先级,go
下一篇：无线串口模块SX1278的使用后记