日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

视频实例分割paper(一)《Video Instance Segmentation》

發(fā)布時(shí)間:2024/3/24 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 视频实例分割paper(一)《Video Instance Segmentation》 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

【主要貢獻(xiàn)】

1.視頻實(shí)例分割第一次被正式定義和探索

2.創(chuàng)建了第一個(gè)大規(guī)模視頻實(shí)例分割數(shù)據(jù)集 2.9k視頻 40個(gè)目標(biāo)類別

3.提出一種新的視頻實(shí)例分割算法MaskTrack R-CNN,在Mask R-CNN引入一個(gè)新的分支,同時(shí)檢測(cè),分割和跟蹤視頻中的實(shí)例。

4.實(shí)時(shí),兩階段

【Introduction】

圖像實(shí)例分割同時(shí)檢測(cè)和分割圖像中的對(duì)象實(shí)例。
視頻實(shí)例分割同時(shí)檢測(cè)、分割和跟蹤視頻中的對(duì)象實(shí)例。

與VIS相關(guān)的任務(wù)定義區(qū)別
Image Instance Segmentation

將像素分組為不同的語(yǔ)義類,還將它們分組為不同的對(duì)象實(shí)例。

通常采用兩階段模式,首先使用區(qū)域建議網(wǎng)絡(luò)RPN生成對(duì)象建議,然后使用聚集的ROI特征預(yù)測(cè)對(duì)象的邊界框和masks。

圖像級(jí)處理

視頻實(shí)例分割需在每一幀中分割對(duì)象實(shí)例,還需確定跨幀對(duì)象的對(duì)應(yīng)關(guān)系。

VOT(Video Object Tracking)

DBT(Detection by Tracking):同時(shí)進(jìn)行檢測(cè)和跟蹤。

DFT(Detection-Free Tracking):在第一幀給定初始邊界框,無(wú)需檢測(cè)器進(jìn)行追蹤。

只進(jìn)行檢測(cè),不進(jìn)行分割
VOD(Video Object Detection)檢測(cè)視頻中的對(duì)象,目標(biāo)身份信息用來(lái)提升檢測(cè)算法的魯棒性,但評(píng)估指標(biāo)僅限于每幀檢測(cè)。沒(méi)有分割和追蹤

VSS(Video Semantic Segmentation)

在每一幀進(jìn)行語(yǔ)義分割,采用光流等時(shí)間信息來(lái)提高語(yǔ)義分割模型的準(zhǔn)確性或效率。不需要跨幀顯式匹配對(duì)象實(shí)例。
VOS(Video Object Segmentation)

半監(jiān)督:使用一個(gè)mask跟蹤和分割一個(gè)給定對(duì)象,提取視覺(jué)相似性,運(yùn)動(dòng)線索和時(shí)間一致性,以識(shí)別視頻中的同一對(duì)象。

無(wú)監(jiān)督:不需要給第一幀mask,不需要區(qū)分實(shí)例,只需要分割出單個(gè)目標(biāo)即可

沒(méi)有考慮實(shí)例信息

【YouTube-VIS】? ? ? ?

????????利用現(xiàn)有的YouTube VOS大型視頻對(duì)象分割數(shù)據(jù)集,建立的數(shù)據(jù)集YouTube-VIS中有 40 個(gè)常見類別標(biāo)簽作為類別集。然后從40個(gè)類中抽取大約2.9k個(gè)樣本,目標(biāo)包括人 動(dòng)物 車輛? ?有4883個(gè)獨(dú)立視頻實(shí)例 和 131k 高質(zhì)量masks,可以用于視頻實(shí)例分割,視頻語(yǔ)義分割,視頻對(duì)象檢測(cè)。

【Video Instance Segmentation】

定義:

? ? ? ? 定義一個(gè)類別預(yù)定義標(biāo)簽集 set C={1,,,K},K為類別數(shù)量,給定一個(gè)T幀的視頻,假設(shè)有屬于C的N個(gè)對(duì)象,對(duì)于每一個(gè)對(duì)象i,令表示其類別標(biāo)簽 ,令表示其二進(jìn)制分割masks,p∈[1, T],q∈[p, T],表示開始和結(jié)束時(shí)間,假設(shè)視頻實(shí)例算法產(chǎn)生H個(gè)實(shí)例假設(shè),對(duì)于每一個(gè)假設(shè) j,它需要有一個(gè)預(yù)測(cè)的類別標(biāo)簽和一個(gè)confidence score?,以及一系列的masks?,confidence score 將用于評(píng)估指標(biāo)。

評(píng)估方法:

? ? ? ? 平均準(zhǔn)確度AP,AP定義為精準(zhǔn)召回曲線下的面積,自信度得分用于繪制曲線。AP是多個(gè)IOU閾值上的平均值,遵循COCO評(píng)估,在50%到95%使用10個(gè)IOU閾值,步長(zhǎng)為5%。

????????平均召回率AR,定義為給定每個(gè)視頻一定數(shù)量的分割實(shí)例的最大召回率。IOU的計(jì)算不同于圖像實(shí)例分割,因?yàn)槊總€(gè)實(shí)例都包含一系列masks,要計(jì)算一個(gè)ground truth實(shí)例 和一個(gè)假設(shè)實(shí)例 之間的IOU。

? ? ? ? ?可以考慮為在 T幀的視頻中,對(duì)每一幀的ground truth和假設(shè)實(shí)例的交集求和 和 并集求和。達(dá)到 如成功檢測(cè)到對(duì)象masks,但未能跨幀跟蹤對(duì)象,將獲得一個(gè)較低的IOU 的效果。

?【MaskTrack R-CNN】

????????基于Mask R-CNN構(gòu)建,除了最初用于對(duì)象分類,邊界框回歸和masks生成三個(gè)分支外,添加第四個(gè)分支與外部?jī)?nèi)存一起,以跨幀跟蹤對(duì)象實(shí)例。

????????跟蹤分支主要利用外觀相似性,提出了一種簡(jiǎn)單有效的方法,將其語(yǔ)義一致性和空間相關(guān)性等其他線索相結(jié)合,以大幅提高跟蹤精度。

? ? ? ? ?網(wǎng)絡(luò)整體分為兩個(gè)階段,第一階段為在每幀生成一組對(duì)象邊界框。第二階段為添加一個(gè)并行的分支Tracking head,其為兩個(gè)全連接層,為每個(gè)候選框指定一個(gè)實(shí)例標(biāo)簽。

? ? ? ? 假設(shè)已經(jīng)有N個(gè)實(shí)例在之前的幀被定義,新實(shí)例將分配新的標(biāo)識(shí)。可比作多類分類問(wèn)題,有N+1個(gè)類,N個(gè)已識(shí)別的實(shí)例,一個(gè)新的實(shí)例,由數(shù)字0表示。將標(biāo)簽分配給候選框的概率,定義為

? ? ? ? 和分別表示跟蹤分支從 當(dāng)前幀的候選框的ROI Align提取的特征 和 保存在外部存儲(chǔ)器的從前的幀中N個(gè)被定義的實(shí)例的特征,兩個(gè)全連接層的加入使得Roi提取的特征映射投影到新特征中。交叉熵?fù)p失用來(lái)約束跟蹤分支,是 ground truth 實(shí)例標(biāo)簽。

????????當(dāng)一個(gè)新的候選框被分配一個(gè)實(shí)例標(biāo)簽時(shí),動(dòng)態(tài)地更新外部?jī)?nèi)存。如果候選框?qū)儆诂F(xiàn)有實(shí)例,將使用新的特征更新存儲(chǔ)在內(nèi)存中的實(shí)例特征,新的特征代表實(shí)例的最新狀態(tài)。如果為候選對(duì)象分配了標(biāo)簽0,我們會(huì)將候選對(duì)象的特征插入內(nèi)存,并將 已識(shí)別實(shí)例的數(shù)量 +1

????????使用從訓(xùn)練視頻中隨機(jī)抽樣的一對(duì)幀。其中一個(gè)幀被隨機(jī)選取為參考幀,而另一個(gè)幀被選取為查詢幀。在參考幀上,不生成任何候選框,只提取特征從它的ground truth實(shí)例區(qū)域和保存它們到外部?jī)?nèi)存中。在查詢幀上,第一階段生成候選框,然后只將 positive 候選框與內(nèi)存中的實(shí)例標(biāo)簽匹配。positive 候選框是指與任何ground truth對(duì)象框至少有70%IoU重疊的框。整個(gè)網(wǎng)絡(luò)都經(jīng)過(guò)了端到端的培訓(xùn),四個(gè)分支的損失加在一起

?????????對(duì)于一個(gè)新的候選框 i,讓??分別表示邊界框預(yù)測(cè),類別標(biāo)簽和置信度,數(shù)據(jù)來(lái)自網(wǎng)絡(luò)的bounding box branch 和?the classification branch,對(duì)于一個(gè)被識(shí)別的實(shí)例帶有標(biāo)簽n,讓和表示邊界框預(yù)測(cè)和與內(nèi)存中保存的特征關(guān)聯(lián)的類別標(biāo)簽。然后分配給標(biāo)簽n到候選框i一個(gè)分?jǐn)?shù)為

僅在測(cè)試階段使用,對(duì)網(wǎng)絡(luò)訓(xùn)練沒(méi)有幫助。還有其他可能的方法來(lái)整合這些線索,例如,將所有線索作為輸入,訓(xùn)練一個(gè)端到端的網(wǎng)絡(luò),這將作為一個(gè)有趣的未來(lái)研究。?

? ? ? ? 在給定一個(gè)新的測(cè)試視頻時(shí),外部?jī)?nèi)存設(shè)置為空,識(shí)別的實(shí)例數(shù)設(shè)置為0。方法以在線方式順序處理每一幀。在每一幀,網(wǎng)絡(luò)首先生成一組實(shí)例假設(shè)。非最大值抑制(NMS)(50%重疊閾值)用于減少假設(shè)。然后,剩余的假設(shè)與來(lái)自之前的幀的已確定的實(shí)例根據(jù)等式 3 進(jìn)行匹配,方法可以匹配多個(gè)假設(shè)從一個(gè)單獨(dú)的幀到一個(gè)實(shí)例標(biāo)簽,只保留一個(gè)在假設(shè)中得分最高的假設(shè),同時(shí)丟棄其他假設(shè)。

????????處理所有幀后,方法生成一組實(shí)例假設(shè)集,每個(gè)假設(shè)包含一個(gè)唯一的實(shí)例標(biāo)簽,以及一系列二進(jìn)制masks、類別標(biāo)簽和檢測(cè)置信度。使用平均檢測(cè)置信度作為整個(gè)序列的置信度得分,并使用類別標(biāo)簽的多數(shù)投票作為實(shí)例的最終類別標(biāo)簽。

【Main Results】

方法對(duì)比結(jié)果

樣本結(jié)果

? ? ? ? ?(a),(b),(c)和(d)表示正確的預(yù)測(cè),而(e)和(f)表示錯(cuò)誤情況。a 中預(yù)測(cè)在前兩幀中給出了錯(cuò)誤的結(jié)果,其中熊被預(yù)測(cè)為“鹿”和“海豹”。視頻級(jí)別預(yù)測(cè)通過(guò)所有幀的多數(shù)投票來(lái)糾正這些錯(cuò)誤。在視頻 c 中,沖浪板在多幀中被海浪遮擋,算法能夠在沖浪板消失和再次出現(xiàn)后跟蹤沖浪板。在視頻 d 中,展示了一個(gè)新對(duì)象在中間進(jìn)入視頻的情況,算法能夠?qū)⒌诙械穆箼z測(cè)為新對(duì)象,并將其添加到外部存儲(chǔ)器中。在視頻 e 中,在不同的姿勢(shì)中有著完全不同的外觀,并且算法無(wú)法識(shí)別相同的對(duì)象并認(rèn)為它們是兩個(gè)不同的對(duì)象。在視頻 f 中,多條類似的魚在四處游動(dòng),并相互遮擋。算法在第二幀和第三幀中將兩條魚分成一組,并在稍后與對(duì)象身份混淆

【Ablation Study】

不同因素使用結(jié)果

????????可視化這三個(gè)因素的影響,還對(duì)一個(gè)特定樣本逐個(gè)添加這三個(gè)因素來(lái)生成預(yù)測(cè),前三種變體無(wú)法很好地跟蹤“綠色”摩托車的身份,而帶有四種不同提示的變體能夠在整個(gè)視頻中跟蹤它。?

????????邊界框IoU和類別一致性對(duì)方法的性能最為重要。?

總結(jié)

以上是生活随笔為你收集整理的视频实例分割paper(一)《Video Instance Segmentation》的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。