當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

通过视频着色进行自监督跟踪

發(fā)布時間：2024/4/11 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了通过视频着色进行自监督跟踪小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

正文字數(shù)：4004 ?閱讀時長：8分鐘

在本文中，我們將學習一種新穎的自監(jiān)督目標跟蹤方法。自我監(jiān)督是模型自我學習的一種方法，這本身就使得這個話題非常有趣。在這里，我們將看到如何學會自己跟蹤對象。我們將從基本的目標跟蹤開始，然后討論什么是計算機視覺的自我監(jiān)督學習，最后詳細討論這種方法。

Posted by?Tushar Kolhe?

url :?https://towardsdatascience.com/self-supervised-tracking-via-video-colorization-7b2b066359d5

方法的實現(xiàn)可以訪問鏈接了解：

https://github.com/hyperparameters/tracking_via_colorization

目標跟蹤概述

簡單地說，它可以理解為在整個視頻序列中識別唯一的對象。要跟蹤的對象通常稱為目標對象，跟蹤可以通過邊界框或?qū)嵗指顏硗瓿?#xff0c;有兩種類型的公共對象跟蹤挑戰(zhàn)。

1. 單目標跟蹤：在整個視頻序列中跟蹤感興趣的目標，例如VOT挑戰(zhàn)

2. 多目標跟蹤：在整個視頻序列中跟蹤多個感興趣的目標。例如：MOT挑戰(zhàn)

研究趨勢

一些著名的經(jīng)典的用于解決目標跟蹤CV算法的是：

1.?Mean shift

2.?Optical flow

3.?Kalman filters

其中最著名的一種多目標跟蹤算法是SORT，是以卡爾曼濾波器為核心，并且非常成功的一種算法。?

隨著深度學習時代的到來，社會上出現(xiàn)了非常有創(chuàng)新性的研究并且深度學習方法成功地勝過了傳統(tǒng)的CV方法來應對公共跟蹤挑戰(zhàn)。盡管在公共挑戰(zhàn)方面取得了巨大成功但深度學習仍在努力為現(xiàn)實世界中的問題陳述提供通用的解決方案。?

深度模型的挑戰(zhàn)

在訓練深度CNN模型時，我們面臨的主要挑戰(zhàn)之一是訓練數(shù)據(jù)。

訓練數(shù)據(jù)：深度學習方法需要大量的數(shù)據(jù)，這幾乎每次都會成為一個瓶頸。此外，像多目標跟蹤這樣的任務很難注釋，而且這個過程變得不切實際而且成本高昂。

深度模型數(shù)據(jù)永遠不嫌多

用自監(jiān)督學習來拯救

我們都知道有監(jiān)督和非監(jiān)督學習技術。這是一種被稱為自監(jiān)督學習的新型學習方式。在這些類型的學習中，我們試著利用數(shù)據(jù)中已經(jīng)存在的信息，而不是任何外部標簽，或者有時我們說模型是自己學習的。實際上，我們所做的就是訓練CNN模型去完成一些其他的任務，間接地幫助我們實現(xiàn)我們的目標，這個模型自我監(jiān)督。這些任務被稱為“代理任務”或“借口任務”。

代理任務的示例如下：

顏色化

CNN模型學習從灰度圖像預測顏色。(來源：https://arxiv.org/abs/1603.08511)

將圖像補丁放在正確的位置

從圖像中提取補丁并將其打亂。模型學習如何解開拼圖并按照正確? 的順序排列，如圖3所示。(來源：https://arxiv.org/abs/1603.09246)

按正確的順序放置視頻幀

該模型學習在視頻序列中對打亂的幀進行排序。[來源：https://arxiv.org/abs/1708.01246]

許多這樣的任務可以用作計算機視覺問題的代理任務。這種訓練的一個主要好處是訓練不需要手動注釋數(shù)據(jù)，并且適合解決生活中實際的用例。

通過視頻著色進行自監(jiān)督跟蹤

我們已經(jīng)看到了并了解了什么是自監(jiān)督模型，您一定猜到了我們將使用著色作為我們的代理任務的名稱。

通過給視頻著色來實現(xiàn)跟蹤

我們使用大量未標記視頻學習模型的視覺跟蹤無需人工監(jiān)督。

arxiv.org（https://arxiv.org/abs/1806.09594）

簡介

著色是代理任務或借口任務，目標跟蹤是主要任務或下游任務。采用大規(guī)模的無標記視頻對模型進行訓練，不需要人工進行任何單一像素的標注。該模型利用視頻的時間相干性對灰度視頻進行著色。這看起來可能有點混亂，但我會慢慢給大家講明白。

模型將如何學習跟蹤

我們將取兩個幀，一個目標幀(時刻t)，一個參考幀(時刻t-1)，并通過模型。該模型期望通過對參考幀顏色的先驗知識來預測目標幀的顏色。通過這種方式，模型內(nèi)部學會了指向正確的區(qū)域，以便從參考框架復制顏色，如圖所示。這種指向機制可以用作推理期間的跟蹤機制，我們將很快看到如何做到這一點。

模型接收一個彩色幀和一個灰度視頻作為輸入，并預測下一幀的顏色。模型學會從參考系復制顏色，這使得跟蹤機制可以在沒有人類監(jiān)督的情況下學習。[來源：https://ai.googleblog.com/2018/06/self-supervised-tracking-via-video.html]

我們不復制網(wǎng)絡中的顏色，而是訓練我們的CNN網(wǎng)絡學習目標幀的像素和參考幀的像素之間的相似度（相似度是灰度像素之間），然后線性組合時使用此相似度矩陣參考幀中的真實顏色會給出預測的顏色。從數(shù)學上講，設C?為參考幀中每個像素i的真實顏色，C?為目標幀中每個像素j的真實顏色。

[資源鏈接：https://arxiv.org/abs/1806.09594]

公式1：預測顏色與參考顏色的線性組合

如何計算相似度矩陣

無論是圖像、參考幀還是目標幀都經(jīng)過模型學習后對每個像素進行了低層次的嵌入，這里f?是像素i在參考幀中的嵌入，類似地，f是像素j在目標幀中的嵌入。然后，計算相似度矩陣：

公式2：用softmax歸一化的內(nèi)積相似度

相似矩陣中的每一行表示參考幀的所有像素i和目標幀的像素j之間的相似性，因此為了使總權重為1，我們對每一行應用softmax。

Lets look an example with dimension to make it clear,we try to find a similarity matrix of 1 pixel from target frame.An illustration of this example is shown below.Consider reference image and target image, size (5, 5) => (25,1)for each pixel, cnn gives embedding of size (64, 1), embedding for reference frame, size (64, 25), embedding for target frame, size (64, 25), embedding for 3rd pixel in target frame, size (64, 1)Similarity Matrix, between reference frame and target pixel, j=2 =softmax , size (25, 64) (64, 1) => (25,1) => (5, 5)we get a similarity between all the ref pixels and a target pixel at j=2.Colorization, To copy the color (here, colours are not RGB but quantized colour of with 1 channel) from reference frame,, Colors of reference frame size (5, 5) => (25, 1), Similarity matrix, size (5, 5) => (1, 25)Predicted color at j=2, , size (1, 25) (25, 1) => (1, 1)From the similarity matrix in below figure, we can see reference color at i=1 is dominant(0.46), thus we have a color copied for target, j=2 from reference, i=1PS:1. ? denotes transpose2. matrix indices starts from 0

(a)為2幀大小(5,5)，(b)為參考幀嵌入與目標像素在j =2處嵌入的內(nèi)積，(c) softmax后的相似度矩陣，(d)相似度矩陣與參考幀真顏色的線性組合[來源：https://github.com/hyperparameters/tracking_via_colorization]

同樣,對于目標幀中的每個目標像素（（5，5）=> 25個像素），我們將會有一個相似矩陣的大小(5,5),即大小為（5，5，25）的完整相似度矩陣A?? =（25，25）。?

在實現(xiàn)中，我們將使用（256 x 256）圖像擴展相同的概念。??

圖像量化

第一行顯示原始幀，第二行顯示來自實驗室空間的ab顏色通道。第三行將顏色空間量化到離散的容器中，并打亂顏色，使效果更加明顯。[來源：https://arxiv.org/abs/1806.09594]

顏色是空間頻率偏低，所以我們可以處理低分辨率的幀。我們不需要C（255，3）顏色組合，所以我們創(chuàng)建了16個聚類并將顏色空間量化為這些聚類。現(xiàn)在我們只有16種獨特的顏色簇（見上圖第3欄）。聚類是用k-均值完成的。16個群集會有一些顏色信息的丟失，但足以識別物體。我們可以增加聚類的數(shù)目來提高著色的精度，但代價是增加計算量。

[來源：https://arxiv.org/abs/2002.07793]

為了將圖像量化成簇，我們將使用LAB顏色空間的AB通道而不是RGB顏色空間通道。上面的圖顯示了RGB和LAB通道間的相關性，從圖中我們可以得出結(jié)論

RGB往往比LAB更具相關性。

LAB將強制模型學習不變性，它將強制其學習更強大的表示形式，而不是依賴于本地顏色信息。

可以使用sklearn的KMeans軟件包進行聚類。

這個類將用于制作顏色的簇，我們將把它存儲為一個pickle。

實現(xiàn)

注意:我使用pytorch來進行實現(xiàn)，它遵循(N, C, H, W)格式。在處理矩陣重塑時要記住這一點。如果你對形狀有任何疑問，請隨時與我們聯(lián)系。

該模型從參考幀中學習為視頻幀著色。[來源：https://ai.googleblog.com/2018/06/self-supervised-tracking-via-video.html]

輸入

該模型的輸入是四個灰度視頻幀，其下采樣為256×256。三個參考幀和一個目標幀。

預處理

首先，我們將所有的訓練視頻壓縮到6fps。然后預處理框架以創(chuàng)建兩個不同的集合。一個用于CNN模型，另一個用于著色任務。

-?Video?fps?is?reduced?to?6?fpsSET?1?-?for?CNN?Model-?Down?sampled?to?256?x?256-?Normalise?to?have?intensities?between?[-1,?1]SET?2?-?for?Colourization-?Convert?to?LAB?colour?space-?Downsample?to?32?x?32-?Quantize?in?16?clusters?using?k-means-?Create?one-hot?vector?corresponding?to?the?nearest?cluster?centroid

模型結(jié)構

所用的主干是ResNet-18，因此其結(jié)果與其他方法相當。ResNet-18的最后一層被更新為32 x 32 x 256的尺寸輸出。ResNet-18的輸出隨后被傳送到3D-Conv網(wǎng)絡，最終輸出為32 x 32 x 64。（下面的代碼塊顯示了從ResNet-18網(wǎng)絡獲取輸入的3D網(wǎng)絡）

訓練

訓練可分為以下3個步驟：

1. 網(wǎng)絡傳遞

我們將使用SET 1的預處理幀，即通過網(wǎng)絡傳遞大小為（256 x 256）的4個灰度幀，以獲得具有64個通道的（32 x 32）空間圖。對于（32 x 32）圖像的每個像素，這可以解釋為64維嵌入。因此，我們有四個這樣的像素級嵌入，三個用于參考圖像，一個用于目標圖像。

2. 相似度矩陣

利用這五個嵌入，我們找到了參考幀和目標幀之間的相似矩陣。對于目標幀中的像素我們將獲得一個相似度值，其中所有三個參考幀中的所有像素均通過softmax歸一化為1。

3. Colourization著色處理

我們將使用SET 2的預處理幀，即將四個降采樣為（32 x 32）并量化的幀用于著色。將三個參考幀與相似度矩陣相結(jié)合，得到預測的量化幀。我們發(fā)現(xiàn)了具有預測顏色的交叉熵損失，(記住，我們量化幀到16個聚類，現(xiàn)在我們有16個類別。我們發(fā)現(xiàn)在這些顏色上有多類交叉熵損失。

推理

??

跟蹤預測的例子[來源：https://ai.googleblog.com/2018/06/self-supervised-tracking-via-video.html]

在學習了著色的任務后，我們有了一個模型，可以計算一對目標框架和參考框架的相似矩陣a??。對于跟蹤的實際任務，我們利用了標簽空間中模型是非參數(shù)的這一特性。我們簡單地重復使用等式1來傳播，但不是傳播顏色，而是傳播類別的分布。對于第一幀，我們有真實框掩碼，我們將所有實例掩碼布置為一獨熱矢量c?（這類似于訓練期間使用的量化顏色的一獨熱矢量）。將c?與我們的相似性矩陣A相結(jié)合，以找到掩碼的新位置，但請記住，隨后幾幀中的c?預測將變得很柔和，表明模型的置信度。為了做出艱難的決定，我們可以簡單地選擇最自信的那一類。推理算法為：

WHILE?(target?frame,?reference?frames)?in?the?videostep?1.?Pass?the?target?and?reference?frames?through?CNN?modelstep?2.?Find?Similarity?Matrixstep?3.?Take?ground?truth?object?masks?as?one-hot?encodingstep?4.?Linear?combine?the?object?masks?with?similarity?matrixstep?5.?Update?ground?truth?object?masks?by?predicted?masks 失效模式

讓我們來討論一下，當模型在某些場景中趨于失敗時，這主要是著色失敗的情況，這意味著著色與跟蹤有很高的相關性。

在以下情況下會發(fā)現(xiàn)一些故障：

當光線在視頻中劇烈或頻繁變化時?
該方法成功地跟蹤了輕微到中等遮擋情況下的目標，但當物體受到嚴重遮擋時無法進行對目標的跟蹤
物體尺寸大小突然發(fā)生變化

LiveVideoStackCon 2020?北京

2020年10月31日-11月1日

點擊【閱讀原文】了解更多詳細信息

總結(jié)

以上是生活随笔為你收集整理的通过视频着色进行自监督跟踪的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

视频

上一篇：【传统PSTN与互联网通信】
下一篇：探索企业出海新机遇与音视频技术优化实践