CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记
? 理解出錯之處望不吝指正。
? 本文模型叫做ADNet。該模型通過強化學習產生動作序列(對bbox進行移動or尺度變換)來進行tracking。原理如下圖(第一列代表初始幀,第二列和第三列代表通過RL產生的動作序列對object進行tracking):
???
?
-
? 模型的整體結構如下:
?
-
? 強化學習部分:
? (1)狀態:
??? 狀態分為和兩部分。其中代表正在tracking的bbox(當前圖片信息,可在上圖中看到),則是一個維的向量,存儲的是pervious 10個action,其中11代表的是11種不同的action,使用獨熱碼表示。
? (2)動作:
??? 動作分為3類共11種。第一類是move,包括上下左右和快速上下左右;第二類是scale,包括放大和縮小;第三類是stop,即終止操作。
?????
? (3)狀態轉移:
??? 我們定義一個差值():
?????
??? 對于上下左右action(以此類推):
?????
??? 對于快速上下左右action(以此類推):
?????
??? 對于尺度變換action:
?????
? (4)獎勵函數:
??? 假設action sequence的長度為T,則reward定義如下(即:中間的那些action都不產生reward,只有動作終止了才有reward):
?????
??? 動作的終止有兩種觸發情況:①.選擇了stop action;②.action sequence產生了波動(eg: {left, right, left})。
?
-
? 訓練部分:
? 訓練部分包括三部分:
? (1)訓練監督學習部分
??? 這部分訓練,訓練部分的action lable通過以下方法獲得:
?????
??? class lable的判斷如下:
?????
??? 損失函數如下:
?????
? (2)訓練強化學習部分(這部分有點沒懂)
??? 這部分訓練,我們通過上一步驟的訓練得到了當前訓練的初始參數,這部分就是使用SGD最大化:
?????
??? 其中當在labeled frame中success時,,否則。
??? 作者提到這部分訓練可以采用半監督訓練,如下圖所示:
?????
? (3)在線自適應
??? 在線更新的時候,只對進行更新。每過幀使用前面幀中置信分數大于0.5的樣本進行微調。
??? 如果當前的置信分數小于-0.5,說明“跟丟了”,需要進行re-detection。
總結
以上是生活随笔為你收集整理的CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ICCV 2017 PTAV:《Para
- 下一篇: CVPR 2017 CA:《Contex