當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记

發布時間：2025/3/15 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

? 理解出錯之處望不吝指正。

? 本文模型叫做ADNet。該模型通過強化學習產生動作序列（對bbox進行移動or尺度變換）來進行tracking。原理如下圖（第一列代表初始幀，第二列和第三列代表通過RL產生的動作序列對object進行tracking）：

???

? 模型的整體結構如下：

? 強化學習部分：

? （1）狀態：

??? 狀態分為和兩部分。其中代表正在tracking的bbox（當前圖片信息，可在上圖中看到），則是一個維的向量，存儲的是pervious 10個action，其中11代表的是11種不同的action，使用獨熱碼表示。

? （2）動作：

??? 動作分為3類共11種。第一類是move，包括上下左右和快速上下左右；第二類是scale，包括放大和縮小；第三類是stop，即終止操作。

?????

? （3）狀態轉移：

??? 我們定義一個差值（）：

?????

??? 對于上下左右action（以此類推）：

?????

??? 對于快速上下左右action（以此類推）：

?????

??? 對于尺度變換action：

?????

? （4）獎勵函數：

??? 假設action sequence的長度為T，則reward定義如下（即：中間的那些action都不產生reward，只有動作終止了才有reward）：

?????

??? 動作的終止有兩種觸發情況：①.選擇了stop action；②.action sequence產生了波動（eg: {left, right, left}）。

? 訓練部分：

? 訓練部分包括三部分：

? （1）訓練監督學習部分

??? 這部分訓練，訓練部分的action lable通過以下方法獲得：

?????

??? class lable的判斷如下：

?????

??? 損失函數如下：

?????

? （2）訓練強化學習部分（這部分有點沒懂）

??? 這部分訓練，我們通過上一步驟的訓練得到了當前訓練的初始參數，這部分就是使用SGD最大化：

?????

??? 其中當在labeled frame中success時，，否則。

??? 作者提到這部分訓練可以采用半監督訓練，如下圖所示：

?????

? （3）在線自適應

??? 在線更新的時候，只對進行更新。每過幀使用前面幀中置信分數大于0.5的樣本進行微調。

??? 如果當前的置信分數小于-0.5，說明“跟丟了”，需要進行re-detection。

總結

以上是生活随笔為你收集整理的CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ICCV 2017 PTAV:《Para
下一篇： CVPR 2017 CA:《Contex

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记

? 模型的整體結構如下：

? 強化學習部分：

? 訓練部分：

總結