當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR2021 MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions

發(fā)布時間：2024/3/13 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR2021 MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

動機

1、現(xiàn)實世界的運動是非常復(fù)雜的，總是在空間和時間上變化。在降水預(yù)報中，要準確預(yù)測隨時空變化的運動，如雷達回波的變形、積累或消散，具有極大的挑戰(zhàn)性。

2、最新的已知的視頻預(yù)測模型，如PredRNN、MIM和Conv-TT-LSTM，主要關(guān)注于捕捉隨時間的變化簡單的狀態(tài)轉(zhuǎn)換。它們忽略了運動中復(fù)雜的變化，所以在高度變化的情況下不能準確地預(yù)測。

3、基于光流的方法使用局部不變狀態(tài)轉(zhuǎn)換來捕捉短期的時間依賴性，但缺乏對長期運動趨勢的表征。當建模不斷變化的運動時，這些方法的效果可能會嚴重退化。

4、本文發(fā)現(xiàn)，物理世界的運動可以自然地分解為瞬態(tài)變化和運動趨勢。考慮到運動的分解，應(yīng)該捕捉運動的瞬態(tài)變化和運動趨勢，以便更好地進行時空變運動預(yù)測。

瞬態(tài)變化可以看成是各局部區(qū)域瞬時的變形、耗散、速度變化等變化。例如，當一個人跑步時，身體的不同部位會隨著時間發(fā)生各種短暫的運動變化，例如左右腿交替向前走。而且，自然的時空過程，特別是物理運動也遵循著這一規(guī)律。視頻的運動趨勢可以看成是運動遵循視頻序列中物理世界背后的特征，例如物體的慣性，雷達回波的氣象學，或其他物理定律。

方法

提出了一種新的MotionRNN框架。為了能夠?qū)r空變化的運動進行更有表現(xiàn)力的建模，MotionRNN設(shè)計了MotionGRU單元，用于高維隱藏狀態(tài)的轉(zhuǎn)換，該單元分別被專門設(shè)計用來捕捉瞬態(tài)變化和運動趨勢。受ResNet中殘差shortcuts的啟發(fā)，在提出的框架內(nèi)跨層次改進了運動Highway，以防止捕獲的運動消失，并為MotionRNN提供有用的上下文時空信息。MotionRNN是靈活的，可以很容易地適應(yīng)現(xiàn)有的預(yù)測模型。

MotionRNN：通常，基于RNN的時空預(yù)測模型采用堆疊塊的形式。在此框架中，隱狀態(tài)在預(yù)測塊之間的傳輸由內(nèi)門控制。然而，當涉及到時空變化的運動時，門控信息流將被不斷地對運動的瞬態(tài)變化做出的快速反應(yīng)所淹沒。此外，還缺乏運動趨勢建模。為了應(yīng)對時空變化運動建模的挑戰(zhàn)，MotionRNN框架在不改變原始狀態(tài)轉(zhuǎn)換流的情況下，將堆疊層之間的MotionGRU單元作為操作符納入。MotionGRU可以捕捉運動，并根據(jù)學習到的運動將狀態(tài)轉(zhuǎn)換到隱藏狀態(tài)。然而，當過渡特征穿過多層時，運動會模糊甚至消失。因此，MotionRNN引入了運動Highway，為運動上下文信息提供了另一種捷徑。通過輸出門的復(fù)用，將預(yù)測塊的輸出與之前的隱含狀態(tài)進行補償。這種Highway連接為隱藏狀態(tài)提供了額外的細節(jié)，并平衡了不變部分和可變運動部分。MotionRNN框架將MotionGRU插入到原始RNN塊的各層之間。

MotionGRU：對于時空變化的運動建模，提出了MotionGRU單元，通過對運動變化建模來進行基于運動的狀態(tài)轉(zhuǎn)換。在視頻預(yù)測中，運動可以表示為對應(yīng)于RNN中隱藏狀態(tài)轉(zhuǎn)換的像素位移。使用MotionGRU來學習相鄰狀態(tài)之間的像素偏移量。學習到的像素偏移量由運動濾波器表示。考慮到真實世界的運動是由瞬態(tài)變化和運動趨勢組成的，在MotionGRU中專門設(shè)計了兩個模塊，分別對這兩個模塊進行建模。如下所示：

瞬態(tài)變化：在視頻中，每個時間步長的瞬態(tài)變化不僅基于空間語境，而且具有較高的時間相關(guān)性。例如，一個男人揮舞的手在相鄰的框架之間幾乎是連續(xù)的手臂旋轉(zhuǎn)角度。基于瞬態(tài)變化的時空相關(guān)性，采用ConvGRU來學習瞬態(tài)變化。通過ConvGRU，學習到的瞬態(tài)變化能夠考慮到瞬態(tài)狀態(tài)，并保持變化的時空一致性。

運動趨勢：在跑步的場景中，這個人的身體每走一步都會上下擺動，同時他還會繼續(xù)前進。在這種情況下，運動遵循向前的趨勢。在視頻預(yù)測中，通常需要通過整個幀序列來獲得運動趨勢。然而，這是很難實現(xiàn)的。這種困境類似于強化學習中的獎勵預(yù)測。受時序差分學習的啟發(fā)，采用一種累積的方法來捕捉運動變化模式。使用之前的運動濾波器作為當前運動趨勢的估計，該運動濾波器由瞬態(tài)變化和趨勢動量組合而成。趨勢動量是運動濾波器的動量更新，也在偏移空間中。通過動量更新，這種趨勢估計具有更大的跨時間系數(shù)。在學習到的運動濾波器的基礎(chǔ)上，通過Warp運算得到新的過渡狀態(tài)。

實驗細節(jié)

主干模型。為了驗證MotionRNN的通用性，使用多個預(yù)測模型作為主干模型，包括ConvLSTM、PredRNN、MIM和E3D-LSTM。在所有的基準測試中，基于這些模型的MotionRNN有四個堆疊的塊，包含64個通道隱藏狀態(tài)。對于E3D-LSTM，將MotionGRU內(nèi)部的編碼器和解碼器替換為3D卷積，將3D feature map降采樣為2D，其他操作保持不變。

訓練過程。使用L1+L2 loss進行訓練，以同時增強生成幀的銳度和平滑度，使用初始學習速率為0.0003的ADAM優(yōu)化器。動量因子α設(shè)置為0.5。為了提高內(nèi)存效率，MotionGRU的學習過濾器大小被設(shè)置為3×3。批處理的大小設(shè)置為8，訓練過程在100,000次迭代后停止。所有實驗都在PyTorch中實現(xiàn)，在NVIDIA TITAN-V GPUs上進行。

測試基準。在以下三個具有挑戰(zhàn)性的基準上廣泛評估我們提出的MotionRNN：

人類運動。采用human3.6M數(shù)據(jù)集，該數(shù)據(jù)集包含來自真實世界的17個不同場景的360萬種姿勢的人類動作。將每個RGB幀的大小調(diào)整為128×128的分辨率。現(xiàn)實生活中的人類運動要復(fù)雜得多。例如，當一個人在走路的時候，人體的不同部位會有不同的短暫變化，例如胳膊和腿在彎曲，身體在搖擺。復(fù)雜的運動變化將使預(yù)測真實人體的運動成為一項非常具有挑戰(zhàn)性的任務(wù)。

降水臨近預(yù)報。降水臨近預(yù)報是視頻預(yù)報的重要應(yīng)用。惡劣天氣雷達回波的累積、變形、消散或擴散是預(yù)報的難點。該基準使用了上海雷達數(shù)據(jù)集，其中包含了來自上海氣象局的不斷變化的雷達地圖。上海的數(shù)據(jù)集有40000個連續(xù)的雷達觀測數(shù)據(jù)，每12分鐘收集一次，36000個序列用于訓練，4000個序列用于測試。每一幀都被調(diào)整為64×64的分辨率。

變化的移動數(shù)字。引入了由64×64的分辨率的幀序列組成的變化移動MNIST (V-MNIST)數(shù)據(jù)集。之前移動MNIST或MNIST++的數(shù)字移動速度較低，沒有數(shù)字變化。相比之下，變化的移動MNIST迫使所有數(shù)字同時移動、旋轉(zhuǎn)和縮放。V-MNIST是通過對兩個不同的MNIST數(shù)字采樣而實時生成的，其中100,000個序列用于訓練，10,000個序列用于測試。

評價指標。對于人類運動，使用框架結(jié)構(gòu)相似度指數(shù)測度(SSIM)，均方誤差(MSE)，平均絕對誤差(MAE)來評價我們的模型。除了這些常見的度量標準，還使用Fr′echet視頻距離(FVD)，這是人類對生成視頻的定性判斷的度量標準。FVD既可以測量視頻內(nèi)容的時間一致性，也可以測量每幀視頻的質(zhì)量。對于降水臨近預(yù)報，預(yù)測過去5次觀測的未來10個雷達回波幀，包括未來兩小時的天氣情況。使用梯度差分損失（GDL）來測量預(yù)測幀的銳度。GDL越低，真實銳度相似度越高。對于雷達回波強度，將dBZ中的像素值進行轉(zhuǎn)換，將Critical Success Index(CSI)分別在閾值為30dbz、40dbz、50dbz進行比較。CSI定義為CSI = Hits+Misses+ FalseAlarms，其中Hits對應(yīng)Hits true positive，Misses對應(yīng)false positive，false alarms對應(yīng)false negative。CSI越高，預(yù)測效果越好。與MSE相比，CSI度量方法對總是伴隨著高變化的運動的高強度回波特別敏感。對于變化的移動數(shù)字，根據(jù)之前的10幀預(yù)測未來的10幀。使用MSE、SSIM、GDL和峰值信噪比(PSNR)作為評價指標。

實驗結(jié)果表明，Motion Highway可以有效地避免運動模糊，并將物體限制在正確的位置。MotionRNN在上述的三個基準上都取得了最先進的性能。

結(jié)論

與以前的預(yù)測學習方法不同，本文方法側(cè)重于對運動內(nèi)的變化進行建模，它可以根據(jù)時空信息學習顯式的瞬態(tài)變化，并從之前的積累中以統(tǒng)一的方式記住運動趨勢。

MotionRNN不會改變原始預(yù)測模型中的狀態(tài)轉(zhuǎn)換流。因此，MotionRNN具有很高的靈活性，可以適應(yīng)多種預(yù)測框架，如ConvLSTM、PredRNN、MIM、E3D-LSTM以及其他基于RNN的預(yù)測模型。在現(xiàn)有預(yù)測模型的基礎(chǔ)上，可以顯著地增強時空變運動建模。

通過MotionGRU和Motion Highway，本文提出的MotionRNN框架可以應(yīng)用于各種運動變化的場景，無縫補償現(xiàn)有的模型。

總結(jié)

以上是生活随笔為你收集整理的CVPR2021 MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Debezium同步之DB2数据到Kaf
下一篇：中国过氧化二异丙苯市场投资状况分析与前景