CVPR2021 MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions
動機
1、現(xiàn)實世界的運動是非常復(fù)雜的,總是在空間和時間上變化。在降水預(yù)報中,要準確預(yù)測隨時空變化的運動,如雷達回波的變形、積累或消散,具有極大的挑戰(zhàn)性。
2、最新的已知的視頻預(yù)測模型,如PredRNN、MIM和Conv-TT-LSTM,主要關(guān)注于捕捉隨時間的變化簡單的狀態(tài)轉(zhuǎn)換。它們忽略了運動中復(fù)雜的變化,所以在高度變化的情況下不能準確地預(yù)測。
3、基于光流的方法使用局部不變狀態(tài)轉(zhuǎn)換來捕捉短期的時間依賴性,但缺乏對長期運動趨勢的表征。當建模不斷變化的運動時,這些方法的效果可能會嚴重退化。
4、本文發(fā)現(xiàn),物理世界的運動可以自然地分解為瞬態(tài)變化和運動趨勢。考慮到運動的分解,應(yīng)該捕捉運動的瞬態(tài)變化和運動趨勢,以便更好地進行時空變運動預(yù)測。
瞬態(tài)變化可以看成是各局部區(qū)域瞬時的變形、耗散、速度變化等變化。例如,當一個人跑步時,身體的不同部位會隨著時間發(fā)生各種短暫的運動變化,例如左右腿交替向前走。而且,自然的時空過程,特別是物理運動也遵循著這一規(guī)律。視頻的運動趨勢可以看成是運動遵循視頻序列中物理世界背后的特征,例如物體的慣性,雷達回波的氣象學,或其他物理定律。
方法
提出了一種新的MotionRNN框架。為了能夠?qū)r空變化的運動進行更有表現(xiàn)力的建模,MotionRNN設(shè)計了MotionGRU單元,用于高維隱藏狀態(tài)的轉(zhuǎn)換,該單元分別被專門設(shè)計用來捕捉瞬態(tài)變化和運動趨勢。受ResNet中殘差shortcuts的啟發(fā),在提出的框架內(nèi)跨層次改進了運動Highway,以防止捕獲的運動消失,并為MotionRNN提供有用的上下文時空信息。MotionRNN是靈活的,可以很容易地適應(yīng)現(xiàn)有的預(yù)測模型。
MotionRNN:通常,基于RNN的時空預(yù)測模型采用堆疊塊的形式。在此框架中,隱狀態(tài)在預(yù)測塊之間的傳輸由內(nèi)門控制。然而,當涉及到時空變化的運動時,門控信息流將被不斷地對運動的瞬態(tài)變化做出的快速反應(yīng)所淹沒。此外,還缺乏運動趨勢建模。為了應(yīng)對時空變化運動建模的挑戰(zhàn),MotionRNN框架在不改變原始狀態(tài)轉(zhuǎn)換流的情況下,將堆疊層之間的MotionGRU單元作為操作符納入。MotionGRU可以捕捉運動,并根據(jù)學習到的運動將狀態(tài)轉(zhuǎn)換到隱藏狀態(tài)。然而,當過渡特征穿過多層時,運動會模糊甚至消失。因此,MotionRNN引入了運動Highway,為運動上下文信息提供了另一種捷徑。通過輸出門的復(fù)用,將預(yù)測塊的輸出與之前的隱含狀態(tài)進行補償。這種Highway連接為隱藏狀態(tài)提供了額外的細節(jié),并平衡了不變部分和可變運動部分。MotionRNN框架將MotionGRU插入到原始RNN塊的各層之間。
MotionGRU:對于時空變化的運動建模,提出了MotionGRU單元,通過對運動變化建模來進行基于運動的狀態(tài)轉(zhuǎn)換。在視頻預(yù)測中,運動可以表示為對應(yīng)于RNN中隱藏狀態(tài)轉(zhuǎn)換的像素位移。使用MotionGRU來學習相鄰狀態(tài)之間的像素偏移量。學習到的像素偏移量由運動濾波器表示。考慮到真實世界的運動是由瞬態(tài)變化和運動趨勢組成的,在MotionGRU中專門設(shè)計了兩個模塊,分別對這兩個模塊進行建模。如下所示:
實驗細節(jié)
主干模型。為了驗證MotionRNN的通用性,使用多個預(yù)測模型作為主干模型,包括ConvLSTM、PredRNN、MIM和E3D-LSTM。在所有的基準測試中,基于這些模型的MotionRNN有四個堆疊的塊,包含64個通道隱藏狀態(tài)。對于E3D-LSTM,將MotionGRU內(nèi)部的編碼器和解碼器替換為3D卷積,將3D feature map降采樣為2D,其他操作保持不變。
訓練過程。使用L1+L2 loss進行訓練,以同時增強生成幀的銳度和平滑度,使用初始學習速率為0.0003的ADAM優(yōu)化器。動量因子α設(shè)置為0.5。為了提高內(nèi)存效率,MotionGRU的學習過濾器大小被設(shè)置為3×3。批處理的大小設(shè)置為8,訓練過程在100,000次迭代后停止。所有實驗都在PyTorch中實現(xiàn),在NVIDIA TITAN-V GPUs上進行。
測試基準。在以下三個具有挑戰(zhàn)性的基準上廣泛評估我們提出的MotionRNN:
評價指標。對于人類運動,使用框架結(jié)構(gòu)相似度指數(shù)測度(SSIM),均方誤差(MSE),平均絕對誤差(MAE)來評價我們的模型。除了這些常見的度量標準,還使用Fr′echet視頻距離(FVD),這是人類對生成視頻的定性判斷的度量標準。FVD既可以測量視頻內(nèi)容的時間一致性,也可以測量每幀視頻的質(zhì)量。對于降水臨近預(yù)報,預(yù)測過去5次觀測的未來10個雷達回波幀,包括未來兩小時的天氣情況。使用梯度差分損失(GDL)來測量預(yù)測幀的銳度。GDL越低,真實銳度相似度越高。對于雷達回波強度,將dBZ中的像素值進行轉(zhuǎn)換,將Critical Success Index(CSI)分別在閾值為30dbz、40dbz、50dbz進行比較。CSI定義為CSI = Hits+Misses+ FalseAlarms,其中Hits對應(yīng)Hits true positive,Misses對應(yīng)false positive,false alarms對應(yīng)false negative。CSI越高,預(yù)測效果越好。與MSE相比,CSI度量方法對總是伴隨著高變化的運動的高強度回波特別敏感。對于變化的移動數(shù)字,根據(jù)之前的10幀預(yù)測未來的10幀。使用MSE、SSIM、GDL和峰值信噪比(PSNR)作為評價指標。
實驗結(jié)果表明,Motion Highway可以有效地避免運動模糊,并將物體限制在正確的位置。MotionRNN在上述的三個基準上都取得了最先進的性能。
結(jié)論
與以前的預(yù)測學習方法不同,本文方法側(cè)重于對運動內(nèi)的變化進行建模,它可以根據(jù)時空信息學習顯式的瞬態(tài)變化,并從之前的積累中以統(tǒng)一的方式記住運動趨勢。
MotionRNN不會改變原始預(yù)測模型中的狀態(tài)轉(zhuǎn)換流。因此,MotionRNN具有很高的靈活性,可以適應(yīng)多種預(yù)測框架,如ConvLSTM、PredRNN、MIM、E3D-LSTM以及其他基于RNN的預(yù)測模型。在現(xiàn)有預(yù)測模型的基礎(chǔ)上,可以顯著地增強時空變運動建模。
通過MotionGRU和Motion Highway,本文提出的MotionRNN框架可以應(yīng)用于各種運動變化的場景,無縫補償現(xiàn)有的模型。
總結(jié)
以上是生活随笔為你收集整理的CVPR2021 MotionRNN: A Flexible Model for Video Prediction with Spacetime-Varying Motions的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Debezium同步之DB2数据到Kaf
- 下一篇: 中国过氧化二异丙苯市场投资状况分析与前景