视频预测领域有哪些最新研究进展?不妨看看这几篇顶会论文
作者丨文永亮
學校丨哈爾濱工業大學(深圳)碩士生
研究方向丨視頻預測、時空序列預測
ICCV 2019
這是卡耐基梅隆和 Facebook 的一篇 paper,這篇論文的關鍵在于分解實體預測再組成,我們觀察到一個場景是由不同實體經歷不同運動組成的,所以這里提出的方法是通過隱式預測獨立實體的未來狀態,同時推理它們之間的相互作用,并使用預測狀態來構成未來的視頻幀,從而實現了對實體分解組成的視頻預測。?
該論文使用了兩個數據集,一個是包含可能掉落的堆疊物體 ShapeStacks,另一個包含人類在體育館中進行活動的視頻 Penn Action,并表明論文的方法可以在這些不同的環境中進行逼真的隨機視頻預測。
主要架構有下面三個部分組成:?
1. Entity Predictor(實體預測模塊):預測每一個實體表示的未來狀態;
2. Frame Decoder(幀解碼器):從實體表示中解碼成 frame;
3. Encoder(編碼器):把 frame 編碼成 u 作為 LSTM 的 cell-state 得到輸出記錄時序信息(最后其實就是 concat 進去,見如下)。
https://github.com/JudyYe/CVP/blob/c176a508e6cbddd60b932b76af8931f774e2efa0/cvp/graph.py#L349
模型將具有已知或者檢測到的實體位置的圖像作為輸入。每個實體均表示為其位置和隱式特征。每個實體的表示為,表示為預測的位置,表示為隱式特征,這樣的分解方便我們高效地預測每一個實體的未來狀態,給定當前實體表示形式和采樣的潛在變量,我們的預測模塊將在下一個時間步預測這些表示形式。我們所學的解碼器將預測的表示組合為代表預測的未來的圖像。在訓練期間,使用潛在編碼器模塊使用初始幀和最終幀來推斷潛在變量的分布。?
分解的思想一般都用 mask 來體現,就是把變化的與不變的用掩碼表示后在組合起來,預測變化的部分,這是分而治之的思想。?
讓表示在 g 的網絡結構下解碼每一個實體的特征和空間掩碼,讓 W?表示類似 Spatial Transformer Networks 的空間變化網絡,可以得到下面的實體的特征和掩碼和。
通過權重掩碼和各個特征的結合最后取平均,這樣我們就得到圖像級別的特征,即每一幀的特征,是常數的空間掩碼(論文取值為 0.1),其組成的特征表示如下:
上面的公式很好理解,⊙ 是像素乘法,⊕ 是像素加法,這個是加權后的背景特征與加權后的每個實體的特征的總和,最后除以權重和。這樣就得到了解碼的結果。
編碼器的作用是把各幀編碼成 u,u 的分布服從標準正態分布,所以需要拉近兩者之間的 KL 散度,u 作為 cell-state 輸入 LSTM 得到表示時間序列的隱狀態。
解碼損失就是實體表示經過解碼與真實圖像的 L1 損失。
預測損失即為解碼損失加上位置損失。
其總的損失函數即三個損失的和。
ICLR 2019
當我們與環境中的對象進行交互時,我們可以輕松地想象我們的行為所產生的后果:推一顆球,它會滾走;扔一個花瓶,它會碎掉。視頻預測中的主要挑戰是問題的模棱兩可,未來的發展方向似乎有太多。就像函數的導數能夠預測該值附近的走向,當我們預測非常接近的未來時我們能夠未來可期,可是當可能性的空間超出了幾幀之后,并且該問題本質上變成了多模的,即預測就變得更多樣了。
這篇把 GAN 和 VAE 都用在了視頻預測里,其實 GAN-VAE 在生成方面早有人結合,只是在視頻預測中沒有人提出,其實提出的 SAVP 是 SV2P (Stochastic Variational Video Prediction) 和SVG-LP (Stochastic Video Generation with a Learned Prior) 的結合。
▲?SV2P網絡結構
在訓練期間,隱變量從中采樣,對每一幀的生成都可以看作是對的重構,與被 Encoder 編碼為隱變量,前一幀與隱變量經過 G 模型之后得到預測幀要計算與當前幀的 L1 損失,使其生成要盡量相似。
在測試階段我們的隱變量從先驗分布直接采樣,與經過 G 生成下一幀的預測圖,所以需要同時拉近與的分布,其 KL 散度如下:
所以 G 和 E 的目標函數如下:
L1 損失并不是很能反映圖像的相似度,既然文章是 VAE 和 GAN 的結合,所以在下面提出了判別器去評判圖片質量。論文指出單純的 VAE 更容易產生模糊圖,這里加入的判別器是能夠分辨出生成視頻序列與真實視頻序列,這里是比較意想不到的地方,因為這里沒有使用直接的圖像判別器,而是判別生成序列與真實序列,其 D 判別器的網絡結構是使用了 3D 卷積基于 SNGAN 的,G 生成器是使用了 convLSTM 捕捉時空序列信息。
最后總的損失函數如下:
下面是論文中的實驗結果:
ICCV 2019
Non-Local ConvLSTM 是復旦大學和 B 站的論文,其實這篇不太算視頻預測方向,這是使用了在 ConvLSTM 中使用 Non-Local 結合前一幀增強圖像減少視頻壓縮的偽影,是視頻壓縮的領域,但是對我有些啟發,Non-Local 最初就是用于視頻分類的。?
SSIM是用來評價整張圖的質量,但是對于一張質量不好的圖來說他的 patch 并不一定差,對于一張好圖來說他的 patch 也不一定好,所以作者用 Non-Local 來捕捉兩幀之間特征圖間像素的相似性。
ConvLSTM 可以表示成下面的公式:
即 hidden state??是從上一次的 hidden state??和??經過 ConvLSTM-cell 得到的。?
而 NL-ConvLSTM 是在 ConvLSTM 的基礎上加了 Non-local 的方法,可以表示如下:
其中是當前幀與前一幀的的相似矩陣,這里的 Non-Local 的操作是一種特殊的 attention,這不是 self-attention,是比較前一幀獲得相似矩陣再計算 attention,NLWrap 操作可以用數學表達如下:
這里的公式估計論文寫錯了,我認為是:
但是由于 Non-local 計算量太大,作者提出了兩階段的 Non-Local 相似度估計,即池化之后做相似度計算如下:
CVPR 2019
這是清華大學的一篇 paper,作者 Yunbo Wang 也是 Eidetic 3D LSTM,PredRNN++,PredRNN 的作者,自然時空序列的發生過程常常是非平穩( Non-Stationarity )的,在低級的非平穩體現在像素之間的空間相關性或時序性,在高層語義特征的變化其實體現在降水預報中雷達回波的積累,形變或耗散。
上圖是連續 20 幀雷達圖變化,其中白色像素表示降水概率較高。第二、第三、最后一行:通過不同顏色的邊框表明相應局部區域的像素值分布、均值和標準差的變化。藍色和黃色框表明著生成的非平穩變化過程,紅色框表明了消散的過程,綠色框為形變過程。
▲?左邊為ST-LSTM?(Spatio-Temporal LSTM),右邊為加入了MIM模塊的LSTM
這篇論文的主要工作就是構造了 MIM 模塊代替遺忘門,其中這個模塊分為兩部分:MIM-N(非平穩模塊),MIM-S(平穩模塊)。
MIM-N 所有的門,,,和都用短期記憶的隱狀態的幀差更新,因為這樣強調了非平穩變換,最后得到特征差和作為 MIM-S 輸入,MIM-S 會根據原記憶和特征差決定變化多少,如果很小,意味著并不是非平穩變化,即變化得平穩,MIM-S 很大程度會繼續沿用;如果很大,則會重寫記憶并且更關注于非平穩變化。?
其數學表達式如下:
1. MIM-N:
2. MIM-S:
這一篇的實驗做的很全面,其效果如下,均達到了 state-of-the-art:?
Moving Mnist:
在數字集上的表現效果較好。?
Radar Echo:
其實可以看到 MSE 在預測第五幀才有明顯的優勢,CSI-40 和 CSI-50 其實并沒有明顯優勢。
總結
視頻預測是結合了時空序列信息的預測,其關鍵在于如何利用時序信息,ConvLSTM 就是把卷積直接與 LSTM 結合記錄時序信息,而在 VAE 相關的模型中時間序列被編碼成隱變量拼接起來。除了修改 LSTM-cell 的結構(e.g. MIM)或者其他的網絡結構嘗試捕捉其他信息,我們常見的一種思想就是分而治之,把變與不變用掩碼區分出來,有點像我之前解讀的一篇 BANet,這里的 CVP 方法甚至對實體直接進行預測,這些都是比較好的想法。
點擊以下標題查看更多往期內容:?
通過多標簽相關性研究提升神經網絡視頻分類能力
ICCV 2019?| 適用于視頻分割的全新Attention機制
從多視角RGB圖像生成三維網格模型Pixel2Mesh++
ICCV 2019 | 沉迷AI換臉?不如來試試“AI換衣”
ShapeMatchingGAN:打造炫酷動態的藝術字
ICCV 2019 | COCO-GAN: 通過條件坐標的部分圖像生成
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取更多論文推薦
總結
以上是生活随笔為你收集整理的视频预测领域有哪些最新研究进展?不妨看看这几篇顶会论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BERT+知识图谱:北大-腾讯联合推出知
- 下一篇: 细粒度情感分析任务(ABSA)的最新进展