Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读
Action4D:人群和雜物中的在線動作識別:CVPR209論文閱讀
Action4D: Online Action Recognition in the
Crowd and Clutter
論文鏈接:
http://openaccess.thecvf.com/content_CVPR_2019/papers/You_Action4D_Online_Action_Recognition_in_the_Crowd_and_Clutter_CVPR_2019_paper.pdf
摘要
在擁擠雜亂的環境中識別每個人的行為是計算機視覺中一項具有挑戰性的任務。本文建議解決這個具有挑戰性的問題,使用一個整體的4D“掃描”雜亂的場景,包括每個細節的人和環境。這就產生了一個新的問題,即在雜亂的4D表示中識別多人的行為。
首先,本文提出了一種新的四維跟蹤方法,能夠可靠地實時檢測和跟蹤每個人。 然后,本文建立了一個新的深層神經網絡Action4DNet來識別每個被跟蹤者的行為。這樣的模型在真實環境中提供了可靠和準確的結果。
為了進一步提高模型的性能,本文還設計了一個自適應的三維卷積層和一個新的判別時間特征學習目標。本文的方法對攝像機視角不變,抗雜波,能夠處理人群。
實驗結果表明,該方法快速、可靠、準確。本文的方法為實際應用中的動作識別鋪平了道路,并準備部署到智能家居、智能工廠和智能商店中。
- Introduction
本文提出了一個新的Action4DNet,利用在線4D建模來識別雜亂環境中每個主體的行為。 本文的工作有以下貢獻:
?本文解決了在雜亂的4D海量數據中識別多人行為的新問題。
?本文提出了一種利用4D立體數據實時檢測和跟蹤人的新方法。
?本文提出了一種新的深層神經網絡Action4DNet,用于動作識別。本文設計了一個自適應卷積層來處理來自多個攝像機傳感器的噪聲。本文還提出了一種新的判別損失,以在序列動作識別中獲得更好的時間特征學習。據本文所知,本文的方法是首次嘗試將深層神經網絡應用于雜亂的“整體”4D立體數據,用于在線幀式動作識別。
?本文在實驗中收集并標記了一個新的4D數據集。目前還沒有包含多人和雜波的4D動作識別數據集。本文將發布數據集。
?本文提出的方法能夠抵抗擁擠和干擾,并且可以直接用于復雜的實際應用。
- Method
本文的任務是識別個人在雜亂擁擠的環境中的行為。本文的方法從構建每個時刻的整個場景的三維體表示開始。在此基礎上,提出了一種基于場景三維體數據序列的人體檢測與跟蹤方法。這樣,本文可以在每個時間瞬間裁剪每個以人為中心的三維立體。本文的4D跟蹤器將這些關聯的3D立體序列用作構建Action4DNet的輸入。以下各節將討論詳細信息。
在本文能夠識別出每個人的行為之前,檢測場景中的每個對象是一個必要的步驟。為了動作識別,本文還需要在一段時間內觀察每一個對象。因此本文需要追蹤現場的每個人。跟蹤也有助于消除虛假的人的檢測和找回失蹤的人。以往的多人跟蹤方法大多采用背景減法去除背景差異。不幸的是,背景減法或圖形/地面分離對于無約束的動態環境是困難的。
本文的4D跟蹤器不需要圖形/地面分離,能夠直接處理有噪聲的4D數據。給出了一組經過標定的RGBD圖像,建立了整個場景的三維點云。這些卷構建在三維點云的頂部。如果體素O(i)中有一個點,本文將其占用率設為1。這些體素位于環境的場景表面。也可以填充每個對象的內部體素。然而,本文的實驗表明,如此密集的表象對動作識別并沒有多大好處。因此,本文在這項工作中只使用表面立體。
上面的跟蹤器在每一個時刻都能給本文精確的物體三維位置,可以用來裁剪出三維物體進行動作識別。圖4顯示了裁剪立體表示,其中人員位于中心。即使在背景雜亂的情況下,音量表示也清晰地顯示出一個人的動作。事實上,由于背景對象的上下文信息,它們是動作識別的理想對象。
本文處理4D立體(3D立體序列)數據,以推斷每個時刻的動作。還有很多其他的線索可以用來推斷一個人的動作,例如,身體姿勢,身體部位的運動,以及被試正在處理的物體。例如,如果本文看到一個人下面有一把椅子,本文可以推斷這個人 坐。潛在的,每個人的位置或速度也可以用來推斷具體的行動。
然而,在本文中,本文僅依靠立體數據來建立本文的4D動作識別模型。本文構造了深度卷積神經網絡Action4DNet,用于精確的動作識別。輸入的4D立體通過一系列3D卷積層與3D池層組合以產生動作特征。同時,本文還建議使用一個輔助注意網,這將在下面的小節中詳細討論。這些特征在每個時刻都被輸入到一個遞歸神經網絡(RNN)中,以聚集時間信息進行最終動作分類。在下面,本文將更詳細地介紹網絡結構。
- Experimental results
在這一部分中,本文評估了所提出的4D方法的動作識別,并將本文的方法與不同的競爭方法進行了比較。
為了評估該方法的性能,本文收集了一個4D動作識別數據集。通過設置3個不同的環境(Env1、Env2和Evn3)和不同數量的Kinect V2攝像機來采集RGBD圖像,生成動態場景的4D體表示。這三個環境位于不同背景的不同房間。本文以每幀的方式標記視頻:每個視頻幀都有一個動作標簽。本文還使用每幀的準確度評估了所有的動作識別模型。本文數據集的統計數據匯總在表1中。
本文將提出的方法與不同的基線方法進行比較。基線包括:
?形狀文本256和形狀文本512:
三維形狀上下文是形狀上下文[3]描述符的三維版本。三維形狀上下文具有高度軸和角度軸均勻分區,以及徑向軸對數分區。
本文測試了兩個版本的三維形狀上下文:
ShapeContext256有256個存儲箱,ShapeContext512有512個存儲箱。本文建立了一個以三維形狀上下文描述符為輸入的深度網絡。該網絡使用LSTM網絡來聚合時間信息。
?時刻:
矩是另一種流行的形狀描述。本文使用4階的原始時刻。與上述形狀上下文方法類似,矩描述子被輸入CNN進行動作識別。
?骨骼:
OpenPose[6]是RGB圖像上最先進的棒形檢測器之一。本文使用頸點規范化每個對象關節的位置,然后將xy坐標連接到特征向量中。本文使用與上述形狀上下文方法相似的方法來訓練深度網絡。
?顏色+深度:
在這種方法中,本文根據本文的跟蹤結果來確定每個人的邊界框。本文從所有攝像機中裁剪視頻中每個人的顏色和深度圖像。本文使用裁剪后的顏色和深度圖像及其動作標簽來訓練一個深度神經網絡。公平地說,本文在本文的所有方法中都沒有使用動議。
?點網絡:
PointNet[20]是目前最先進的三維點云目標識別和語義分割的深度學習方法之一。本文將點網模型擴展為包含一個LSTM層,以便它能夠處理用于動作識別的序列數據。利用多幅RGBD圖像的點云,可以對網絡進行端到端的訓練。
?I3D和NL-I3D:
嵌入式3D ConvNet[7](I3D)在RGB視頻上實現了最先進的動作識別。本文還與非局部I3D[27](NL-I3D)進行了比較,后者引入了非局部操作,以便更好地進行遠程相關性建模。
?SparseConvNet
SparseConvNet[10]定義了子流形卷積,它跟蹤“活動”站點以減少計算開銷。本文使用3D卷和LSTM頭訓練SparseConvNet來識別3D流中的動作。
表3、表4和表5表明,本文提出的方法始終比所有競爭方法給出更好的結果。高精度還得益于本文可靠的4D人員跟蹤器,它獲得了所有測試和培訓視頻100%的跟蹤率。本文的方法也很快,使用一個GTX1080 TI,本文的方法能夠跟蹤10個人,并推斷他們的行動在15幀/秒(FPS)對立體空間為50毫米×50毫米×50毫米體素。在25毫米×25毫米×25毫米的體素上,一個人可以以25 FPS的速度識別動作。
圖7顯示了三個不同測試中Action4DNet的混淆矩陣。有趣的是,在測試二和測試三中發現了許多缺失的檢測。特別是,對于彎腰動作,測試2和測試3都有超過40%的識別缺失。這可能是由于這種行為的巨大變化和不同的地面真值標簽使用的不一致的標簽標準。同時,本文的方法還混淆了一些如圖7所示的操作。這主要是由于來自Kinect傳感器的噪聲數據。使用更好的深度相機和更好的時間同步,本文的動作識別結果可以進一步提高。此外,本文還可以進一步包含顏色等其他體素屬性,并使用多分辨率體數據來獲得更穩健的結果。
- Conclusion
本文提出了一種新的在線4D動作識別方法Action4DNet,它能夠生成4D的環境立體,跟蹤三維空間中的每個人,并推斷出每個人的動作。本文的方法能夠處理多人和強雜波。特別是,提出的自適應卷積層和判別時間特征學習目標進一步提高了模型的性能。本文在不同環境下的實驗結果證明了本文的方法在不同的競爭方法下具有更好的性能。所提出的方法可以被部署以使不同的應用程序能夠增強人們與環境的交互方式。
總結
以上是生活随笔為你收集整理的Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度学习点云语义分割:CVPR2019论
- 下一篇: 快速人体姿态估计:CVPR2019论文阅