无需Grouping,中科大和微软亚研院提出Group-Free的三维物体检测方法,性能远超之前最好方法。...
?PaperWeekly 原創 ·?作者|劉澤
學校|微軟亞洲研究院實習生
研究方向|計算機視覺與深度學習
無需 Grouping,中科大和微軟亞研院提出 Group-Free 的三維物體檢測方法,性能遠超之前最好方法。
論文標題:
Group-Free 3D Object Detection via Transformers
論文鏈接:
https://arxiv.org/pdf/2104.00678
代碼地址:
https://github.com/zeliu98/Group-Free-3D
?
近年來,從三維點云中直接檢測三維物體得到了越來越多的關注。為了從不規則的點云中提取物體的特征,目前的方法通常都會借助點聚合操作(Point Grouping)為某個候選物體聚合對應的點,進而可以從聚合的點中提取候選物體的特征。
人們提出了許多不同的聚合策略,Frustum-PointNet [1] 首先使用二維圖像生成二維候選框,再將二維候選框包含的三維空間中的點聚合在一起;Point R-CNN [2]?直接生成三維候選框,并將三維候選框中的點聚合在一起;VoteNet [3] 則通過 Hough Voting 將 voting 到同一或空間相近的物體中心的點聚合在一起。
盡管這些人工設計的聚合策略在目前的三維物體檢測器中起到了至關重要的作用,但真實場景的復雜和多樣性往往會導致這些點聚合方法產生錯誤(例如圖1),并損害檢測器的性能。
?
▲ [圖1] 在人工設計的點聚合方法中,RoI-Pooling 的藍色框和 Voting 的藍色球中的所有點都被聚合到同一候選物體,從而產生了錯誤。本文的無需聚合(Group-Free)方法可以自動學習每個點對每個物體的貢獻,從而可以緩解手工設計的聚合方法的弊端。
?
本文提出了一種簡單而有效的方法從點云中直接檢測三維物體,而不需要借助手工設計的點聚合策略。我們方法的核心在于使用 Transformer [4] 中的注意力機制來利用點云中的所有點來計算物體特征,每個點對物體的貢獻通過網絡訓練而自動學習獲得。
為了進一步發揮 Transformer 架構的優勢,本文還提出了迭代式邊界框預測(Iterative Box Prediction)與多階段預測整合(Ensemble Multi-stage Predictions),進一步提升了物體檢測的準確度。
我們提出的方法在兩個被廣泛使用的三維物體檢測基準測試 ScanNet V2 和 SUN RGB-D 中都取得了目前最好的表現。其中,SUN RGB-D 取得了?62.8 mAP@0.25 和 42.3 mAP@0.5,ScanNet V2 則取得了 69.1mAP@0.25 和 52.8 mAP@0.5,遠超之前的方法。
?
方法介紹
在基于點云的三維物體檢測中,檢測器的輸入是個點的集合 ,目標是檢測出點云中三維物體的邊界框以及物體類別。
本文的整體架構如圖 2 所示,它主要由三部分構成:一個主干網絡(backbone network),用來提取點云中每個點的特征;一個初始候選物體采樣模塊(initial object candidates sampling module);一組堆疊的注意力模塊(stacked attention modules),用于從所有點中迭代提取并改進候選物體的特征。
?
▲ [圖2] 整體架構示意
?
1.1 骨干網絡(Backbone Network)
為了與其他方法做公平的比較,本文選取了 PointNet++ [5] 作為主干網絡,并采用了一個編碼-解碼器的結構。它以 N 個點作為輸入,首先通過 4 階段的集合抽象層(set abstraction layer)逐漸降采樣 8 倍(例如得到 256 個點),再通過特征傳播層(feature propagation layer)上采樣 2 倍(例如得到 1024 個點)。
通過骨干網絡最終產生 2 倍降采樣的每個點的維特征,這些特征會進一步被初始候選物體采樣模塊與堆疊的注意力模塊所使用。
1.2 初始候選物體采樣(Initial Object Candidate Sampling)
本文通過自底向上的方式從點云中直接采樣初始的候選物體,并提供了一種簡單高效的采樣方式:K 最近點采樣(k-Closest Points Sampling,KPS)。
在本方法中,每個點會去分類他們屬于某個物體的概率,并采樣分類概率較高的點。分類的標簽由點離真值框中心的距離決定,每個真值框最近的 k 個點定義為正樣本,其余點為負樣本。
1.3 基于Transformer解碼器進行迭代的物體特征提取和邊界框預測(Iterative Object Feature Extraction and Box Prediction by Transformer Decoder)
利用采樣得到的初始候選物體,本文采用 Transformer 作為解碼器,利用點云上的所有點來計算每個候選物體的特征。Transformer 由一系列堆疊的多頭自注意力(multi-head self-attention)模塊和多頭交叉注意力(multi-head cross-attention)模塊以及前饋網絡(feed-forward network,FFN)構成,如圖 3 所示。
其中自注意力模塊在不同物體之間交互信息,而交叉注意力模塊則可以利用點特征更新物體特征,前饋網絡則進一步變換每個物體的特征。
?
▲ [圖3] 注意力模塊示意
在原始的 Transformer 中,空間位置編碼(spatial encoding)是固定的。而在本文中,我們提出了一種迭代改進式的空間位置編碼方法。
具體來說,本文在每個解碼器階段都會進行邊界框的預測,而上一階段的預測框可被用來產生當前階段同一物體改進后的位置編碼,同時該位置編碼還會與當前階段解碼器的輸出特征結合,作為下一階段解碼器的輸入特征。
在實驗中,我們發現這種迭代式的空間位置編碼方法可以在 ScanNet V2 中提升 1.6 mAP@0.25 和 5.0 mAP@0.5。
?
多階段的預測還帶了另外一個好處,即可以將不同階段的預測結果進行整合。具體來說,不同階段的預測框將被組合在一起進行非極大值抑制(NMS)并得到最后的預測結果。本文發現在 SUN RGB-D 上,該方法可以提高 3.9 mAP@0.25。
實驗分析
2.1 系統比較
表 1 展示了 ScanNet V2 上的系統比較結果。
▲ [表1] 在 ScanNet V2 上與目前最先進方法的比較。4×PointNet++ 表示使用了 4 個獨立的PointNet++;PointNet++w2× 表示骨干網絡的寬度增大一倍;L 為解碼器深度,O 為候選物體個數。
可以看到,在使用標準 PointNet++ 作為骨干網絡的情況下,本文的基礎模型(6 層解碼器以及 256 個候選物體)達到了 67.3 mAP@0.25 和 48.9 mAP@0.5,比之前使用同樣骨干網絡的最好的方法分別高 2.8 和 5.5。進一步提高至 12 層解碼器,mAP@0.5 的差距進一步拉大到 6.3。
在使用更強的骨干網絡(PointNet++w2×)以及更多候選物體(512 個)的情況下,本文放大達到了69.1 mAP@0.25 和 52.8 mAP@0.5,遠遠超出之前最好方法。
?
表 2 展示了 SUN RGB-D 上的系統比較結果。
▲ [表2] 在 SUN RGB-D 上與目前最先進方法的比較,其中 imVoteNet 使用了額外的 RGB 圖像數據。
在 SUN RGB-D 上,本文的基礎模型達到了 62.8 mAP@0.25 和 42.3 mAP@0.5,超過之前所有只用點云作為輸入的方法。
2.2 與點聚合方法的比較
RoI-Pooling 以及 Voting 是兩種被廣泛使用的點聚合方法,表 3 展示了本文方法與這兩種方法的比較。可以看到,RoI-Pooling 效果好于 Voting,但仍然落后本文方法 1.2 mAP@0.25 與 4.1 mAP@0.5,這證明了我們方法相較于基于點聚合方法的優勢。
▲ [表3] 與基于點聚合的方法的比較
?
2.3 可視化結果
圖4展示了不同解碼器階段檢測結果的定性展示。可以看到隨著解碼器變深,檢測結果越來越精確。
▲ [圖4] 不同解碼器階段檢測結果的定性展示
圖 5 展示了不同解碼器階段學習到的交叉注意力權重,我們可以看到低階段往往集中在相鄰點上,而通過多次改進模型將注意力更多集中在物體本身,從而可以提取更好的物體特征。
▲ [圖5] 不同解碼器階段交叉注意力權重的可視化。綠點表示參考點,紅色表示權重較高區域。
?
參考文獻
[1] Charles R Qi, Wei Liu, Chenxia Wu, Hao Su, and Leonidas J Guibas. Frustum pointnets for 3d object detection from rgbd data. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 918–927, 2018.
[2] Shaoshuai Shi, Xiaogang Wang, and Hongsheng Li. Pointrcnn: 3d object proposal generation and detection from point cloud. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–779, 2019.
[3] Charles R Qi, Or Litany, Kaiming He, and Leonidas J Guibas. Deep hough voting for 3d object detection in point clouds. In Proceedings of the IEEE International Conference on Computer Vision, pages 9277–9286, 2019.
[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need, 2017.
[5] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In NIPS, 2017.
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的无需Grouping,中科大和微软亚研院提出Group-Free的三维物体检测方法,性能远超之前最好方法。...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 平准基金是什么
- 下一篇: 储能行业龙头股票 每一个热点都离不开储能