當(dāng)前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

CVPR2020：基于层次折叠的跳跃式注意网络点云完成

發(fā)布時間：2023/11/28 生活经验 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR2020：基于层次折叠的跳跃式注意网络点云完成小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

CVPR2020：基于層次折疊的跳躍式注意網(wǎng)絡(luò)點(diǎn)云完成

Point Cloud Completion by Skip-Attention Network With Hierarchical Folding

論文地址：

https://openaccess.thecvf.com/content_CVPR_2020/papers/Wen_Point_Cloud_Completion_by_Skip-Attention_Network_With_Hierarchical_Folding_CVPR_2020_paper.pdf

摘要

點(diǎn)云完成的目的是從不完整區(qū)域中推斷出三維物體缺失區(qū)域的完整幾何圖形。以往的方法通常基于不完全輸入提取的全局形狀表示來預(yù)測完整點(diǎn)云。然而，在不完全點(diǎn)云的局部區(qū)域，全局表示往往會出現(xiàn)結(jié)構(gòu)細(xì)節(jié)信息丟失的問題。為了解決這一問題，我們提出了一種用于3D點(diǎn)云完成的跳過注意網(wǎng)絡(luò)（SA-Net）。我們的貢獻(xiàn)主要體現(xiàn)在以下兩個方面。首先，我們提出了一種跳躍注意機(jī)制，以有效地利用不完全點(diǎn)云在缺失部分推斷過程中的局部結(jié)構(gòu)細(xì)節(jié)。跳躍注意機(jī)制有選擇地從不完整點(diǎn)云的局部區(qū)域傳遞幾何信息，生成不同分辨率的完整點(diǎn)云，跳躍注意以可解釋的方式揭示完成過程。其次，為了充分利用跳轉(zhuǎn)注意機(jī)制在不同分辨率下所編碼的選定幾何信息，我們提出了一種新的分層折疊結(jié)構(gòu)保持解碼器來完成形狀的生成。分層折疊保留了上層生成的完整點(diǎn)云的結(jié)構(gòu)，通過逐步細(xì)化局部區(qū)域，使用相同分辨率的跳過注意幾何體。我們在ShapeNet和KITTI數(shù)據(jù)集上進(jìn)行了全面的實驗，結(jié)果表明所提出的SA網(wǎng)絡(luò)優(yōu)于最先進(jìn)的點(diǎn)云完成方法。

1.介紹

近年來，點(diǎn)云作為三維物體的一種形式受到了廣泛的關(guān)注，它可以方便地被三維掃描設(shè)備和深度相機(jī)訪問。然而，由這些設(shè)備產(chǎn)生的原始點(diǎn)云通常是稀疏的、有噪聲的，并且由于視角或遮擋的限制，大多具有嚴(yán)重的缺失區(qū)域[47]，這很難通過進(jìn)一步的形狀分析/渲染方法直接處理。因此，原始點(diǎn)云的預(yù)處理成為現(xiàn)實中許多三維計算機(jī)視覺應(yīng)用的重要要求。本文主要研究點(diǎn)云表示的三維形狀的缺失區(qū)域的完成問題。

點(diǎn)云完成的任務(wù)可以大致分解為兩個目標(biāo)[41,47]。第一個目標(biāo)是保留原始輸入點(diǎn)云的幾何形狀信息，第二個目標(biāo)是根據(jù)給定的輸入恢復(fù)丟失的區(qū)域。為了實現(xiàn)這兩個目標(biāo)，目前的研究通常遵循范式框架，從不完整的點(diǎn)云中學(xué)習(xí)全局形狀表示，并進(jìn)一步利用它來估計丟失的幾何信息[45，47，22]。然而，編碼后的全局形狀表示往往會受到不完整點(diǎn)云局部區(qū)域結(jié)構(gòu)細(xì)節(jié)信息丟失的影響，為了進(jìn)一步推斷丟失的幾何信息，必須充分保留這些細(xì)節(jié)信息。如圖1所示，為了預(yù)測飛機(jī)的完整機(jī)翼，網(wǎng)絡(luò)應(yīng)首先保留不完整點(diǎn)云中現(xiàn)有的左翼。然后，根據(jù)兩個相似機(jī)翼區(qū)域之間的模式相似性，網(wǎng)絡(luò)可以參考現(xiàn)有的左翼，從而推斷出缺失的右翼。

解決這個問題的一個直觀的想法是采用U-Net[35]這樣的跳轉(zhuǎn)連接機(jī)制，這種機(jī)制被廣泛用于圖像的局部區(qū)域重建和推理。但是，直接采用跳接方式完成點(diǎn)云計算存在兩個問題。首先，在文獻(xiàn)[35]中提出的跳躍連接不能直接應(yīng)用于無序輸入，因為它根據(jù)二維網(wǎng)格的像素順序連接特征向量。其次，在點(diǎn)云完成的任務(wù)中，并不是每一層分辨率下的所有局部區(qū)域特征都有助于形狀的推斷和重建。同樣地，用跳躍連接重新訪問它們可能會引入信息冗余，限制整個網(wǎng)絡(luò)的特征學(xué)習(xí)能力。

因此，為了在解決skipconnection問題的同時保留結(jié)構(gòu)細(xì)節(jié)信息，我們提出了一種新的用于點(diǎn)云完成的深度神經(jīng)網(wǎng)絡(luò)Skip-Attention網(wǎng)絡(luò)（SA-Net）。該網(wǎng)絡(luò)采用端到端的架構(gòu)設(shè)計，其中編碼器-解碼器架構(gòu)專門用于特征提取和形狀完成。跳過注意是指基于注意的特征管道，它以可解釋的方式揭示完成過程。跳躍注意有選擇地從不完整點(diǎn)云的局部區(qū)域傳遞幾何信息，以生成不同分辨率的完整點(diǎn)云。skip-attention使解碼器能夠充分利用和保留本地區(qū)域的結(jié)構(gòu)細(xì)節(jié)。與跳躍連接相比，跳躍注意可以推廣到無序點(diǎn)云，因為注意機(jī)制對輸入特征的順序沒有預(yù)先要求。此外，我們的跳躍注意為網(wǎng)絡(luò)在不同分辨率下重新訪問特征提供了一種注意選擇，使得網(wǎng)絡(luò)能夠有選擇地將編碼后的特征與期望的幾何信息結(jié)合起來，避免了信息冗余的問題。

為了在不同分辨率下充分利用跳轉(zhuǎn)注意所選擇的幾何信息，我們進(jìn)一步提出了一種分層折疊的結(jié)構(gòu)保持解碼器來生成完整的點(diǎn)云。分層折疊保留了在上層生成的點(diǎn)云結(jié)構(gòu)，通過使用來自編碼器的相同分辨率的跳過衰減幾何信息逐步細(xì)化局部區(qū)域。具體地說，解碼器具有與編碼器相同數(shù)量的分辨率級別，跳過注意將每個級別的編碼器連接到相應(yīng)級別的解碼器。為了分層折疊點(diǎn)云，我們建議從一個固定尺寸的二維平面以增加密度的方式采樣二維網(wǎng)格。與現(xiàn)有點(diǎn)云完成方法[47,41,45]中的解碼器相比，所提出的結(jié)構(gòu)保持解碼器能夠在整個分辨率水平下保留局部區(qū)域的結(jié)構(gòu)細(xì)節(jié)，這使得網(wǎng)絡(luò)能夠預(yù)測完整的形狀，在捕獲更多局部區(qū)域信息的同時保持全局形狀的一致性。我們的主要貢獻(xiàn)概括如下。

?我們提出了一種新的跳躍注意網(wǎng)絡(luò)（SA-Net）來完成點(diǎn)云任務(wù)，取得了最新的成果。此外，SA-Net的體系結(jié)構(gòu)還可以用于提高形狀分割的性能，并在無監(jiān)督的形狀分類中實現(xiàn)最先進(jìn)的結(jié)果。

?我們提出了跳躍注意機(jī)制，將編碼器的信息局部區(qū)域特征融合到不同分辨率的解碼器的點(diǎn)特征中，使得網(wǎng)絡(luò)能夠從不完整的點(diǎn)云中利用更詳細(xì)的幾何信息推斷缺失的區(qū)域。此外，跳過注意以可解釋的方式揭示完成過程。

?我們提出了一種用于高質(zhì)量點(diǎn)云生成的結(jié)構(gòu)保持解碼器。通過層次折疊，可以逐步細(xì)化不同分辨率下的點(diǎn)云，從而在不同分辨率下保持完整形狀的結(jié)構(gòu)。

2．相關(guān)工作

三維計算機(jī)視覺是近年來一個活躍的研究領(lǐng)域[5,11,10,12,29,13,31]，其中對三維形狀完成的研究有很多分支。例如，基于幾何的[40，2，42，23]方法利用部分輸入的曲面的幾何特征來生成3D形狀的缺失部分，基于對齊的方法[37，24，32，38]維護(hù)形狀數(shù)據(jù)庫并搜索相似的補(bǔ)丁來填充三維形狀的不完整區(qū)域。我們的方法屬于基于深度學(xué)習(xí)的方法，這得益于三維計算機(jī)視覺中深層神經(jīng)網(wǎng)絡(luò)的最新發(fā)展[9,28,20,16,18,15,17,14]。這個分支可以根據(jù)三維形狀的輸入形式進(jìn)一步分類。

體積形狀完成

三維體積形狀的完成是一個方向，從二維計算機(jī)視覺的進(jìn)步中受益匪淺。像3D-EPN[4]這樣的著名工作考慮了3D體積形狀的漸進(jìn)重建。而Han等人[8]將整體結(jié)構(gòu)的推斷與局部幾何特征相結(jié)合，直接生成高分辨率的完整三維體積形狀。最近，引入變分自動編碼器來學(xué)習(xí)形狀先驗，以推斷完整形狀的潛在表示[39]。盡管三維體數(shù)據(jù)的研究領(lǐng)域已經(jīng)取得了令人矚目的進(jìn)步，但計算成本與輸入數(shù)據(jù)的分辨率成立方關(guān)系，使得處理黑色形狀變得困難。

點(diǎn)云完成

基于點(diǎn)云的三維形狀完成是一個蓬勃發(fā)展的研究領(lǐng)域，得益于PointNet[33]和PointNet++[34]的開創(chuàng)性工作。點(diǎn)云作為三維形狀的一種緊湊表示方法，可以表示三維形狀的任意細(xì)節(jié)結(jié)構(gòu)，與三維體數(shù)據(jù)相比，存儲成本較小。最近一些著名的研究如PCN[47]、FoldingNet[45]和AtlasNet[7]通常從局部點(diǎn)云中學(xué)習(xí)全局表示，并根據(jù)學(xué)習(xí)到的全局特征生成完整的形狀。遵循同樣的實踐，TopNet[41]中提出了一種樹結(jié)構(gòu)解碼器，以更好地生成結(jié)構(gòu)感知的點(diǎn)云。通過將強(qiáng)化學(xué)習(xí)與對抗網(wǎng)絡(luò)相結(jié)合，RL-GAN網(wǎng)絡(luò)[36]和Render4Completion[21]進(jìn)一步提高了生成的完整點(diǎn)云與地面真實的真實性和一致性。然而，這些研究大多受到結(jié)構(gòu)細(xì)節(jié)信息丟失的影響，因為它們只能從單個全局形狀表示來預(yù)測整個點(diǎn)云。

3.SA-Net網(wǎng)的體系結(jié)構(gòu)

圖2顯示了SA網(wǎng)絡(luò)的總體架構(gòu)，它由一個編碼器和一個保留結(jié)構(gòu)的解碼器組成。在編碼器和譯碼器之間，跳轉(zhuǎn)注意作為連接局部區(qū)域特征（從編碼器不同分辨率中提取）和解碼器相應(yīng)分辨率中的點(diǎn)特征的管道。

在給定輸入點(diǎn)云大小N=2048及其三維坐標(biāo)的情況下，SA網(wǎng)絡(luò)編碼器的目標(biāo)是從不完全輸入點(diǎn)云中提取特征。在SA-Net中，我們采用PointNet++[34]框架作為我們的點(diǎn)云特征編碼器的骨干。如圖2所示，有三個級別的特征提取。

考慮到編碼器從不同分辨率水平提取局部區(qū)域特征，解碼器通常采用相同的方法生成點(diǎn)特征，但分辨率水平是相反的。這允許跳過注意在編碼器中提取的局部區(qū)域特征和解碼器中生成的點(diǎn)特征之間建立一個水平到水平的連接。受此啟發(fā)，我們提出了結(jié)構(gòu)保持解碼器，其目的是逐步生成完整的點(diǎn)云，并在所有分辨率下保持局部區(qū)域的結(jié)構(gòu)細(xì)節(jié)。具體來說，如圖2所示，結(jié)構(gòu)保持解碼器將點(diǎn)云分層折疊為三個分辨率級別，這等于編碼器中的分辨率級別數(shù)。譯碼器的每一分辨率級包括一個跳轉(zhuǎn)注意和一個折疊塊以增加點(diǎn)特征的數(shù)目。

在SA-Net中，我們借鑒了文獻(xiàn)[26]中上下向上框架的思想來解決這個問題，并將其作為折疊塊的基礎(chǔ)。圖3顯示了第i級解碼器中折疊塊的詳細(xì)結(jié)構(gòu)。

以上兩個目的都是通過注意機(jī)制實現(xiàn)的，如圖4所示，其中解碼器中的點(diǎn)特征和編碼器中的局部區(qū)域特征之間的語義相關(guān)性是通過注意分?jǐn)?shù)來衡量的，分?jǐn)?shù)越高表示模式相似度越大（飛機(jī)的機(jī)翼）。然后，通過加權(quán)和將局部區(qū)域特征融合為點(diǎn)特征，最終用于預(yù)測完整點(diǎn)云中的相關(guān)區(qū)域（也包括平面機(jī)翼）。

4.實驗測試

在圖5中，我們展示了使用SA網(wǎng)絡(luò)完成點(diǎn)云的可視化結(jié)果，并與其他方法進(jìn)行了比較，從中我們可以發(fā)現(xiàn)SA網(wǎng)絡(luò)預(yù)測的形狀更合理，同時保留了現(xiàn)有零件更一致的幾何形狀。例如，在圖5（a.2）和圖5（a.3）中，與其他三種方法相比，SA網(wǎng)絡(luò)在預(yù)測燈座和桌腿缺失時生成更真實的形狀，SA網(wǎng)絡(luò)生成的點(diǎn)排列更緊密，形狀更接近地面真實。在圖5（a.1）和圖5（a.4）中，與其他三種方法相比，SA網(wǎng)更能保持機(jī)翼和橫梁的形狀。通過對形狀完成任務(wù)的定量和定性改進(jìn)，證明了技巧引入局部區(qū)域特征的有效性，以及結(jié)構(gòu)保持解碼器利用局部區(qū)域特征重構(gòu)完成點(diǎn)云的能力。此外，在表2中，我們比較了不同方法的網(wǎng)絡(luò)中可訓(xùn)練參數(shù)的數(shù)量，這表明SA網(wǎng)絡(luò)的參數(shù)數(shù)目最少，同時取得了顯著的更好的性能。

KITTI數(shù)據(jù)集

KITTI數(shù)據(jù)集是從真實世界的激光雷達(dá)掃描中收集的，在那里，地面真相缺失，無法進(jìn)行定量評估。因此，我們通過可視化結(jié)果對SA網(wǎng)絡(luò)的性能進(jìn)行了定性的評價。對于圖6中的所有方法，使用ShapeNet數(shù)據(jù)集中在car category下訓(xùn)練的參數(shù)來預(yù)測完整的汽車。請注意，在KITTI數(shù)據(jù)集中，不完整車的點(diǎn)數(shù)有很大的變化范圍。為了獲得一個固定的輸入點(diǎn)數(shù)，對于超過2048個點(diǎn)的不完整車輛，我們隨機(jī)選擇2048個點(diǎn)，否則，我們從輸入中隨機(jī)選擇點(diǎn)來彌補(bǔ)2048個點(diǎn)。結(jié)果如圖6所示，從中我們可以發(fā)現(xiàn)，我們的SA網(wǎng)絡(luò)預(yù)測了更多的結(jié)構(gòu)細(xì)節(jié)（汽車層）和更高質(zhì)量的形狀（汽車行李箱）。

注意的效果

我們開發(fā)了三個SA網(wǎng)變體來驗證SA Net中注意的有效性：（1）“No-skip”是從SA網(wǎng)中刪除技巧的變體。（2） “Skip-L”是用可學(xué)注意代替跳躍注意中余弦注意的變化。（3） “Fold-C”是折疊塊自我注意中用余弦相似性代替可學(xué)習(xí)注意的變化。除已移除/更換的模塊外，所有三種變體的結(jié)構(gòu)與SA Net相同。結(jié)果如表3所示，其中原始SA網(wǎng)的性能最好。實驗結(jié)果證明了注意在SA網(wǎng)絡(luò)中的有效性。在skip attention（skip-L）和self attention（Fold-C）中替換注意的性能下降可用于兩個模塊的不同設(shè)計目的。

優(yōu)化損失效應(yīng)

為了評估EMD損失和CD損失對SA網(wǎng)絡(luò)的影響，我們開發(fā)了兩個變量：（1）“SA-Net-EMD”是僅使用EMD損失訓(xùn)練的SA網(wǎng)絡(luò)的變化；（2）“SA-Net-CD”是僅使用CD損失訓(xùn)練的變化量。比較結(jié)果如表4所示，證明EMD和CD對SA-Net的性能都有貢獻(xiàn)。

輸入點(diǎn)數(shù)的影響

分析了SA網(wǎng)絡(luò)對不同輸入分辨率的魯棒性，特別是對稀疏輸入的魯棒性。在這個實驗中，我們將輸出點(diǎn)云的數(shù)量固定到2048個，并在256到2048個分辨率的輸入點(diǎn)云上評估SA網(wǎng)絡(luò)的性能。對于小于2048的點(diǎn)，我們使用KITTI數(shù)據(jù)集中相同的策略從輸入中隨機(jī)選擇點(diǎn)，并將點(diǎn)數(shù)提升到2048。表5報告了以每點(diǎn)CD表示的模型性能。在圖7中，我們將不完整點(diǎn)云的不同點(diǎn)數(shù)下的完成質(zhì)量可視化，其中SA網(wǎng)絡(luò)顯示了在所有輸入分辨率上的健壯性能。

跳躍注意的可視化

在圖8中，我們將注意力集中在解碼器的第二個分辨率級別，即預(yù)測一個完整的平面。我們比較了學(xué)習(xí)的生成尾翼和兩翼部分的技巧。在圖8（a）和圖8（b）的左半部分，由同一點(diǎn)特征生成的點(diǎn)用紅色表示，并在右半部分顯示該點(diǎn)特征分配給不完整點(diǎn)云局部區(qū)域的相應(yīng)注意得分。如圖8（a）所示，當(dāng)生成屬于尾翼的點(diǎn)時，跳過注意搜索輸入點(diǎn)云中的相對局部區(qū)域（也就是尾翼）進(jìn)行預(yù)測。在圖8（b）中，當(dāng)預(yù)測翅膀的點(diǎn)（右翅膀缺失的地方），跳躍注意在不完全點(diǎn)云中選擇左翼區(qū)域（通過分配更高的注意力）來預(yù)測兩個翅膀的形狀。在其他類別上也可以觀察到類似的模式，如圖8所示。

層次折疊的可視化

在圖9中，我們將解碼器中的分層折疊可視化。我們跟蹤一個特定的藍(lán)色向量的折疊過程，并用藍(lán)色矩形表示從這個藍(lán)色向量導(dǎo)出的點(diǎn)。從局部的角度，我們觀察到每個初始點(diǎn)特征成功地學(xué)習(xí)在平面上生成特定區(qū)域。在藍(lán)色初始點(diǎn)特征的情況下，它生成飛機(jī)的左翼。另一方面，從全局的角度，我們可以觀察到SA網(wǎng)的折疊過程并不像FoldingNet一樣嚴(yán)格遵循2D流形假設(shè)[45]。正如[41]所指出的，從二維流形結(jié)構(gòu)中加強(qiáng)學(xué)習(xí)對于訓(xùn)練來說可能不是最優(yōu)的，因為可能解的空間是受限的。因此，在SA網(wǎng)絡(luò)中觀察到的與二維流形的細(xì)微偏差，對于學(xué)習(xí)生成不同的形狀和保存更好的結(jié)構(gòu)細(xì)節(jié)更為靈活。這兩個觀察結(jié)果都證明了層次折疊的有效性。此外，我們還將圖9中car和table類別下的折疊過程可視化。

表6顯示了部分平均相交于并集（pIoU，%）和平均每類pIoU（mpIoU，%）的比較[27]，從中我們可以發(fā)現(xiàn)，SA Net seg與PointNet++的基線方法相比，顯著提高了分割性能。具體來說，跳過注意可以將骨干點(diǎn)網(wǎng)++的性能提高0.6%（以百萬為單位）。在圖10（a）中，我們將分割結(jié)果可視化，并將SANet seg與基準(zhǔn)PointNet和PointNet++進(jìn)行了比較，從中我們可以發(fā)現(xiàn)SA-Net seg可以更精確地預(yù)測語義標(biāo)簽。尤其是，SA Net seg顯著提高了摩托車層上的分割精度，其中車身和車身層彼此嚴(yán)重重疊。這種改進(jìn)源于編碼器的跳躍注意所傳遞的局部區(qū)域特征，這有助于插值層在局部區(qū)域做出更具區(qū)分性的預(yù)測。圖10（b）給出了更多的分割結(jié)果。

總結(jié)

以上是生活随笔為你收集整理的CVPR2020：基于层次折叠的跳跃式注意网络点云完成的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CVPR2020：端到端学习三维点云的局
下一篇： CVPR2020：点云弱监督三维语义分割