當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

CVPR2020：端到端学习三维点云的局部多视图描述符

發布時間：2023/11/28 生活经验 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR2020：端到端学习三维点云的局部多视图描述符小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

CVPR2020：端到端學習三維點云的局部多視圖描述符

End-to-End Learning Local Multi-View Descriptors for 3D Point Clouds

論文地址：

https://openaccess.thecvf.com/content_CVPR_2020/papers/Li_End-to-End_Learning_Local_MultiView_Descriptors_for_3D_Point_Clouds_CVPR_2020_paper.pdf

摘要

在這項工作中，我們提出了一個端到端的框架來學習三維點云的局部多視圖描述符。為了采用類似的多視圖表示，現有的研究在預處理階段使用手工構建的視點進行渲染，而預處理階段是從隨后的描述符學習階段分離出來的。在我們的框架中，我們通過使用可微渲染器將多視圖渲染集成到神經網絡中，使得視點成為可優化的參數，以獲取更多信息的興趣點的局部上下文。為了獲得有區別的描述符，我們還設計了一個軟視圖池模塊來集中融合視圖間的卷積特征。在已有的三維配準基準上進行的大量實驗表明，該方法在數量和質量上都優于現有的局部描述子。

1.介紹

三維幾何的局部描述子被廣泛認為是許多計算機視覺和圖形任務（如建立對應關系、配準、分割、檢索等）的基石之一，特別是隨著消費者級RGB-D傳感器的普及，大量的掃描數據需要健壯的局部描述符來進行場景對齊和重建[59，4]。然而，這樣的三維數據往往是噪聲和不完整的，這給局部描述符的設計帶來了挑戰。在過去的幾十年中，已有的手工設計的局部描述符[20，11，46，45，53，52，48]大多是建立在低層次三維幾何特性的直方圖上的。深神經網絡的最新趨勢促使研究人員以數據驅動的方式開發基于學習的局部描述符[66、8、24、19、6、57、12]。研究了三維局部幾何的幾種輸入表示法，如原始點云塊[24，6]、體素網格[66，12]和多視圖圖像[19，67]。目前，在3DMatch[66]的幾何配準基準上，大多數基于學習的方法都是建立在點云貼片的PointNet[4]或體素網格的3dcnns上，3dsmouthnet[12]通過平滑的密度值體素化實現了最新的性能。盡管體素表示取得了令人印象深刻的進展，但有關三維形狀識別和檢索的文獻[50，42，56]表明多視圖圖像的性能優于體素網格，并且已經進行了一些初步的嘗試[19，67]將類似的思想擴展到三維局部描述符。同時，最近的一系列研究已經在從單個圖像塊學習局部描述符方面提高了2D CNNs的水平[15，51，34，63，23，35，32]。這促使我們對三維點及其局部幾何的多視圖表示進行進一步的研究。

采用多視圖表示學習描述符的主要挑戰如下。首先，為了獲得多視圖圖像，在預處理階段3D圖形渲染管道需要一組視點（虛擬攝像機）[50，19]。在現有的研究中[50，42，19，56，9，17]，這些觀點要么是隨機抽樣，要么是啟發式的手工挑選。然而，如何以數據驅動的方式確定視點，從而為神經網絡生成更多的信息渲染仍然是一個問題。其次，需要一個有效的融合操作來將多個視圖的特征集成到一個緊湊的描述符中。最大視圖池是一種占主導地位的融合方法[50，42，19，56]，但此操作可能會忽略一些細微的細節[67，56]，從而導致次優性能。
在這項工作中，我們提出了一種新的網絡架構，該架構以端到端的方式學習3D點云的本地多視圖描述符，如圖1所示。我們的網絡主要包括三個階段：（1）點云感興趣點的多視圖繪制；（2）每個渲染視圖中的特征提取；（3）視圖間的特征融合。具體來說，我們首先使用網絡內可微渲染器[30]將特定點的三維局部幾何體投影為多視圖面片。渲染器使用的視點是訓練期間可優化的參數。渲染器可以將監視信號從渲染像素反向傳播到視點，從而實現渲染階段與其他兩個階段的聯合優化。接下來，為了在每個呈現視圖中提取特征，我們利用在學習單個補丁描述符的任務中已經成熟的現有cnn[51，34]。最后，為了融合所有視圖的特征，我們研究了max-view-pooling[50]的梯度流問題，并設計了一個新的軟視圖池模塊。前者只考慮特征圖中每個位置在視圖間的最強響應，而我們的設計則通過子網絡估計注意權重自適應地聚合所有響應。在后向通道中，我們的設計允許監控信號更好地流入每個輸入視圖進行優化。在3DMatch基準上進行的實驗表明，我們的方法優于現有的手工制作和學習的描述符，并且對旋轉和點密度也具有魯棒性。本文的主要工作概括如下：（1）提出了一種新的端到端的三維點云局部多視圖描述學習框架，具有良好的性能；（2）在網絡可微繪制中，視點是可優化的；（3）一個軟視圖池模塊融合了跨視圖的功能和更好的漸變效果。我們將公開我們的代碼。

2．相關工作

手工制作的3D本地描述符。在過去的幾十年里，大量文獻研究了用于編碼三維點的局部鄰域幾何信息的描述符。全面的回顧超出了本文的范圍。經典的描述符包括旋轉圖像[20]、三維形狀上下文[11]、PFH[46]、FPFH[45]、SHOT[53]和唯一形狀上下文[52]。這些手工制作的描述符大多是由低級幾何性質的直方圖構成的。盡管這些描述符取得了進展，但它們可能無法很好地處理實際掃描數據中常見的干擾，如噪聲、不完整性和低分辨率[13]。學習了三維局部描述。隨著深部神經網絡（deep neural networks，簡稱deep neural networks，簡稱deep neural networks，簡稱deep neural networks，簡稱deep neural networks，簡稱deep neural networks，簡稱deep neural networks，簡稱deep neural networks，簡稱deep。一般來說，這些方法根據輸入表示分為三類，包括點云貼片、體素網格和多視圖圖像。點云面片是點的局部鄰域的最直接表示。PointNet，一個由Qi等人完成的開創性工作。[41]專門設計用于處理點云的非結構化性質。像[6，5，61]這樣的研究建立在點網的基礎上，學習點云補丁的描述符。還有一些基于點網的工作可以與其他任務（如關鍵點檢測[62]和姿勢預測[7]）聯合學習局部描述符。體素網格，在3DMatch[66]和3dsmouthNet[12]等作品中使用，是三維點云的常見結構化表示[33、58、42]。為了減少噪聲和邊界效應，Gojcic等人 [12] 提出在3dsmouthnet中使用平滑密度值體素化。

他們的方法在3DMatch基準上實現了最先進的性能[66]，大大優于前面提到的基于點網的方法[6，5，7]。由于多視圖圖像能夠提供豐富的三維幾何信息，因此在三維形狀識別和檢索任務中表現出比體素網格更好的性能[50,42,43]。基于全局形狀分析的成功，研究人員將多視圖表示擴展到了三維局部描述學習[19，67]。Huang等人[19] 根據[50，26]重新設計CNN架構，從多視圖圖像中提取3D形狀（如飛機或椅子）的局部描述，這些圖像是用聚集的視點渲染的。已有的研究，如[843]使用二維濾波從點云生成網絡圖像。相比之下，我們的工作將視點視為可優化參數，并在神經網絡中使用可微渲染器[30]執行多視圖渲染。為了將視圖特征融合到一個緊湊的表示中，最大視圖池由于其計算效率和視圖順序不變性而被廣泛使用[50、42、56、19、43、67]，但它往往忽略了在[56、67、34、65、37]中討論的細微細節。Zhou等人[67]提出了一種用于特征融合的殘差學習模塊Fuseption，但其模塊不是視圖順序不變的，其參數個數隨著輸入視圖個數的增加而增加。還探索了其他方法，例如使用NetVLAD[2]和RNN[16]進行特征聚合，但需要過多的計算或視圖排序。不同的是，通過分析最大視圖池的梯度流，我們提出了一種軟視圖池，它以視圖順序不變的方式自適應地聚集具有注意權重的特征。可微呈現。傳統的三維圖形繪制流水線涉及光柵化和可見性測試，這是相對于投影點坐標和視相關深度的不可微的離散化操作[30]。因此，監控信號不能從二維圖像空間流向三維形狀空間，從而阻止了將此管道集成到用于端到端學習的神經網絡中。最近，研究人員設計了幾個可微繪制框架[31，21，29，28，39，64，3，30]，其中包含了用于離散化操作的近似梯度公式。其中，軟光柵（SoftRas）是由劉等人開發的一種最先進的可微渲染器。[30]將網格繪制視為三角形概率聚集的過程。在這項工作中，我們修改了SoftRas，將其應用擴展到點云繪制，并采用了一種硬前向軟后向的方案。

3.方法論

在給定三維點云P的情況下，我們旨在訓練一個神經網絡f，該網絡f能夠以端到端的方式提取點P∈P的判別性局部描述符。為此，我們使用多視圖表示對p的局部幾何進行投影分析。與點云補丁或體素網格相比，多視圖表示可以更容易地捕獲不同級別的局部上下文[19，42]。我們的網絡f由三個階段組成，如圖1所示。首先，網絡f直接以點云P和感興趣點P為輸入，采用SoftRas[30]將P的局部鄰域作為多視點面片進行渲染。其次，我們通過一個輕量級的2D CNN從每個渲染視圖補丁中提取卷積特征映射。最后，通過一個新的軟視圖池模塊將提取的所有視圖特征緊密地融合在一起，得到局部描述。f的三個階段以端到端的方式聯合訓練，使得幾何上和語義上相似的對應點的描述符彼此接近，而非對應點的描述符彼此距離較遠。

雖然等式1的可微性使得在網絡渲染中成為可能，但我們在渲染輸出中觀察到偽影，例如在具有大深度不連續的區域處的模糊像素（參見圖4）。為了減少偽影對后續特征提取的影響，我們采用了一種硬前向軟后向的軟后向方案來繪制點云，與[21]有著相似的想法。具體來說，在前向通道中，我們執行光柵化和可見性測試，以獲得與傳統渲染管道相同的渲染結果（圖3-a）。在后向過程中，我們使用軟件的公式1計算渲染的近似梯度。我們發現這個近似方案在我們的實驗中效果很好。

等式1中的這種線性公式近似于傳統渲染管道（圖3）中的光柵化和可見性測試，并且它是自然可微的。由于輸入點云可能缺少顏色信息，因此我們使用與視圖相關的深度作為Cj[8，60]，該深度對照明變化不變。有關Dj和w（·）的詳細實現和討論，請參閱[30]。

可微渲染

為了解決傳統三維圖形繪制管道（圖3-a）的不可區分問題，SoftRas將網格繪制視為二維中三角形概率聚集的過程。要將點云P渲染為具有{ck}的視圖面片，一種方法是通過曲面重建將P精確地轉換為網格[22]，然而，很難集成到我們的端到端框架中，并且可能無法很好地處理噪聲（例如，在室外場景的激光掃描中）。取而代之的是，我們修改了SoftRas，使其能夠進行點云渲染（圖3-b）。

5. 實驗測試

數據集

我們對3DMatch[66]中廣泛采用的幾何配準基準進行了評估。基準測試包括62個室內場景的RGB-D掃描，一組現有的RGBD數據集[55、49、59、27、14]。數據分為54個場景進行訓練和驗證，8個場景進行測試。在每個場景中，通過融合50個連續深度幀獲得點云碎片。對于測試集中的每個片段，提供一組5000個隨機采樣點作為描述符提取的關鍵點。

描述符維度和視點編號

在圖8中，我們用不同的描述維度d和視點數n繪制了我們的方法的平均召回率。發現增加的描述維度（d≥32）和視點數（n≥8）導致飽和性能。因此，我們在實驗中采用d=32和n=8作為我們的方法。

觀點

在表6（頂部）中，我們展示了在多視圖渲染中使用不同視點選擇規則訓練的網絡f的性能。具體地說，直接隨機抽樣規則將視點隨機地放置在等式5的范圍內。

多視圖融合

我們進行了實驗，將我們的軟視圖池與幾種可選的多視圖融合方法進行比較，包括max-view-pooling[19]、Fuseption[67]和NetVLAD[2]。我們在表6（底部）中列出了使用上述融合方法訓練的網絡f的性能。雖然在3DMatch數據集上，與max視圖池相比，軟視圖池的改進很小，但是我們的方法在ETH室外數據集上表現出了顯著的更好的泛化效果。

平均召回結果如表5所示。我們的方法（79.9%）達到了與3dsmouthNet（79.0%）相當的性能。同時，我們的方法顯著優于LMVCNN（39.7%）和SHOT（61.1%），其他描述符（包括CGF、3DMatch和FPFH）都低于25%。

運行時間

表4總結了在標準3DMatch基準上學習的描述符的運行時間。所有的實驗都是在一臺PC機上進行的，該PC機具有Intel Core i7@3.6GHz、32GB RAM和NVIDIA GTX 1080Ti GPU。表4中的輸入準備是使用TDF[66]進行3DMatch的體素化，使用球形直方圖計算[24]進行CGF的體素化，使用LRF計算和SDV體素化[12]進行3DSmoothNet的體素化，使用我們的方法進行多視圖渲染。表4中的推斷是用神經網絡從準備好的輸入中提取描述符。結果表明，輸入準備階段控制了算法的運行時間。此外，對于基于球體的渲染，使用FLANN[36]通過鄰域查詢來確定點半徑需要0.16ms（在我們的實現中使用），而使用固定半徑可以避免計算，如[19]。盡管如此，我們的方法仍然顯示出具有競爭力的運行時性能。

在圖6中，我們繪制了與τ2范圍相關的平均召回，說明了在不同內生比率條件下，我們的方法相對于比較描述符帶來的改進的一致性。此外，表2列出了每個描述符找到的正確對應的平均數量。

旋轉3DMatch基準

為了評估描述符對旋轉的魯棒性，我們通過旋轉具有隨機采樣軸和角度的測試片段在[0,2π]中構造了旋轉的3DMatch基準[5,12]。每個片段的關鍵點索引保持不變。表3給出了旋轉列中每個描述符的平均回調。

此外，圖7用RANSAC可視化由不同描述符獲得的一些點云配準結果。特別是，我們的描述符在具有大面積區域（第二行）的片段的配準中是穩健的。

表1顯示了基準測試的比較結果。對于τ2=0.05，我們的方法達到了97.5%的平均召回率，優于所有競爭描述符。然而，τ2=0.05是3DMatch的一個相對寬松的閾值，因為3dmoothnet（95.0%）、LMVCNN（96.5%）和我們的方法都達到了幾乎飽和的性能，且差別較小。盡管如此，我們的方法在大多數測試場景中獲得了比3DSmoothNet和LMVCNN更高的召回率。更值得注意的是，對于更嚴格的條件τ2=0.2，我們的方法比其他競爭對手有顯著改進。具體來說，我們的方法保持了86.9%的高平均召回率，而3DSmoothNet和LMVCNN分別下降到72.9%和81.0%。FPFH、SHOT、3DMatch和CGF的性能均低于30%。

總結

以上是生活随笔為你收集整理的CVPR2020：端到端学习三维点云的局部多视图描述符的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CVPR2020：点云分析中三维图形卷积
下一篇： CVPR2020：基于层次折叠的跳跃式注