点云综述学习笔记(一)
論文鏈接:Deep Learning for 3D Point Clouds: A Survey
參考博客http://www.huangli.com/?d
作者及團隊:Yulan Guo?, Hanyun Wang?, Qingyong Hu?, Hao Liu?, Li Liu, and Mohammed Bennamoun
會議及時間: Arxiv 2019
主要綜述內容:
點云的研究方向大致如下:3D形狀分類、3D對象檢測和跟蹤、3D點云分割、3D點云登記,6-DOF姿態評估和3D重建等研究方向。
點云公開數據集有:ModelNet(論文鏈接),ScanObjectNN(論文鏈接),ShapeNet(論文鏈接),PartNet(論文鏈接),S3DIS(論文鏈接),ScanNet(論文鏈接),Semantic3D(論文鏈接),ApolloCar3D(論文鏈接),和KITTI視覺基準套件(論文鏈接1,論文鏈接2)
相關綜述論文有:
《Deep learning advances in computer vision with 3D data: A survey》《Deep learning advances on different 3D data representations: A survey?》《A review of point cloud semantic segmentation》以及《Recent advances in 3D object detection in the era of deep neural networks: A survey?》
現有的三維點云深度學習方法分類如下圖所示:
點云算法的評價標準:
針對三維點云形狀分類:總體精度(Overall Accuracy(OA))和平均分類精度(mean class accurcy(mAcc))是最常使用的性能標準,其中OA代表所有測試實例的平均精度,mAcc代表了所有shape類的平均精度。
針對三維點云目標檢測:平均精度(Average Precision(AP))是最常使用的標準,它計算在精確找回曲線下的面積。Precision和Success通常用來評估3D單一目標跟蹤器的整體性能。Average Multi-Object Tracking Accuracy(AMOTA)和Average Multi-Object Precision(AMOTP)是3D多目標追蹤評估的常用指標。
針對三維點云分割:OA 、mean Intersection over Union(mIoU)和mean class Accuracy(mAcc)是經常被使用的評價標準的指標。尤其 mean Average Precision(mAP)也通常在3D點云中的實例分割。
3D形狀分類:
該任務的主要方法是首先學習每個點的嵌入,然后使用聚合的方法提取出一個全局形狀嵌入。通過將整體嵌入到幾個全連接層中實現分類。根據神經網絡輸入的數據類型,現有的三維形狀分類方法可以分為基于多視圖、基于體積的和基于點的方法。幾種典型的方法如下圖所示:
(欠個圖)
?
基于多視角的方法是將得結構化的點云投影到二維圖像中;而基于體積的方法將點云轉化為三維體積標識,然后利用成熟的2D或3D卷積神經網絡來實現形狀分類;相比之下,基于點的方法直接工作在原始點云中,沒有體素化或投影。基于點的方法沒有引入顯性信息變得越來越流行。(由此可見,在本片論文中主推“基于點的分類方法”)
1)多視角的方法
MVCNN是一個開創性的工作,它簡單的將多視圖特性集成到全局描述符中,然后,max-pooling只保留特定視圖的最大元素,導致信息丟失;MHBN通過協調雙線性池集成局部卷積特征,生成緊湊的全局描述符;Ze Yang等人首先利用一個關系網絡在一組視圖上利用相互關系(例如,區域-區域關系和視圖-視圖關系),然后聚合這些視圖以獲得一個鑒別的3D對象表示。跟之前的方法不同,Wei等人在View-GCN中使用了有向圖,將多個視圖中看做圖中的節點,將局部圖卷積、非局部消息傳遞和選擇性視圖采樣組成的核心層應用于構造的圖中。最后將所有層的最大池化節點特征連接起來形成全局性描述符。
2)基于形狀的方法
這些方法通常將點云體素化成三維網格,然后在形狀分類的體積表示上應用三維卷積神經網絡(CNN)
Maturana等人介紹了一種名為VoxNet的體積占用網絡來實現強3D目標識別;Wu等人提出了一種基于卷積神經深度信任3DShapeNets從各種3D形狀(由體素網格上二進制變量的概率分布表示)中學習點的分布。盡管這些方法已經取得了令人鼓舞的性能,但由于計算和內存占用隨著分辨率的立方增長,這些方法無法很好地擴展到密集的3D數據。
為此引入一種層次和緊湊的結構(比如說octree)來減少這些方法中的計算和存儲的花費。OctNet首先使用混合網格樹結構分層劃分點云,該結構沿著一個規則網格使用幾個淺octrees來表示場景。利用位串表示對八叉樹結構進行了有效編碼,并對每個體素的特征向量進行了簡單的算法索引;Wang等人提出了一種基于八叉樹的CNN用于三維形狀分類。將最細的葉八元中采樣的三維模型的平均法向量輸入神經網絡,并將3D-CNN通過三維曲面的形狀應用在被占用的葉八元(leaf octants)中。與基于密集輸入網絡的基線網絡相比,OctNet在高分辨率點云中需要更少的內存和運行時間;Le等人提出了一種名為PointGrid的混合網絡,該網絡集成了點和網格表示,以實現高效的點云處理。在每個嵌入的體積網格單元內采樣一定數量的點,這允許網絡通過使用3D卷積來提取幾何細節;Ben-Shabat等將輸入點云轉換成3D網格,再用3D modified Fisher Vector (3DmFV)方法表示,然后通過傳統的CNN架構學習全局表示。
3)基于點的方法(本篇論文關于點云形狀分類的重點研究)
根據每個用于每個點特征學習的神經網絡結構,這類方法可以分為逐點MLP、基于卷積,基于圖,基于層次數據結構的方法和其他的典型方法。
3.1 逐點MLP方法
該方法采用幾個共享的多層感知器(MLPs)對每個點獨立建模,然后使用對稱聚合函數聚合全局特征。如圖3所示:
?
由于三維點云數據固有的數據不規則性,典型的二維圖像深度學習方法不能直接應用在三維點云上。作為開創性的一份工作,PointNet直接使用點云作為他們的輸入,使用一個對稱函數獲取物體的置換不變性。總體來書,PointNet通過多個MLP層來獨立學習點特征,并通過一個最大池化層來提取全局特征;Deep sets 通過總結所有的表示以及應用非線性變換來實現排列不變性。由于在PointNet中每個點的特征都是獨立學習的,點之間的局部結構信息無法被捕捉,因此 Qi等人提出了一種分層的神經網絡PointNet++通過每個點的鄰域來捕捉精細的幾何結構。作為PointNet++分層的核心,它的集合抽象層由三層組成:采樣層、分組層和基于PointNet的學習層。通過疊加幾個抽象層。PointNet++從局部幾何結構中學習特征,并逐層抽象局部特征。
由于它的簡單性和較強的表達性,基本上很多神經網絡都是基于PointNet的。Mo-Net的結構與PointNet類似,但是它是將有限的矩集作為它的輸入;點注意轉換器(Point Attention transformer, PATs)通過其自身的絕對位置和相對于相鄰點的相對位置來表示每個點,并通過MLPs學習高維特征。然后,利用群隨機注意力(Group Shuffle Attention, GSA)捕獲點之間的關系,開發一個排列不變、可微、可訓練的端到端Gumbel子集采樣層(端到端Gumbel子集采樣層)學習層次特征;基于PointNet++的PointWeb利用局部鄰域的上下文,使用自適應特征調整,來改正點特征;Duan等人提出了一種結構關系網絡(SRN)利用MLP學習不同局部結構之間的結構關系特征;林等人通過使用PointNet學習到的輸入空間和函數空間構造了一個查找表來加速推理過程。ModelNet和ShapeNet數據集上的推理時間提升了1.5ms,在PointNet上提高了32倍。SRINet首先對點云進行了投影去獲取旋轉不變表示,然后利用基于PointNet的主干提取全局特征和使用基于圖的聚合方法提取局部特征。在PointASNL中,Yan等人利用一種自適應采樣(AS)模塊自適應去調整最遠點采樣(FPS)所采樣點的坐標和特征,然后提出一種Local-NON-local(L-NL)模塊來捕捉這些采樣點的局部和遠程依賴。
?
3.2 基于卷積的方法
根據卷積核的類型,目前的三維卷積方法可以分為連續卷積和離散卷積。
3D連續卷積方法:這些方法在連續空間上定義了卷積核,在連續空間中,相鄰點的權值與相對于中心點的空間分布有關系。
三維卷積可以解釋為在給定子集上的加權和。作為RS-CNN的核心層,RS-Conv需要局部子集的點在某一個點作為輸入,和卷積實現使用一個延時通過學習從低級的映射關系(比如歐氏距離和相對位置)高級點在局部子集之間的關系;在【63】中,核元素在單元球體中隨機選取,然后使用基于MLP的連續函數建立核元素的位置和點云的關系;在DensePoint中,卷積被定義為帶有非線性激活器的單層感知器(SLP)特征的學習是通過連接所有先驗層的特征來充分利用上下文信息。Thomas等人使用一組可學習的核點,提出了三維點云的剛性和可變形核點卷積(KPConv)算子;ConvPoint將卷積核分為空間部分和特征部分,局部部分的位置從單元球中隨機選取,并通過一個簡單的MLP學習權重函數。
現在的一些方法也會使用現有的算法來執行卷積。在PointConv中,卷積被定義為關一個重要采樣的連續3D卷積的蒙特克羅估計,卷積核有一個加權函數(通過MLP層學習)和一個密度函數(通過一個核化密度函數和一個MLP層學習)組成。為了提高存儲和計算效率,將三維卷積進一步簡化為兩種操作:矩陣乘法和二維卷積。在同樣的參數設置下,其內存消耗可以減少約64倍;在MCCNN中,卷積被認為是一種依賴于樣本密度函數的蒙特卡洛估計過程(使用MLP實現);然后使用泊松采樣來構建點云層次關系。該卷積算子可用于兩種或多種采樣方法之間的卷積,也可以用來處理不同的采樣密度;在SpiderCNN中,我們提出用SpiderConv將卷積定義為階躍函數和定義在K個最近鄰上的泰勒展開的乘積。階躍函數通過編碼局部測地線距離來捕獲粗幾何,使用Tayler展開通過插值立方體頂點的任意值來捕獲局部幾何的內在變化;同時提出一種基于徑向基函數的三維點云卷積網絡PCNN。
在面臨3D卷積網絡時,為解決旋轉等量問題提出了幾種方法。Esteves等人[71]提出了三維球面CNN,以多值球面函數作為輸入,學習三維形狀的旋轉等變表示。通過在球面調和域內用錨點參數化頻譜得到局部卷積濾波器。張量場網絡[72]被提出將點卷積運算定義為一個可學習的徑向函數和球面調和函數的乘積,球面調和函數對于三維旋轉、平移和排列是局部等變的。[73]中的卷積是基于球面互相關定義的,并使用廣義快速傅立葉變換(FFT)算法實現的。SPHNet[74]基于PCNN,通過在體積函數的卷積過程中引入球諧核來實現旋轉不變性。
為了加快計算速度,Flex-Convolution[75]將卷積核的權值定義為對k個最近鄰的標準標量積,可以使用CUDA加速。實驗結果表明,該算法在小數據集、參數少、內存消耗低的情況下具有較好的性能。
3D離散卷積方法:這些放在在規則網格上定義了卷積核,其中臨近點的權重值與相對于中心點的偏移量有關系。
Hua等[76]將非均勻三維點云轉換成均勻網格,并在每個網格上定義卷積核。所提議的3D內核將相同的權重分配給所有落在同一網格中的點。對于一個給定點,在同一網格上的所有相鄰點的平均特征都是從上一層計算出來的。然后,對所有網格的平均特征進行加權和求和,生成當前層的輸出。Lei等人[77]定義了球形卷積核,將一個三維球形鄰近區域劃分為多個容量容器,并將每個容器與一個可學習的加權矩陣關聯。一個點的球面卷積核的輸出是由其相鄰點加權激活值的平均值的非線性激活決定的。在GeoConv[78]中,一個點和它的鄰近點之間的幾何關系是基于6個基底明確建模的。沿基的每個方向的邊緣特征由一個方向相關的可學習矩陣獨立加權。這些與方向相關的特征然后根據給定點和它的鄰近點形成的角度進行聚合。對于給定點,當前層的特征定義為給定點的特征的數量和它在前一層的臨近邊緣特征。
PointCNN[79]通過χ-conv變換(通過MLP實現)將輸入點轉換為一個潛在的、潛在的規范順序,然后對轉換后的特征應用典型的卷積算子。Mao等[80]通過將點特征插值到相鄰的離散卷積核權坐標中,提出了一種插值卷積算子InterpConv來測量輸入點云與核權坐標之間的幾何關系。Zhang等[81]提出了實現旋轉不變性的RIConv算子,該算子以低水平旋轉不變性的幾何特征為輸入,通過簡單的分箱方法將卷積轉化為一維。a - cnn[82]定義了一種環形卷積,通過在查詢點的每個環上按照核的大小循環鄰居數組,并學習局部子集中鄰居點之間的關系。
為了降低3D cnn的計算和存儲成本,Kumawat等[83]提出了一種修正局部相位體積(ReLPV)塊,基于3D短期傅里葉變換(STFT)在3D局部鄰域中提取相位,顯著減少了參數數量。在SFCNN[84]中,點云以對齊球坐標投影到正二十面體晶格上。然后通過卷積- maxpool3 -卷積結構對球格頂點及其鄰點所連接的特征進行卷積。SFCNN能抵抗旋轉和擾動
圖論方法:圖論方法是將點云中的每個點看作圖中的一個頂點,然后根據每個點的鄰居頂點生成有向邊,在空間域和光譜域進行特征學習【85】,一個典型的基于圖的網絡如圖5所示:
空間域內的基于圖的方法:這些方法均定義了在空間域的操作(比如卷積和池化),特別的是卷積通常通過空間臨點的MLP實現的,并采用池化方法將每個點的臨點信息聚合在一起生成新的粗化圖。每個頂點的特征通常通過坐標、激光強度或者顏色來分配,而每個邊緣的特征通常用兩個連接點之間的幾何屬性來分配。
Simonovsky等人將每個點看做圖中的一個頂點,然后使用一條有向邊將每個頂點與其所有的鄰居連接起來,這是一個開創性的工作。然后使用濾波生成網絡(比如MLP)來提出了一個邊緣條件卷積(ECC)。采用最大池化來聚合鄰域信息,基于VoxelGrid實現圖粗化。在DGCNN中,在特征空間中構造一個圖并在網絡的每一層之后被動態的更新。作為EdgeConv的核心層。MLP通常被用作每個邊的特征函數,并對每個點的鄰居相關聯的邊緣特征進行信道對稱聚合。進一步,LDGCNN【88】去除變換網絡,并將DGCNN中的層次特征從不同的層次進行鏈接,以提高其性能,減少模型尺寸。還提出了一種端到端的無監督的深度自動編碼網絡,該網絡使用向量化的局部協方差矩陣和點坐標的鏈接作為輸出。受到Inception和DGCNN的啟發,Hassani和Haley提出了一種無監督的多任務自動編碼器來學習點和形狀特征,該編碼器采用聚類、自監督分類和重構三種無監督任務,并且在多任務丟失的情況下進行聯合訓練。LIU等人提出了一種基于圖卷積的動態點聚集模塊(Dynamic point Agglomeration Module,DPAM)將點的聚集(采樣、分組和池化)過程簡為一個簡單的步驟,通過聚集矩陣與點特征矩陣相乘來實現。在PointNet的基礎上,通過堆疊多層的DPAMs來構建一個分層學習體系結構。與PointNet++的層次策略相比,DPAM動態的利用點之間的關系并且在語義空間中聚集點。
為了利用局部幾何結構,KCNet基于核相關學習特征。具體來說,一組表述局部結構聚合類型的可學習點被定義為核。然后,計算核與給定點的鄰域之間的親和力。在G3D中,卷積被定義為鄰接矩陣多項式的變體,池化被定義為拉普拉斯矩陣和定點矩陣乘以一個粗化矩陣。ClusterNet利用嚴格旋轉不變模塊從每個點的K個最近鄰中提取旋轉不變特征,并基于帶有。。的無監督凝聚層次聚類方法構建點云的層次架構。每個子簇的特征首先通過EdgeConv模塊進行學習,然后通過最大池化進行聚合。
為解決目前結構化方法耗時問題(比如FPS、臨近點查詢),XU等人提出了融合基于體積的方法和基于點的方法的優點來提高計算效率。在ModeNet分類任務上的實驗表明,所提出的Grid-Net網絡的計算效率平均比其他模型快5倍。
基于頻譜圖的方法:這些方法將卷積定義為光譜濾波,實現為信號在圖上與圖拉普拉斯矩陣的特征向量相乘【98】【99】。
RGCNN【100】通過連接點云中每個點與其他所有點的相連構造了一個圖,提升了每一層中的拉普拉斯矩陣。為了相鄰頂點的特征更加相似,在損失函數中加入了一個圖信號平滑先驗。為了解決數據的不同圖拓撲結構所帶來的挑戰,AGCN【101】中的SGC-LL層利用了一個可學習的距離度量參數化圖上兩個點的相似性。利用高斯核函數和學習距離對圖的鄰接矩陣進行歸一化。HGNN【102】通過在超圖上應用光譜卷積建立超邊緣卷積層。
上述方法適用于全圖。為了利用局部結構信息,Wang等人提出了一種端到端的光譜卷積網絡LocalSpecGCN來處理局部圖(有k個最近鄰構成)。該方法不需要離線計算圖拉普拉斯矩陣和圖粗化層次。在PointGCN中基于點云的K個最近鄰構造一個圖,每一個邊使用高斯核進行加權。卷積濾波器被定義為圖譜域的切比雪夫多項式。全局池化和多分辨率池化用來捕捉點云的全部和局部特征。Pen等人【105】通過對譜域K個最近鄰圖進行卷積,提出了3DTI-net.通過學習相對歐氏距離和方向距離來實現幾何變換的不變性。
基于層次數據結構的方法
這些網絡基于不用層次數據結構組成(比如說octree或者KDtree)。在這些方法中,點特征是沿著樹從葉節點到根節點的層次學習。
Lei等人【77】提出了一種使用球面卷積核的八叉樹引導的CNN。網絡的每一層對應著八叉樹中的一層,每一層都應用一個球面卷積核。當前層的神經元的值確定為上一層所有相關子節點的平均值,域基于octree的OctNet不同,Kd-Net是在每次迭代中使用多個分裂方向不同的K-dTree來構建的。按照自底向上的方法,非葉節點的表示使用MLP從他們孩子結點的表示計算而來。最后將根節點的特征數輸入到全連接層中,從而預測得分。注意,Kd-Tree通過節點的分割類型在每一層共享參數。3DContextNet使用一種標準平衡的K-d tree去獲得特征學習和聚合。在每一層,點特征首先通過MLP學習,基于局部線索(模型局部區域點之間的相互依賴)和全局上下文線索(模型一個位子與所有其他位置的關系)。然后,使用MLP從子節點計算非葉節點的特征。并且通過最大池聚合。為了進行分類,重復上述過程,直到達到根節點。
SO-Net網絡的層次結構通過點到節點K緊鄰搜索來構建的。具體來說,采用改進的排列不變自組織映射(SOM)對點云的空間分布進行建模。通過一些列完全聯通的層,從歸一化的點到節點坐標中學習單個點特征。SOM中每個節點的特征是利用信道最大池的方法從該節點相關的點特征中提取出來的。然后使用類似于PointNet的方法從節點特性中學習最后的特性。有PointNet++相比,SOM的層次結構更加高效,充分挖掘了點云的空間分布。
其他的方法
另外,許多的方案被提出,RBFnet【113】用過聚集系數分布的徑向基函數(RBF)核的特征,明確地模擬點的空間分布,具有科學系的和位置和大小。3DPointCapsNet【112】使用逐點MLP和卷積層學習點獨立特征,并使用多個最大池化層提取全局潛在表示。在無監督動態路由的基礎上,獲得了強大的具有代表性的層被學習。QIN等人【116】提出了一種用于三維點云表示的端到端無監督域自適應網絡PointDAN。為了捕獲點云的語義屬性,提出了一種自監督的方法來重構點云,點云的各個部分被隨機重新排列【117】。Li等人【118】提出了一種自動增強框架PointAugment,用于對網絡訓練中的點云樣本進行自動優化和增強。具體來說,每個輸入樣本的形狀變換和電位移將被自動學習,網絡用過交替優化和恩新其增強器和分類器的可學習參數進行訓練。受到形狀信息的啟發【119】,xie等人提出了一種ShapeContextNet架構,利用點乘自我注意將親和點選擇和緊湊的特征聚合結合到一種軟對其操作中。為了處理三維點云中的噪聲和遮擋,Bobkov等人【121】將手工制作的基于4D旋轉不變描述注入到4D卷積神經網絡中。Prokudin等人【122】首先從一個單位球隨機采樣一個均勻分布的基點集,然后將點云編碼為到基點集的最小距離因此電源被轉換成一個相對較小的固定長度的向量,編碼后的表示法可以用現有的機器學習方法進行處理。
RCNet【115】使用標準的RNN和2D CNN去構建用于三維點云處理的排列不變網絡。首先將點云劃分為平行光束,并按照特定的尺寸排序,然后將每個光束送入到共享的RNN中。學習到的特征進一步輸入到一個有效的2DCNN中進行層次特征聚合。為了提高其描述能力,提出了將多個RCNet-E按不同的劃分和排序方向集成的方法。Point2Sequences【114】是另外一種基于RNN的模型,他捕捉點云局部區域不同區域之間的相關性。它將從一個局部區域來自各個尺度的序列輸入到基于rnn的編碼器-解碼器結構中,以聚合局部區域特征。
有一些方法也從3D點云和2D圖像學習。在PVNet【110】中從多視圖圖像中提取到的高級全局特征通過嵌入網絡投射到點云的子空間。并通過軟注意掩膜與點云特征融合。最后利用殘差連接對融合的特征和多視圖特征進行形狀識別。后來又提出了PVRNet,通過關系評分模塊來開發三維點云與其多個視圖之間的關系。在此基礎上,對原始2D全局視圖特征進行單視圖融合和多視圖融合。
ModelNet10/40數據集經常用來訓練3D形狀分類,結論為:
1)點態MLP網絡通常被其他類型網絡學習點態特征的基本構件
2)及與卷積的網絡作為一種標準的深度學習體系結構,可以在不規則的三維點云上取得優異的性能。對于不規則的數據,離散卷積網絡和連續卷積網絡都應該受到廣泛的關注。
3)近年來 基于圖的網絡因其對不規則數據的處理能力而受到越來越多的關注。然而將頻譜域的基于圖的網絡擴展到各種圖結構仍然具有一定的挑戰
4 3D對象檢測與跟蹤
在本節中我們將回顧現有的三維目標檢測、三維目標跟蹤和三維場景流量估計方法。
4.1 3D目標檢測
一個典型的三維物體檢測器以場景的點云作為輸入,在每個被檢測到的物體周圍產生一個有方向的三維包圍框,如圖6所示:跟在圖像目標識別相似【123】,3D目標檢測算法可以被分成兩類:基于區域提議的方法和單鏡頭方法,幾種里程碑式的方法在圖7中:
4.1.1 地區基于協議的方法
這些方法首先提出了幾種可能包含對象的區域(也稱為建議),然后提取出區域特征以確定每個建議的類別標簽。根據他們目標協議的生成方法,這些方法將被進一步分割為三類:基于多視角的、給予分割的和基于平截頭體的方法。
基于多視圖的方法:這些方法融合不同視角的特征(比如說雷達視角,鳥瞰圖、和圖片)的明智特征。去獲取3D旋轉的盒子,就像圖8所示。這些方法的計算成本通常很高。
Chen等人【4】從BEV地圖中生成了一組高精度的3D候選框,并將其投影到多個視圖的特征地圖中(比如就激光雷達前視圖圖像、RGB圖像)。然后他們組合這些來自不同視圖的區域特征來預測有方向的3D包圍框,如圖8所示。盡管這個方法在交集的聯合(IoU)召回率為0.25.達到了99.1%,但是他的速度對于實際應用來說太慢了。在此基礎上,從兩個方面對多視角三維目標檢測方法進行了改進。
首先,提出了幾種有效融合不同模式信息的方法。為了生成對小物體的高召回的3D題案。ku等人【126】提出了一種基于多模態融合的區域提案網絡。他們首先使用裁剪和調整操作從BEV和圖像視角中提取等大小的特征,然后使用element-wise均值池融合這些特征。Liang等人利用連續卷積實現不同分辨率的圖像和3D雷達特征圖的有效融合。具體的來說,他們提取了BEV空間中的每個點最近的對應圖像特征,然后通過將圖像特征投影到BEV平面,利用雙線性插值得到稠密的BEV特征映射。實驗表明,與離散圖像特征圖和稀疏激光雷達特征圖相比,稠密的BEV特征圖更適合于三維目標檢測。liang等人提出了一種端到端訓練的多任務多傳感器三維目標檢測網絡。具體來說,利用多個任務(例如,2D目標識別、地面評估和深度完成)來幫助網絡學習更好的特征表示。進一步利用學習到的交叉模態表示來產生高精度的目標檢測結果。實驗證明:這個方法在2D、3D和BEV檢測任務中取得了顯著的改進,并在TOR4D基準測試上優于以往最先進方法。
其次,不同的方法被研究用來提取輸入數據的魯棒性表示。Lu等人通過引入空間通道注意力模塊(SCA)探索了多尺度上下文信息,該模塊捕捉場景的全局和多尺度上下文,并突出有用的特征。他還提出了一種擴展空間不采樣(ESU)模塊,通過解多尺度低層特性獲取具有豐富空間信息的高層特征,從而生成可靠的三維對象建議。盡管可以實現更好的檢測性能,但上述多視圖方法需要很長的運行時間,因為他們為每一個提議執行特性池。隨后Zeng等人使用一種RoI前池化卷積來提高【40】的效率。具體來說,他們將大多數卷積操作移至RoI池模塊之前。因此,對所有對象建議都進行一次RoI池模塊之前。因此,對所有的對象建議都進行一次ROi操作,實驗證明。該方法的運行速度為11.1fps,比MV3D【4】快5倍。
基于分割的方法:這些方法首先利用現有的語義分割技術去除大部分背景點,然后在前景點上生成大量高質量協議以節省計算;如圖8b所示。與多視圖方法相比,這些方法具有更高的物體召回率,更適用于物體高度遮擋和擁擠的復雜場景。
Yang等人【132】使用一種2D分割網絡來預測前景像素,并將其投影到點云中,以去除大多數背景點。然后,他們在預測的前景點上生成天,并設計了一種名為PointSloU的新標準,以減少提案的冗余和含糊不清。在【132】之后,Shi等人提出了一種PointRCNN網絡架構。具體來說,他們直接對三維點云進行分割得到前景點,然后融合語義特征和局部空間特征以生成高質量的3D盒子。在【133】的Region Proposal NetWork(RPN)階段之后。Jesus等人【134】提出了一種利用圖卷積(GCN)進行三維目標檢測的開創性工作,具體來說,引入兩個模塊使用圖卷積來細化對象建議。第一個模塊R-GCN利用一個提議中包含的所有點來實現每個提議的特性聚合;第二個模塊C-GCN混合來自所有提議的每幀信息,利用上下文回歸準確的對象框。Sourabh等人【135】將點云投影到基于圖像的分割網絡的輸出中,并將語義預測分數附加到點上。繪制的點被輸入到現有的檢測器中【133】【136】【137】以實現顯著的性能改進。Yang等人【138】用一個球形錨將每個點聯系起來。然后使用每個點的語義得分來刪除冗余錨。因此,與之前的方法相比【132】【133】相比,該方法具有更高的查全率和更低的計算成本。此外,提出了一個PointsPool層來學習建議內部點的緊湊特征,并引入一個并行的IOU分支來提高定位精度和檢測性能。
基于截頭的方法:這些方法首先利用現有的2D物體檢測器生成物體的2D候選區域,然后為每個2D候選區提取3D截錐方法,如圖8c所示。雖然這些方法可以有效的提出了三維物體的可能位置,但逐步流水線的性能受到二維圖像檢測器的限制。
F-PointNets【139】是一個開創性的工作在這個方向上。他為每一個2D區域生成一個截錐建議,并應用PointNet【5】(或PointNet++【54】)學習每個3D截錐的點云特征,進行模態3D盒估計。在后續的工作中,Zhao等人【140】提出了一個Point-SENet模塊來預測一組縮放因子,該模塊進一步被用來自適應地突出有用的特征和抑制無信息的特征。他們還將PointSIFT【141】模塊集成到網絡中,獲取點云的方向信息,對形狀縮放具有很強的魯棒性。與F-PointNets相比,該方法在室內和室外數據集【14】【25】都取得了顯著的改進。
XU等人【142】利用二維圖像區域以及其相應的截錐點來精確的回歸三維盒子,為了融合圖像特征和點云的全局特征,他們提出了一種用于直接回歸盒角點位置的全局融合網絡,他們還提出了一種密集融合網絡來預測每個角落的點向偏移量。Shin等人【143】首先從2D圖像中估計物體的2D包圍盒和3D位姿,然后提取多個幾何上可行的物體候選對象。這些3D候選對象被輸入到一個盒子回歸網咯來預測準確的3D對象盒子。wang等人對每個2D區域沿截錐體軸生成一系列截錐體,并應用PointNet【5】對每個截錐體提取特征。對于截錐水平特征進行改造,生成一個2D特征地圖,然后將其輸入到一個全卷積網絡中,用于3D盒子估計,該方法在基于二維圖像的方法中取得了最先進的性能,并且在官網KITTI排行榜上名列前茅。Joannes等人【145】首先在BEV map上得到了初步的檢測結果,然后根據預測的BEV提取小的點子集(也稱為patches)。采用局部細化網絡學習局部特征,預測高精度的三維包圍盒。
其他方法:基于軸向對齊IoU在圖像目標檢測中的成功,Zhou等人將兩個3D旋轉包圍盒的IoU集成到幾個最先進的檢測器【133】【137】【158】中,以實現持續的性能提升。chen等人【147】提出了一種使用點云和體素表示的兩階段網絡架構。首先,將點云體素化并輸入至3D骨干網以產生初始檢測結果,第二,進一步利用處是預測的內部點特征進行箱體細化。盡管這個設計在概念上非常簡單,但是他達到了【133】的性能同時保持著16.7fps的速度。shi等人提出了PointVoxel-RCNN(PV-RCNN),利用3D卷積網絡和基于PointNet的幾何抽象來學習點云特征。具體來說,輸入點云首先被體素化,然后被送入3D稀疏卷積網絡,以生成高質量的建議。然后通過體素集抽象模塊將學習到的體素特征編碼到一小組關鍵點中。此外,他們還提出了一個關鍵點到網絡的POI抽象模塊,以捕獲豐富的上下文信息,用于框的細化。實驗結果表明,該方法明顯優于以往的方法,在KITTI 3D檢測基準的Car類中排名第一。
受到基于Hough投票的2D對象檢測器的啟發,Qi等人提出了從點云直接底對象的虛擬中心點投票,通過聚合投票特征生成一組高質量的3D對象提議。VoteNet顯著優于以前僅適用幾何信息的方法,并且在兩個大型室內基準(ScanNet【11】和SUN? RGB-D【25】)上的最先進的性能。然后虛擬中心點的預測對于一個部分遮擋的物件來說是不穩定的。此外,Feng等人【149】增加了方向向量的輔助分支,提高了虛擬中心點和3D候選盒的預測精度。另外,通過將2D對象檢測線索(如幾何或語義/紋理線索)融到3D投票通道中,提出了一種ImVoteNet檢測器。Shi等人【151】觀察到三維物體的地面真相盒的啟可以提供物體內部部件的精確位置,受此啟發,他們提出了Part-A2 Net,這種網絡由不封按值截斷和部分聚合階段組成。部分感知階段應用具有稀疏卷積和稀疏反卷積的類似unet【165】的網絡來學習點向特征,用于預測和粗生成對象內的部分位置。部分聚合節點采用支持ROI的池來聚合預測的部分位置以細化框。
單發射擊的方法:
這些方法利用單機網絡直接預測類概率并回歸物體的三維邊界盒。它們不需要區域鑒于生成和后處理。因此它們可以高速奔跑。根據輸數據的類型,單次射擊方法可以分為基于BEV的方法,基于離散化的方法和基于點的方法。
基于EBV的方法:這些方法主要以BEV表示未輸入。yang等人用等間距的單元對場景的點云進行離散,并且以類似的方法對反射率進行編碼,從而得到了規則的表示。然后使用全卷積神經玩那個羅(FCN)來估計目標的位置和航向角。在28.6幀每秒的情況下,該方法優于大多數單詞射擊方法(包括VeloFCN【154】、3D-FCN【155】和Vote3Deep【156】)。之后,Yang等人【152】利用了高清地圖提供的幾何先驗信息和語義先嚴信息,提高了【129】的魯棒性和檢測性能。具體來說他們通過HD地圖上獲取地域點的坐標沒然后用相對于地面的距離來表示BEV,以彌補道路坡度造成的評議方差。另外,他們將一個二進制道路和BEV表示連接在通道維度上,已關注移動的物體。由于并不是所有的地方都有高清地圖,他們還提出了一個在線地圖預測模塊來估計單個激光雷達點云的地圖先驗。這種mapaware的方法明顯由于(TOR4D【129】【130】和KITTL【14】數據集上的)基線。但是其對不同密度點云的泛化能力較差。為了解決這一問題,Beltran等人【153】提出了一種歸一化映射,考慮到不同激光雷達傳感器之間的差異。歸一化映射是一個2D網絡,與BEV映射的分辨率相同,他編碼每個單元中包含的最大點數。結果表明,該歸一化映射顯著提高了基于BEV的檢測器的泛化能力。
基于離散化的方法:這些方法將點云轉換為規則的離散表示,然后應用CNN預測物體的類別和三維盒子。
Li等人[154]提出了第一個使用FCN進行三維目標檢測的方法。他們將點云轉換為2D點圖,并使用2D FCN來預測物體的邊界框和置信度。隨后[155]將點云離散為長、寬、高、通道等維度的4D張量,并將基于二維fcn的檢測技術擴展到三維域進行三維目標檢測。與[154]相比,基于3D fcn的方法[155]獲得了超過20%的精度增益,但由于3D卷積和數據的稀疏性,不可避免地會消耗更多的計算資源。為了解決體素的稀疏性問題,Engelcke等人[156]利用了一種以特征為中心的投票方案,為每個非空體素生成一組投票,并通過積累投票來獲得卷積結果。它的計算復雜度與被占用的體素數量成正比。Li等[157]通過疊加多個稀疏的3D cnn構建了一個3D骨干網。該方法充分利用體素的稀疏性,節省存儲空間,提高計算速度。該三維骨干網在不引入大量計算量的前提下,提取了豐富的三維特征用于目標檢測。
?
5 點云分割
三維點云分割既需要了解全局幾何結構,也需要了解每個點的細粒度細節。通過對分割粒度的不同,三維點云分割方法可以分成三種類別:語義分割(場景級)、實力分割(對象級)以及部分分割(部分級)
5.1 三維點云語義分割
對于一個給定的點云,語義分割的目標是根據點的語義將其分割成若干子集。類比于3D形狀分類(第3節),語義分割有四種模式:基于投影的、基于離散的、基于點的和混合方法。
不管是基于投影的還是基于離散的方法,他們的第一步都是將點云轉化為一個中間正則表示,比如說多視角【181】,【182】,球形【183】、【184】、【185】體積的【166】、【186】、【187】晶格體的【188】、【189】和混合表示【190】、【191】正如圖11所示。然后將中間分割結果投影回原始點云。相比之下,基于點的的方法可直接處理不規則的點云。幾種代表性的方法如圖10所示。
5.1.1? 基于投影的方法
這些方法通常將一個三維點云投影到二維圖像中,其中包括多視圖的和球形的圖像
多視圖的表達方法:Lawin等人【181】首先將3維點云投影到一個二維平面上通過多個攝像機虛擬視角,然后使用多流FCN預測合成圖像的像素級評分。通過融合不同仕途上的重投影得分,得到每個點的最終語義標簽。相似的是,Boulch等人【182】首先使用多個相機視角來生成點云的多個RGB和深度快照,然后他們使用2D分割網絡對這些擴招進行像素級標記,使用殘差校正進一步融合RGB圖像和深度圖像預測的分數【192】。Tatarchenko等人【193】基于點云的從局部歐幾里得曲面采樣的假設,引入了切線卷積用于密集點云分割。方法首先將每個點周圍的局部表面幾何投影到一個虛擬切平面。然后將切卷積直接在曲面幾何上操作,該方法展現了強大的可擴展性,能夠處理數百萬個點的大規模點云。總的來說,多視圖分割方法的性能對視點選擇和遮擋敏感。此外,由于投影步驟不可避免地導致信息丟失,這些方法沒有充分利用底層的幾何和結構信息。
球形表示:為了獲得更快和更精確的三維點云分割,WU等人【183】提出了一個基于SqueezeNet【194】和條件隨機場(CRF)的端到端的網絡。為了更進一步的提升點云分割的準確度,SqueezeSegV2【184】被引入來利用一個無監督的域自適應管道來處理域漂移。Milioto等人【185】提出了RangeNet++對激光雷達的點云進行實時語義分割,首先將二維范圍圖像的語義標簽轉移到三維點云中,然后利用基于GPU的高效KNN后處理步驟結局離散化誤差和模糊推理輸出問題。?球面投影比單視角投影保留更多的信息,適合于激光雷達點云的標記,然而中間級別的表達不可避免的帶來了離散化誤差和遮擋等問題。
5.1.2 基于離散的方法
這些方法通常將點云轉化為一個稠密或稀疏離散表達,比如說體積和稀疏置換面格。
稠密離散表達:早期的方法通常是將點云體素化為一個密集的網格,然后利用標準的3D卷積。Huang等人【195】首先將點云劃分為一組占用體素,然后將這些中間數據輸入到權3DCNN中進行體素分割,最后體素內的所有點都被賦予與體素相同的語義標簽。該方法的性能受到體素粒度和點云分割產生的邊界偽影的嚴重限制。更進一步,Tchapmi等人【196】提出了一種SEGCloud來實現細粒度和全局一致的語義分割。這種方法引入了確定性三線性插值,將3D-FCNN【197】生成的粗體素預測映射到點云,然后使用全連接CRF(FC-CRF)來加強這些推斷點標簽的空間一致性。Meng等人【186】提出了一種基于核的插值變分自編碼器結構,對每個體素內的局部幾何結構進行編碼。每個體素采用RBF代替二進制占用表示,以獲得連續的表示,并捕獲每個體素中點的分布。VAE進一步被用來映射每個體素內的點分布到一個緊湊的潛在空間,然后利用對稱群和等價CNN實現魯棒性特征學習。
由于3D CNN具有良好的可擴展性,基于體積的網絡可以自由的訓練和測試。在完全卷積網絡中(FCPN)【187】,首先從點云中分層抽象出不同層次的幾何關系,然后使用3D卷積和加權平均池化來提取特征并合并長期依賴關系 。該方法能處理大規模點云,在推理過程中具有良好的可擴展性。Dai等人【198】提出了ScanComplete來實現三維掃描的完成和逐體素語義標注。該方法利用了完全連接神經網絡的可伸縮性,可以適應訓練和測試中不同的輸入數據大小。采用匆促道西的策略分層提高預測結果的分辨率。
總的來說,體積表示自然地保留了三維點云的鄰域結構。他的常規數據格式也允許直接應用標準的3D卷積。這些因素導致了該領域性能的穩步提高,然而體素化步驟固有地引入了離散化偽影和信息的丟失。通常,高分辨率會導致高內存和計算成本,而低分辨率會導致細節丟失。在實踐中,選擇合適的網格分辨率并不是一件簡單的事情。
稀疏的離散化表示:體積的表示是自然分散的,因為非零值的數量只占很小的百分比。因此在空間稀疏的數據上應用密集卷積神經網絡是低效的,為此,Graham等人【166】提出了基于索引結構的子流形稀疏卷積網絡。這個方法通過限制只與被占用的體素相關卷積的輸出,顯著降低了內存和計算成本。同時它的離散卷積也可以控制提取特征的稀疏性。這種子流形稀疏卷積適用于高維空間稀疏數據的高效處理。此外Choy等人【199】提出了一種4D時空卷積神經網絡用于3D視頻感知,提出了一種有效處理高維數據的廣義稀疏卷積算法,進一步應用三平穩條件隨機場加強一致性。
另一方面,SU等人【188】提出了基于雙邊卷積層的Sparse Lattice Networs(SPLATNets)的稀疏網格網絡(spartgrid Networks,? SPLATNet)。該方法首先將一個原始點云插值到一個滿面體稀疏晶格上,然后應用BCL對稀疏晶格上被占用的部分進行卷積,然后將過濾后的輸出被插值回原始點云。此外該方法還實現多視角圖像與點云的靈活聯合處理。此外 Rosu等人【189】提出類LatticeNet來實現對大型點云的高效處理。此外還引入一個名為DeformsSlice的數據依賴插值模塊來將柵格特征向后投影到點云上。
5.1.3混合方法
為了進一步利用所有可用的信息,已經提出了幾種從3D掃描中學習多模態特征的方法。Dai 和NiePner等人【190】提出了一種結合RGB特征和幾何特征的聯合3D-多視圖網絡。利用了一個三維CNN流和多個二維CNN流提取特征,并提出了一種可微背投影層將學習到的二維嵌入和三維幾何特征聯合融合。更進一步,Chiang等人【200】提出了一種統一的基于點的框架,從點云中學習2D紋理外觀、3D結構和全局上下文特征。該方法直接利用基于點的網絡來提取局部幾何特征和全局上下文,無需進行體素化處理。Jaritz等人【191】提出了一種多視圖的PointNet(MVPNet),在標準點云空間中從二維多視圖圖像和空間幾何特征中聚合外觀特征。
5.1.4 基于點的方法
基于點的網絡直接工作在不規則的點云上,然而點云是無序和無結構的,直接應用標準的CNN是不可行的,為此,開創性的PointNet被提出使用共享MLP學習點云特征和使用對稱池函數學習全局特征。在PointNET的基礎上,最近提出了一系列基于點的網絡。總的來說,這些方法可以分為逐點的MLP方法和點卷積方法和基于RNN的方法和基于圖的方法。
點態MLP的方法:這些方法由于效率高,通常以共享MLP作為網絡的基本單元。然后,共享的MLP提取的點向特征不能捕捉點云的局部幾何形態以及【5】點之間的相互所作用。為了為每個點獲取更廣泛的背景信息并學習更豐富的局部結構,已經引入了幾種專用網絡,包括基于鄰域特征池的方法,基于注意力的聚合方法以及局部—全局特征級聯方法。
鄰近特征池:為了捕獲局部幾何模式,這些方法通過聚合臨近點的信息來學習每個點的特征,以獲取局部的幾何圖案。特別是PointNet++【54】的組點是分層次的,從更大的局部區域逐步學習,如圖12所示,真對點云的不均勻性和密度變化帶來的問題,提出了多尺度分組和多分辨率分組。后來Jiang等人【141】提出了一個PointSIFT模塊來實現方向編碼和規模感知。這些模塊通過三個階段的有序卷積,對來自八個空間方向的信息進行堆棧和編碼。將多尺度特征串聯起來,實現對不同角度的自適應。與PointNet++中使用的分組技術(即球查詢)不同,Engelmann等人【204】利用K-means聚類和KNN分別定義了世界空間和特征空間的兩個鄰域、基于統一類點在特征空間中距離更近的假設,引入成對距離損失和質心損失來進一步正則化特征學習。為了對不同點之間的相互關系進行建模,Zhao等人【57】提出了PointWeb,用過對密集結構構建局部全連接的WEB來探索局部區域內所有點對之間的關系。提出了一種自適應特征調整(AFA)模塊來實現信息交換和特征細化。這種聚合操作有助于網絡學習有區別的特征表示。Zhang等人【205】基于來自同心球殼的統計,提出了一種排列不變卷積,稱為Shellconv。該方法首先查詢一組多尺度的同心球,然后使用最大池化操作來總結統計數據,然后使用MLPS和一維卷積來得到最終的卷積輸出。HU等人【206】提出了一種高效的、輕量級的網絡結構叫做RANDLA-net用來大規模點云分割。該網絡利用隨機采樣點在內存和計算方面實現了顯著的高效率,進一步的提出了局部特征聚合模塊來捕獲和保存幾何特征。
基于注意的聚集:為了進一步提高分割精度,一個注意力機制【120】被用來做點云分割。yang等人【56】提出了一種分組拖拽機制來對點之間的關系進行建模,并提出了一種排列不變。任務不可知和可維的Gumbel Subset Sampling(GSS)來替代管飯使用的FPS方法。本模塊對異常值不太敏感并且可以選擇一個具有代表性的點子集。為了更好捕獲點云的局部空間感知,CHEN等人【207】提出了一種局部空間感知(Local Spatial Aware.LSA)層,基于點云的空間布局和局部結構來學習空間感知權值。和CRF相似,Zhao等人【208】提出了一種基于注意力的評分細化(Attentin-based Score Refinement, ASR)模塊對網絡產生分割結果進行后處理。通過將相鄰點的分數和學習到的權值合并來初始化分割結果。該模塊可以很容易的集成現有的深度網絡中以提高分割性能。
局部-全局連接:zhao等人【112】提出了一種置換不變性的PS2-Net來整合點云的上下文結構和全局上下文。Edgeconv【87】和NetVLAD【209】被反復堆疊以捕獲局部信息和場景級全局特征。
點卷積的方法:這些方法傾向于提出有效的卷積操作。Hua等人【76】提出了一種逐點卷積算子,將相鄰的點放入核細胞中,然后與核權值進行卷積。正如圖12所示,Wang等人【201】提出了一種基于參數連續卷積層的網絡結構PCCN。本層的核函數由MLP參數化并跨越連續的向量空間。Thomas等人【65】提出了一種基于核點卷積(KPConv)的核點全卷積網絡(KP-FCNN)。具體來說,KPConv的卷積權重由核點之間的歐氏距離來確定,核點的數量是不固定的。核點的位置被表述為球面空間最優覆蓋的優化問題。需要注意的是,在不同的點云密度下,使用半徑鄰域保持一致的接受場,在每一層上使用網格子采樣,已獲得較高的魯棒性。Engelmann等人【211】提出了豐富的消融實驗和可視化結果,展示了接收場對基于聚合的方法性能的影響。他們還提出了擴展點卷積(DPC)操作來聚合擴展的鄰域特征,而不是K個最近的鄰域特征。該操作被證明在增加接受域方面非常有效,并且可以很容易的集成到現有的基于聚合的網絡中。
基于RNN的方法:為了獲取點云的上下文特征,Recurrent Neural NetWork(RNN)被用來做電魚的語義分割。基于PointNet,EngelMann等人【213】首先將一個點塊轉換成多個尺度塊和網格塊,從而獲得輸入級上下文。然后將PointNet提取的分塊特征依次輸入到整合單元(Consolidation Units,CU)或循環整合單元(Recurrent Conslidation Units,RCU)中,獲取輸出層的上下文。實驗結果表明,融合空間上下文對于分割性能的提升是非常重要的。Huang等人【212】提出了一種輕量級的局部依賴建模模塊,利用切片池化層將無序的點特征幾何轉化為有序的特征向量序列。如圖12所示,Ye等人【202】首先提出了點態金字塔池化(3P)模塊來捕獲從粗到細的局部結構,然后利用雙層層次RNN來進一步獲取長期空間依賴性。然后應用RNN實現端到端的學習,然而這些方法在將局部鄰域特征和全局結構特征聚合時,丟失了點云豐富的幾何特征和密度分布【220】。為了緩解剛性和靜態池化操作帶來的問題,zhao等人【220】提出了一種動態聚合網絡(DARNet)來考慮整體場景復雜度和局部幾何特征,中介特征使用自適應的接受域和節點權值動態聚合。LIU等人【221】提出了用于大規模的點云高效語義解析的3DCNN-QDN-RNN。該網絡首先使用3Dcnn網絡學習空間分布和顏色特征,然后使用DQN對屬于特定類別的對象進行定位,最后將鏈接的特征向量輸入殘差RNN,得到最終的分割結果。
基于圖的方法:為了捕獲三維點云的基本形狀和幾何結構,有幾種方法有助于圖形工作。正如圖12所示,Landrieu等人【203】將點云表示為一組相互連接的簡單形狀和上點,并使用一個屬性有向圖(即上點圖)捕獲結構和上下文信息。然后大規模點云分割問題被分解成三個子問題,幾何均勻分割、上點嵌入和上下文分割三個子問題。為了進一步改進分割步驟,Landrieu和Boussaha【214】等人提出了一種監督框架將電暈過度分割為純超點。這個問題被表述為一個由鄰接圖構成的深度度量學習問題。此外一個圖結構的對比損失來幫助識別對象之間的邊界。
為了更好的捕獲在高位空間的局部幾何關系,Kang等人【222】基于圖嵌入模塊(GEM)的金字塔網絡(PyramNet)和金字塔注意網絡(PAN)。GEM模塊將點云表示成有向無環圖,并利用協方差矩陣代替歐氏距離構造相鄰相似矩陣。PAN模塊使用四種不同大小的卷積核來提出不同于以強度的特征。在[215】中提出了圖注意力卷積(graph Attention Convolution, GAC),從局部鄰域集中選擇性的學習相關特征。該操作是根據不同的相鄰點和特征通道的空間位置個特征差異動態分配注意權值來實現的。GAC可以學習去捕獲版別特征進行分割,與常用的CRF模型具有相似的特征。MA【223】等人提出了一個點全局上下文推理(Point Global Context Reasoning,PointGCR)模塊沿著通道維數捕獲全局上下文信息使用無向圖表達。PointGCRs是一種即插即用,端到端的可訓練的模塊。它可以很容易的集成到現有的分段網絡中,以實現性能的提高。
另外最近的一些工作試圖在弱監督學習下實現點云的語義分割。WEI等人提出了一種雙階段的方法來訓練帶有子云級標簽的分割網絡,Xu等人【225】研究了幾種用于點云語義分割的不精確監督方案。他們還提出了一種只需要部分標記點(例如10%)就可以訓練的網絡。
5.2實例分割
與語義分割相比,實例分割要求更準確和細粒度的點推理。特別的是,不僅要區分語義相同的點,也要區分語義相同的實例。總體來說,目前存在的方法可以分成兩個類:基于協議的方法和無建議的方法。具體如圖13所示:
5.2.1 基于協議的方法
這些方法將實例分割問題轉化為兩個子任務:3D目標識別和實例掩碼預測。
Hou等人【226】提出了一種3D全卷積語義實例分割(3D-SIS)網絡,在RGB-D掃描儀上實現語義實例分割。這個網絡從顏色和幾何特征中學習。與3D目標識別類似,一個三維區域建議網絡(3D-RPN)和一個三維興趣區域(3D-RoI)層被用于預測邊界盒子位置,目標類別標簽和實例掩碼。根據綜合分析策略,YI等人【227】提出了生成形狀建議網絡(Generative Shape Proposal NetWork, GSPN)來生成高目標性3D建議,這些建議通過基于區域的電網(R-PointNET)進一步細化,最終目標是通過預測每個類標點的逐點二進制掩碼獲得的。與從點云中直接回歸三維點邊界框不同,該方法通過加強幾何理解,消除了大量無意義的建議。
Narita等人通過擴充2D全景分割擴展到三維映射,提出了一種在線體三維映射系統,可以聯合實現大規模三維重建、語義標注和實例分割。他們首先利用2D語義和實例分割網絡獲得像素級全景標簽,然后將這些照片集成到體積地圖中去。在此基礎上,利用全鏈接的CRF實現精確分割。該語義映射系統可以獲取高質量的語義映射和對象識別。Yang等人【229】提出了一種單階段、無錨階段、端到端可訓練網絡3D-BoNet來實現點云上的實例分割,該方法直接回歸所有潛在實例的粗糙三維邊界框,然后利用點級二進制分類器獲取實例標簽。特別的,將邊界框生成任務表述為一個最優分配問題,此外提出了一個多準則損失函數來規范生成的邊界框。該方法不需要任何后處理,計算效率高。Zhang等人【230】提出了一種針對大規模室外激光雷達點云的實例分割網絡。該方法利用自注意塊學習點云鳥瞰圖上的特征表示,最后的實例標簽是根據預測水平中心和高度限制獲得的。shi等人【231】提出了一種層次感知的變分去噪遞歸自動編碼器(VDRAE)來預測室內空間的布局,對象建議通過遞歸上下文聚合和傳播迭代地生成和細化。
總的來說,基于建議的方法【226】,【227】【229】【232】是直觀的,實例分割結果通常有好的客觀性,然而這些方法要求多階段的訓練和裁剪冗余提案。因此他們通常是耗時和計算昂貴的。
5.2.2 無協議的方法
無協議的方法【233】【~】【240】都沒有目標識別模塊,相反他們通常認為實例分割是予以分割之后的后續聚類步驟。特別的是,大多數存在的方法都是基于屬于同一實例的點應該具有非常相似的特征的假設。因此這些方法主要集中于判斷特征學習和點分組。
在先前的工作中,Wang等人【233】首先介紹了一種相似群組協議網絡(Similarity Group Proposal NetWork, SGPN).這種方法首先學習每個點的特征和語義圖,然后引入相似度矩陣來表示每個成對特征之間的相似度。為了學習更多的識別特征,他們使用了一種雙鉸鏈損失來相互調整相似矩陣和語義分割結果。最后,采用啟發式非極大抑制方法將相似點合并到實例當中。由于構建相似矩陣需要大量的內存消耗,該方法的可伸縮性是有限的。類似的LIU等人【237】首先利用子流形稀疏卷積【166】來預測每個體素的語義得分和每個緊鄰體素之間的親和力。然后他們引入了一種聚類算法,根據預測的親和性和網絡拓撲將點分組到實例中。MO等人【241】在PartNet中引入了一種檢測分割網絡來實現實例分割。使用PointNet++來預測每個點的語義標簽和不相連的實例掩碼的主干。此外,Liang等人【238】提出了一種結構感知的損失用哦過來區分性嵌入得學習。這種損失既考慮了特征的相似性,又考慮了點之前的幾何關系。進一步使用注意力機制的圖CNN,通過聚合來自鄰居的不同信息,自適應的細化學習特征。
因為點的語義類別和實例標簽通常是相互依賴的,因此提出幾種將兩個任務耦合成單個任務的方法。Wang等人【234】通過引入端到端和可學習的關聯分割實例和語義(ASIS)模塊集成了這兩個任務。實驗表明。通過ASIS模塊,語義特征和實例特征可以相互支持,從而提高性能。類似的,Zhao等人【242】提出了JSNet來實現語義和實例分割。此外,Pham等人【235】首先引出了多任務點智能網絡(multitask Point-Wise NetWork, MT-PNet)為每個點分配一個標簽,并通過引入區分性損失來正則化特征空間中的嵌入【243】。然后他們將預測的語義標簽和嵌入到一個多值條件隨機場(MV-CRF)模型中進行聯合優化,最后,采用均值域變分推理方法生成語義標簽和實例標簽。Hu等人【244】首先提出了一個動態區域增長(Dynamic Region Growing ,DRG)方法,將點云動態分離為一組不連通的版塊,然后使用無監督的K-means++算法對所有這些板塊進行分組。然后在小塊間上下文信息的指導下進行多尺度小塊分割。最后,將這些標記的補丁合并到對象級,得到最終的語義標簽和實例標簽。
Elich等人【236】為了全3D場景中進行實例分割,提出了一種混合2D-3D的網絡,從BEV表示和點云局部幾何特征中聯合學習全局一致 的實例特征。然后結合學習到的特征進行實例或者語義分割。值得注意的是,與啟發式的GroupMerging算法【233】相比,使用了更靈活的MeanShift【245】算法將這些點分組到實例中,另外多任務學習也被引入到實例分割中。Lahoud等人【246】學習了每個實例的獨特特征嵌入和估計目標中心的方向信息。提出了特征嵌入損耗和方向損耗潛在特征空間中學習到的特征嵌入。采用均值漂移聚類和非最大抑制事務處理對體素進行實例分組。這些方法在ScanNet【11】基準測試中實現了最先進的性能,此外,預測的方向信息對于確定實例的邊界特別有用,Zhang等人【247】將概率嵌入引用到點云實例分隔中。該方法還加入了不確定性評估,并提出了一種新的損失函數用于聚類步驟,Jiang等人【240】提出了PointGroup網絡,該網絡由一個語義分隔分支和一個偏移預測分支組成。進一步利用雙焦聚類算法和ScoreNet實現更好的分組結果。
總的來說,無協議的方法不需要計算開銷很大的區域提案組件。然而由這些方法分組的實例段的對象性通常很低,因為這些方法不顯式的檢測對象邊界。
5.3 部分分割
3D形狀圖像部分分割的困難主要有兩個方面:首先具有相同語義標簽的形狀部分有著很大的幾何變異性和歧義性。第二具有相同語義的物體部件數量可能不同。
VoxSegNet【248】在有限的解決方案下實現了三維體素化的數據的細粒度部分的分割,提出了一種空間密度提取(Spatial density Extraction, SDE)模塊。該模塊由堆疊的深黑色殘差塊組成,用于從稀疏提數據中提取多尺度鑒別特征。通過逐步應用主意特征聚合(AFA)模塊,對學習到的特征進行在加權和融合。Kalohetakis等人【249】將FCNs和基于表面的CRFs結合起來實現端到端的三維臨建分割,他們首先從多個視圖生成圖像以實現最佳的表面覆蓋,然后將這些圖像輸入2D網絡中以生成置信圖。然后這些置信圖被一個基于表面的CRF聚合,該CEF負責對整個場景進行一致的標記。YI等人【250】引出了一種同步譜CNN(SyncSpecCNN)來對不規則和非同構型狀圖進行卷積。為解決零件的多尺度分析和形狀間的信息共享問題,提出了一種擴展卷積核的譜參數化和譜變壓器網絡。
wang等人【251】首先用過引入全形狀卷積網絡(shape Fully Convolutional Networks, SFCN)對三維網格進行形狀分割,并以三種低級幾何特征作為輸入。然后利用基于投票的多標簽圖切割來進一步細化分割結果,Zhu等人【252】提出了一種弱監督CoSegNet用于三維形狀協同分割。該網絡以未分割的三維點云形狀集合為輸入,通過迭代最小化組一致性損失來產生形狀零件標簽,與CRF相似,我們提出了一種預處理的局部細化網絡來進一步細化和去噪,Chen等人【253】提出了一種分支自動編碼網絡(BAE-NET)用于無監督、單鏡頭和弱監督的三維形狀協同分割。該方法將形狀共同分割任務作為一個表示學習問題,旨在通過最小化形狀重建損失來尋找最簡單的部件表。基于編碼-譯碼結構,該網絡的每個分支都可以學習特定零件形狀的緊湊表示。然后將從每個分支學到的特征和點坐標反饋給解碼器產生一個二進制值(表示該點是否屬于該部分)。該方法具有良好的泛化能力,可以處理大量的三維形狀幾何(多達5000多個形狀)。但是該方法對初始參數敏感,沒有將形狀語義納入到網絡中,阻礙了每次迭代都能獲得魯棒穩定的估計。YU等人【254】提出了一種自上而下的遞歸部件分解網絡(PartNet)用于分層形狀分割。與現有的將形狀分割為固定標簽集的方法不同,該網絡將零件分割定義為級聯二值標記問題,并根據幾何結構將輸入點云分割為任意數量的零件,LUO等人【255】引入了一種基于學習的分組框架用于零鏡頭3D部分分割任務。為了提高跨類泛化能力,該方法傾向于學習一個限制網絡在局部上下文中學習部分級特征的分組策略。
5.4總結
表5顯示了現有方法在公共基準測試中獲得的結果,包括S3DIS[10]、Semantic3D[12]、ScanNet[39]和SemanticKITTI[15]。以下問題需要進一步研究。
·由于常規的數據表示,基于投影的方法和基于離散化的方法都可以利用其2D圖像對應的成熟網絡架構。然后基于投影方法的主要限制依賴于3D-2D投影帶來的信息損失,而基于離散化方法的主要瓶頸是由于分辨率的提高該來的計算和存儲成本的三次增加。為此在索引結構上建立稀疏卷積是一種可行的軍方案,值得進一步探索。
·基于點的網絡是最常使用的研究方法,然而點表示自然沒有明確的鄰域信息,大多數現有的基于點的犯法求助于昂貴的鄰域搜索機制(例如,KNN[79] 或者球查詢【54】),這本質上限制了這些方法的效率,最近提出了點-體素聯合表示【256】將是進一步研究的有趣的方向。
·從不平衡數據中仍然是點云分割中一個具有挑戰性的問題。雖然幾種方法【65】【203】【2045】在總體上取得了顯著的成績。但他們在少數類別中的表現仍然有限。不如說,RandLA-Net【206】在Senabtic3D的reduced-8子集上實現了76%的總體IoU,但是在硬景觀類上實現了41.1%的非常低的IoU。
·現有的大多數方法【5】【54】【79】【205】【207】都用于小點上。在實際應用中,深度傳感器獲取的點云通常是巨大的,大規模的。因此,進一步研究大尺度點云的有效分割問題是非常有必要的。
·一些著作【178】【179】【199】已經開始從動態點云中學習時空信息。我們希望這些時空信息能夠幫助提高三維物體識別,分割和完成后續任務的性能。
6 結論
本篇文章詳細的介紹了三維形狀分類、三維目標檢測和跟蹤,三維場景和目標分割。對于這些方法進行了綜合分類和性能比較。介紹了各種方法的優缺點,并提出了可能的研究方向。
總結
以上是生活随笔為你收集整理的点云综述学习笔记(一)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 牛客网【每日一题】7月31日题目精讲—兔
- 下一篇: 资本主义是什么意思 什么是资本主义