日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

点云综述学习笔记(一)

發(fā)布時(shí)間:2023/12/3 综合教程 34 生活家
生活随笔 收集整理的這篇文章主要介紹了 点云综述学习笔记(一) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文鏈接:Deep Learning for 3D Point Clouds: A Survey

參考博客http://www.huangli.com/?d

作者及團(tuán)隊(duì):Yulan Guo?, Hanyun Wang?, Qingyong Hu?, Hao Liu?, Li Liu, and Mohammed Bennamoun
會(huì)議及時(shí)間: Arxiv 2019

主要綜述內(nèi)容:

點(diǎn)云的研究方向大致如下:3D形狀分類、3D對(duì)象檢測(cè)和跟蹤、3D點(diǎn)云分割、3D點(diǎn)云登記,6-DOF姿態(tài)評(píng)估和3D重建等研究方向。

點(diǎn)云公開(kāi)數(shù)據(jù)集有:ModelNet(論文鏈接),ScanObjectNN(論文鏈接),ShapeNet(論文鏈接),PartNet(論文鏈接),S3DIS(論文鏈接),ScanNet(論文鏈接),Semantic3D(論文鏈接),ApolloCar3D(論文鏈接),和KITTI視覺(jué)基準(zhǔn)套件(論文鏈接1,論文鏈接2)

相關(guān)綜述論文有:

《Deep learning advances in computer vision with 3D data: A survey》《Deep learning advances on different 3D data representations: A survey?》《A review of point cloud semantic segmentation》以及《Recent advances in 3D object detection in the era of deep neural networks: A survey?》

現(xiàn)有的三維點(diǎn)云深度學(xué)習(xí)方法分類如下圖所示:

點(diǎn)云算法的評(píng)價(jià)標(biāo)準(zhǔn):

針對(duì)三維點(diǎn)云形狀分類:總體精度(Overall Accuracy(OA))和平均分類精度(mean class accurcy(mAcc))是最常使用的性能標(biāo)準(zhǔn),其中OA代表所有測(cè)試實(shí)例的平均精度,mAcc代表了所有shape類的平均精度。

針對(duì)三維點(diǎn)云目標(biāo)檢測(cè):平均精度(Average Precision(AP))是最常使用的標(biāo)準(zhǔn),它計(jì)算在精確找回曲線下的面積。Precision和Success通常用來(lái)評(píng)估3D單一目標(biāo)跟蹤器的整體性能。Average Multi-Object Tracking Accuracy(AMOTA)和Average Multi-Object Precision(AMOTP)是3D多目標(biāo)追蹤評(píng)估的常用指標(biāo)。

針對(duì)三維點(diǎn)云分割:OA 、mean Intersection over Union(mIoU)和mean class Accuracy(mAcc)是經(jīng)常被使用的評(píng)價(jià)標(biāo)準(zhǔn)的指標(biāo)。尤其 mean Average Precision(mAP)也通常在3D點(diǎn)云中的實(shí)例分割。

3D形狀分類:

該任務(wù)的主要方法是首先學(xué)習(xí)每個(gè)點(diǎn)的嵌入,然后使用聚合的方法提取出一個(gè)全局形狀嵌入。通過(guò)將整體嵌入到幾個(gè)全連接層中實(shí)現(xiàn)分類。根據(jù)神經(jīng)網(wǎng)絡(luò)輸入的數(shù)據(jù)類型,現(xiàn)有的三維形狀分類方法可以分為基于多視圖、基于體積的和基于點(diǎn)的方法。幾種典型的方法如下圖所示:

(欠個(gè)圖)

?

基于多視角的方法是將得結(jié)構(gòu)化的點(diǎn)云投影到二維圖像中;而基于體積的方法將點(diǎn)云轉(zhuǎn)化為三維體積標(biāo)識(shí),然后利用成熟的2D或3D卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)形狀分類;相比之下,基于點(diǎn)的方法直接工作在原始點(diǎn)云中,沒(méi)有體素化或投影。基于點(diǎn)的方法沒(méi)有引入顯性信息變得越來(lái)越流行。(由此可見(jiàn),在本片論文中主推“基于點(diǎn)的分類方法”)

1)多視角的方法

MVCNN是一個(gè)開(kāi)創(chuàng)性的工作,它簡(jiǎn)單的將多視圖特性集成到全局描述符中,然后,max-pooling只保留特定視圖的最大元素,導(dǎo)致信息丟失;MHBN通過(guò)協(xié)調(diào)雙線性池集成局部卷積特征,生成緊湊的全局描述符;Ze Yang等人首先利用一個(gè)關(guān)系網(wǎng)絡(luò)在一組視圖上利用相互關(guān)系(例如,區(qū)域-區(qū)域關(guān)系和視圖-視圖關(guān)系),然后聚合這些視圖以獲得一個(gè)鑒別的3D對(duì)象表示。跟之前的方法不同,Wei等人在View-GCN中使用了有向圖,將多個(gè)視圖中看做圖中的節(jié)點(diǎn),將局部圖卷積、非局部消息傳遞和選擇性視圖采樣組成的核心層應(yīng)用于構(gòu)造的圖中。最后將所有層的最大池化節(jié)點(diǎn)特征連接起來(lái)形成全局性描述符。

2)基于形狀的方法

這些方法通常將點(diǎn)云體素化成三維網(wǎng)格,然后在形狀分類的體積表示上應(yīng)用三維卷積神經(jīng)網(wǎng)絡(luò)(CNN)

Maturana等人介紹了一種名為VoxNet的體積占用網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)強(qiáng)3D目標(biāo)識(shí)別;Wu等人提出了一種基于卷積神經(jīng)深度信任3DShapeNets從各種3D形狀(由體素網(wǎng)格上二進(jìn)制變量的概率分布表示)中學(xué)習(xí)點(diǎn)的分布。盡管這些方法已經(jīng)取得了令人鼓舞的性能,但由于計(jì)算和內(nèi)存占用隨著分辨率的立方增長(zhǎng),這些方法無(wú)法很好地?cái)U(kuò)展到密集的3D數(shù)據(jù)。

為此引入一種層次和緊湊的結(jié)構(gòu)(比如說(shuō)octree)來(lái)減少這些方法中的計(jì)算和存儲(chǔ)的花費(fèi)。OctNet首先使用混合網(wǎng)格樹(shù)結(jié)構(gòu)分層劃分點(diǎn)云,該結(jié)構(gòu)沿著一個(gè)規(guī)則網(wǎng)格使用幾個(gè)淺octrees來(lái)表示場(chǎng)景。利用位串表示對(duì)八叉樹(shù)結(jié)構(gòu)進(jìn)行了有效編碼,并對(duì)每個(gè)體素的特征向量進(jìn)行了簡(jiǎn)單的算法索引;Wang等人提出了一種基于八叉樹(shù)的CNN用于三維形狀分類。將最細(xì)的葉八元中采樣的三維模型的平均法向量輸入神經(jīng)網(wǎng)絡(luò),并將3D-CNN通過(guò)三維曲面的形狀應(yīng)用在被占用的葉八元(leaf octants)中。與基于密集輸入網(wǎng)絡(luò)的基線網(wǎng)絡(luò)相比,OctNet在高分辨率點(diǎn)云中需要更少的內(nèi)存和運(yùn)行時(shí)間;Le等人提出了一種名為PointGrid的混合網(wǎng)絡(luò),該網(wǎng)絡(luò)集成了點(diǎn)和網(wǎng)格表示,以實(shí)現(xiàn)高效的點(diǎn)云處理。在每個(gè)嵌入的體積網(wǎng)格單元內(nèi)采樣一定數(shù)量的點(diǎn),這允許網(wǎng)絡(luò)通過(guò)使用3D卷積來(lái)提取幾何細(xì)節(jié);Ben-Shabat等將輸入點(diǎn)云轉(zhuǎn)換成3D網(wǎng)格,再用3D modified Fisher Vector (3DmFV)方法表示,然后通過(guò)傳統(tǒng)的CNN架構(gòu)學(xué)習(xí)全局表示。

3)基于點(diǎn)的方法(本篇論文關(guān)于點(diǎn)云形狀分類的重點(diǎn)研究)

根據(jù)每個(gè)用于每個(gè)點(diǎn)特征學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這類方法可以分為逐點(diǎn)MLP、基于卷積,基于圖,基于層次數(shù)據(jù)結(jié)構(gòu)的方法和其他的典型方法。

3.1 逐點(diǎn)MLP方法

該方法采用幾個(gè)共享的多層感知器(MLPs)對(duì)每個(gè)點(diǎn)獨(dú)立建模,然后使用對(duì)稱聚合函數(shù)聚合全局特征。如圖3所示:

?

由于三維點(diǎn)云數(shù)據(jù)固有的數(shù)據(jù)不規(guī)則性,典型的二維圖像深度學(xué)習(xí)方法不能直接應(yīng)用在三維點(diǎn)云上。作為開(kāi)創(chuàng)性的一份工作,PointNet直接使用點(diǎn)云作為他們的輸入,使用一個(gè)對(duì)稱函數(shù)獲取物體的置換不變性。總體來(lái)書,PointNet通過(guò)多個(gè)MLP層來(lái)獨(dú)立學(xué)習(xí)點(diǎn)特征,并通過(guò)一個(gè)最大池化層來(lái)提取全局特征;Deep sets 通過(guò)總結(jié)所有的表示以及應(yīng)用非線性變換來(lái)實(shí)現(xiàn)排列不變性。由于在PointNet中每個(gè)點(diǎn)的特征都是獨(dú)立學(xué)習(xí)的,點(diǎn)之間的局部結(jié)構(gòu)信息無(wú)法被捕捉,因此 Qi等人提出了一種分層的神經(jīng)網(wǎng)絡(luò)PointNet++通過(guò)每個(gè)點(diǎn)的鄰域來(lái)捕捉精細(xì)的幾何結(jié)構(gòu)。作為PointNet++分層的核心,它的集合抽象層由三層組成:采樣層、分組層和基于PointNet的學(xué)習(xí)層。通過(guò)疊加幾個(gè)抽象層。PointNet++從局部幾何結(jié)構(gòu)中學(xué)習(xí)特征,并逐層抽象局部特征。

由于它的簡(jiǎn)單性和較強(qiáng)的表達(dá)性,基本上很多神經(jīng)網(wǎng)絡(luò)都是基于PointNet的。Mo-Net的結(jié)構(gòu)與PointNet類似,但是它是將有限的矩集作為它的輸入;點(diǎn)注意轉(zhuǎn)換器(Point Attention transformer, PATs)通過(guò)其自身的絕對(duì)位置和相對(duì)于相鄰點(diǎn)的相對(duì)位置來(lái)表示每個(gè)點(diǎn),并通過(guò)MLPs學(xué)習(xí)高維特征。然后,利用群隨機(jī)注意力(Group Shuffle Attention, GSA)捕獲點(diǎn)之間的關(guān)系,開(kāi)發(fā)一個(gè)排列不變、可微、可訓(xùn)練的端到端Gumbel子集采樣層(端到端Gumbel子集采樣層)學(xué)習(xí)層次特征;基于PointNet++的PointWeb利用局部鄰域的上下文,使用自適應(yīng)特征調(diào)整,來(lái)改正點(diǎn)特征;Duan等人提出了一種結(jié)構(gòu)關(guān)系網(wǎng)絡(luò)(SRN)利用MLP學(xué)習(xí)不同局部結(jié)構(gòu)之間的結(jié)構(gòu)關(guān)系特征;林等人通過(guò)使用PointNet學(xué)習(xí)到的輸入空間和函數(shù)空間構(gòu)造了一個(gè)查找表來(lái)加速推理過(guò)程。ModelNet和ShapeNet數(shù)據(jù)集上的推理時(shí)間提升了1.5ms,在PointNet上提高了32倍。SRINet首先對(duì)點(diǎn)云進(jìn)行了投影去獲取旋轉(zhuǎn)不變表示,然后利用基于PointNet的主干提取全局特征和使用基于圖的聚合方法提取局部特征。在PointASNL中,Yan等人利用一種自適應(yīng)采樣(AS)模塊自適應(yīng)去調(diào)整最遠(yuǎn)點(diǎn)采樣(FPS)所采樣點(diǎn)的坐標(biāo)和特征,然后提出一種Local-NON-local(L-NL)模塊來(lái)捕捉這些采樣點(diǎn)的局部和遠(yuǎn)程依賴。

?

3.2 基于卷積的方法

根據(jù)卷積核的類型,目前的三維卷積方法可以分為連續(xù)卷積和離散卷積。

3D連續(xù)卷積方法:這些方法在連續(xù)空間上定義了卷積核,在連續(xù)空間中,相鄰點(diǎn)的權(quán)值與相對(duì)于中心點(diǎn)的空間分布有關(guān)系。

三維卷積可以解釋為在給定子集上的加權(quán)和。作為RS-CNN的核心層,RS-Conv需要局部子集的點(diǎn)在某一個(gè)點(diǎn)作為輸入,和卷積實(shí)現(xiàn)使用一個(gè)延時(shí)通過(guò)學(xué)習(xí)從低級(jí)的映射關(guān)系(比如歐氏距離和相對(duì)位置)高級(jí)點(diǎn)在局部子集之間的關(guān)系;在【63】中,核元素在單元球體中隨機(jī)選取,然后使用基于MLP的連續(xù)函數(shù)建立核元素的位置和點(diǎn)云的關(guān)系;在DensePoint中,卷積被定義為帶有非線性激活器的單層感知器(SLP)特征的學(xué)習(xí)是通過(guò)連接所有先驗(yàn)層的特征來(lái)充分利用上下文信息。Thomas等人使用一組可學(xué)習(xí)的核點(diǎn),提出了三維點(diǎn)云的剛性和可變形核點(diǎn)卷積(KPConv)算子;ConvPoint將卷積核分為空間部分和特征部分,局部部分的位置從單元球中隨機(jī)選取,并通過(guò)一個(gè)簡(jiǎn)單的MLP學(xué)習(xí)權(quán)重函數(shù)。

現(xiàn)在的一些方法也會(huì)使用現(xiàn)有的算法來(lái)執(zhí)行卷積。在PointConv中,卷積被定義為關(guān)一個(gè)重要采樣的連續(xù)3D卷積的蒙特克羅估計(jì),卷積核有一個(gè)加權(quán)函數(shù)(通過(guò)MLP層學(xué)習(xí))和一個(gè)密度函數(shù)(通過(guò)一個(gè)核化密度函數(shù)和一個(gè)MLP層學(xué)習(xí))組成。為了提高存儲(chǔ)和計(jì)算效率,將三維卷積進(jìn)一步簡(jiǎn)化為兩種操作:矩陣乘法和二維卷積。在同樣的參數(shù)設(shè)置下,其內(nèi)存消耗可以減少約64倍;在MCCNN中,卷積被認(rèn)為是一種依賴于樣本密度函數(shù)的蒙特卡洛估計(jì)過(guò)程(使用MLP實(shí)現(xiàn));然后使用泊松采樣來(lái)構(gòu)建點(diǎn)云層次關(guān)系。該卷積算子可用于兩種或多種采樣方法之間的卷積,也可以用來(lái)處理不同的采樣密度;在SpiderCNN中,我們提出用SpiderConv將卷積定義為階躍函數(shù)和定義在K個(gè)最近鄰上的泰勒展開(kāi)的乘積。階躍函數(shù)通過(guò)編碼局部測(cè)地線距離來(lái)捕獲粗幾何,使用Tayler展開(kāi)通過(guò)插值立方體頂點(diǎn)的任意值來(lái)捕獲局部幾何的內(nèi)在變化;同時(shí)提出一種基于徑向基函數(shù)的三維點(diǎn)云卷積網(wǎng)絡(luò)PCNN。

在面臨3D卷積網(wǎng)絡(luò)時(shí),為解決旋轉(zhuǎn)等量問(wèn)題提出了幾種方法。Esteves等人[71]提出了三維球面CNN,以多值球面函數(shù)作為輸入,學(xué)習(xí)三維形狀的旋轉(zhuǎn)等變表示。通過(guò)在球面調(diào)和域內(nèi)用錨點(diǎn)參數(shù)化頻譜得到局部卷積濾波器。張量場(chǎng)網(wǎng)絡(luò)[72]被提出將點(diǎn)卷積運(yùn)算定義為一個(gè)可學(xué)習(xí)的徑向函數(shù)和球面調(diào)和函數(shù)的乘積,球面調(diào)和函數(shù)對(duì)于三維旋轉(zhuǎn)、平移和排列是局部等變的。[73]中的卷積是基于球面互相關(guān)定義的,并使用廣義快速傅立葉變換(FFT)算法實(shí)現(xiàn)的。SPHNet[74]基于PCNN,通過(guò)在體積函數(shù)的卷積過(guò)程中引入球諧核來(lái)實(shí)現(xiàn)旋轉(zhuǎn)不變性。

為了加快計(jì)算速度,Flex-Convolution[75]將卷積核的權(quán)值定義為對(duì)k個(gè)最近鄰的標(biāo)準(zhǔn)標(biāo)量積,可以使用CUDA加速。實(shí)驗(yàn)結(jié)果表明,該算法在小數(shù)據(jù)集、參數(shù)少、內(nèi)存消耗低的情況下具有較好的性能。

3D離散卷積方法:這些放在在規(guī)則網(wǎng)格上定義了卷積核,其中臨近點(diǎn)的權(quán)重值與相對(duì)于中心點(diǎn)的偏移量有關(guān)系。

Hua等[76]將非均勻三維點(diǎn)云轉(zhuǎn)換成均勻網(wǎng)格,并在每個(gè)網(wǎng)格上定義卷積核。所提議的3D內(nèi)核將相同的權(quán)重分配給所有落在同一網(wǎng)格中的點(diǎn)。對(duì)于一個(gè)給定點(diǎn),在同一網(wǎng)格上的所有相鄰點(diǎn)的平均特征都是從上一層計(jì)算出來(lái)的。然后,對(duì)所有網(wǎng)格的平均特征進(jìn)行加權(quán)和求和,生成當(dāng)前層的輸出。Lei等人[77]定義了球形卷積核,將一個(gè)三維球形鄰近區(qū)域劃分為多個(gè)容量容器,并將每個(gè)容器與一個(gè)可學(xué)習(xí)的加權(quán)矩陣關(guān)聯(lián)。一個(gè)點(diǎn)的球面卷積核的輸出是由其相鄰點(diǎn)加權(quán)激活值的平均值的非線性激活決定的。在GeoConv[78]中,一個(gè)點(diǎn)和它的鄰近點(diǎn)之間的幾何關(guān)系是基于6個(gè)基底明確建模的。沿基的每個(gè)方向的邊緣特征由一個(gè)方向相關(guān)的可學(xué)習(xí)矩陣獨(dú)立加權(quán)。這些與方向相關(guān)的特征然后根據(jù)給定點(diǎn)和它的鄰近點(diǎn)形成的角度進(jìn)行聚合。對(duì)于給定點(diǎn),當(dāng)前層的特征定義為給定點(diǎn)的特征的數(shù)量和它在前一層的臨近邊緣特征。

PointCNN[79]通過(guò)χ-conv變換(通過(guò)MLP實(shí)現(xiàn))將輸入點(diǎn)轉(zhuǎn)換為一個(gè)潛在的、潛在的規(guī)范順序,然后對(duì)轉(zhuǎn)換后的特征應(yīng)用典型的卷積算子。Mao等[80]通過(guò)將點(diǎn)特征插值到相鄰的離散卷積核權(quán)坐標(biāo)中,提出了一種插值卷積算子InterpConv來(lái)測(cè)量輸入點(diǎn)云與核權(quán)坐標(biāo)之間的幾何關(guān)系。Zhang等[81]提出了實(shí)現(xiàn)旋轉(zhuǎn)不變性的RIConv算子,該算子以低水平旋轉(zhuǎn)不變性的幾何特征為輸入,通過(guò)簡(jiǎn)單的分箱方法將卷積轉(zhuǎn)化為一維。a - cnn[82]定義了一種環(huán)形卷積,通過(guò)在查詢點(diǎn)的每個(gè)環(huán)上按照核的大小循環(huán)鄰居數(shù)組,并學(xué)習(xí)局部子集中鄰居點(diǎn)之間的關(guān)系。

為了降低3D cnn的計(jì)算和存儲(chǔ)成本,Kumawat等[83]提出了一種修正局部相位體積(ReLPV)塊,基于3D短期傅里葉變換(STFT)在3D局部鄰域中提取相位,顯著減少了參數(shù)數(shù)量。在SFCNN[84]中,點(diǎn)云以對(duì)齊球坐標(biāo)投影到正二十面體晶格上。然后通過(guò)卷積- maxpool3 -卷積結(jié)構(gòu)對(duì)球格頂點(diǎn)及其鄰點(diǎn)所連接的特征進(jìn)行卷積。SFCNN能抵抗旋轉(zhuǎn)和擾動(dòng)

圖論方法:圖論方法是將點(diǎn)云中的每個(gè)點(diǎn)看作圖中的一個(gè)頂點(diǎn),然后根據(jù)每個(gè)點(diǎn)的鄰居頂點(diǎn)生成有向邊,在空間域和光譜域進(jìn)行特征學(xué)習(xí)【85】,一個(gè)典型的基于圖的網(wǎng)絡(luò)如圖5所示:

空間域內(nèi)的基于圖的方法:這些方法均定義了在空間域的操作(比如卷積和池化),特別的是卷積通常通過(guò)空間臨點(diǎn)的MLP實(shí)現(xiàn)的,并采用池化方法將每個(gè)點(diǎn)的臨點(diǎn)信息聚合在一起生成新的粗化圖。每個(gè)頂點(diǎn)的特征通常通過(guò)坐標(biāo)、激光強(qiáng)度或者顏色來(lái)分配,而每個(gè)邊緣的特征通常用兩個(gè)連接點(diǎn)之間的幾何屬性來(lái)分配。

Simonovsky等人將每個(gè)點(diǎn)看做圖中的一個(gè)頂點(diǎn),然后使用一條有向邊將每個(gè)頂點(diǎn)與其所有的鄰居連接起來(lái),這是一個(gè)開(kāi)創(chuàng)性的工作。然后使用濾波生成網(wǎng)絡(luò)(比如MLP)來(lái)提出了一個(gè)邊緣條件卷積(ECC)。采用最大池化來(lái)聚合鄰域信息,基于VoxelGrid實(shí)現(xiàn)圖粗化。在DGCNN中,在特征空間中構(gòu)造一個(gè)圖并在網(wǎng)絡(luò)的每一層之后被動(dòng)態(tài)的更新。作為EdgeConv的核心層。MLP通常被用作每個(gè)邊的特征函數(shù),并對(duì)每個(gè)點(diǎn)的鄰居相關(guān)聯(lián)的邊緣特征進(jìn)行信道對(duì)稱聚合。進(jìn)一步,LDGCNN【88】去除變換網(wǎng)絡(luò),并將DGCNN中的層次特征從不同的層次進(jìn)行鏈接,以提高其性能,減少模型尺寸。還提出了一種端到端的無(wú)監(jiān)督的深度自動(dòng)編碼網(wǎng)絡(luò),該網(wǎng)絡(luò)使用向量化的局部協(xié)方差矩陣和點(diǎn)坐標(biāo)的鏈接作為輸出。受到Inception和DGCNN的啟發(fā),Hassani和Haley提出了一種無(wú)監(jiān)督的多任務(wù)自動(dòng)編碼器來(lái)學(xué)習(xí)點(diǎn)和形狀特征,該編碼器采用聚類、自監(jiān)督分類和重構(gòu)三種無(wú)監(jiān)督任務(wù),并且在多任務(wù)丟失的情況下進(jìn)行聯(lián)合訓(xùn)練。LIU等人提出了一種基于圖卷積的動(dòng)態(tài)點(diǎn)聚集模塊(Dynamic point Agglomeration Module,DPAM)將點(diǎn)的聚集(采樣、分組和池化)過(guò)程簡(jiǎn)為一個(gè)簡(jiǎn)單的步驟,通過(guò)聚集矩陣與點(diǎn)特征矩陣相乘來(lái)實(shí)現(xiàn)。在PointNet的基礎(chǔ)上,通過(guò)堆疊多層的DPAMs來(lái)構(gòu)建一個(gè)分層學(xué)習(xí)體系結(jié)構(gòu)。與PointNet++的層次策略相比,DPAM動(dòng)態(tài)的利用點(diǎn)之間的關(guān)系并且在語(yǔ)義空間中聚集點(diǎn)。

為了利用局部幾何結(jié)構(gòu),KCNet基于核相關(guān)學(xué)習(xí)特征。具體來(lái)說(shuō),一組表述局部結(jié)構(gòu)聚合類型的可學(xué)習(xí)點(diǎn)被定義為核。然后,計(jì)算核與給定點(diǎn)的鄰域之間的親和力。在G3D中,卷積被定義為鄰接矩陣多項(xiàng)式的變體,池化被定義為拉普拉斯矩陣和定點(diǎn)矩陣乘以一個(gè)粗化矩陣。ClusterNet利用嚴(yán)格旋轉(zhuǎn)不變模塊從每個(gè)點(diǎn)的K個(gè)最近鄰中提取旋轉(zhuǎn)不變特征,并基于帶有。。的無(wú)監(jiān)督凝聚層次聚類方法構(gòu)建點(diǎn)云的層次架構(gòu)。每個(gè)子簇的特征首先通過(guò)EdgeConv模塊進(jìn)行學(xué)習(xí),然后通過(guò)最大池化進(jìn)行聚合。

為解決目前結(jié)構(gòu)化方法耗時(shí)問(wèn)題(比如FPS、臨近點(diǎn)查詢),XU等人提出了融合基于體積的方法和基于點(diǎn)的方法的優(yōu)點(diǎn)來(lái)提高計(jì)算效率。在ModeNet分類任務(wù)上的實(shí)驗(yàn)表明,所提出的Grid-Net網(wǎng)絡(luò)的計(jì)算效率平均比其他模型快5倍。

基于頻譜圖的方法:這些方法將卷積定義為光譜濾波,實(shí)現(xiàn)為信號(hào)在圖上與圖拉普拉斯矩陣的特征向量相乘【98】【99】。

RGCNN【100】通過(guò)連接點(diǎn)云中每個(gè)點(diǎn)與其他所有點(diǎn)的相連構(gòu)造了一個(gè)圖,提升了每一層中的拉普拉斯矩陣。為了相鄰頂點(diǎn)的特征更加相似,在損失函數(shù)中加入了一個(gè)圖信號(hào)平滑先驗(yàn)。為了解決數(shù)據(jù)的不同圖拓?fù)浣Y(jié)構(gòu)所帶來(lái)的挑戰(zhàn),AGCN【101】中的SGC-LL層利用了一個(gè)可學(xué)習(xí)的距離度量參數(shù)化圖上兩個(gè)點(diǎn)的相似性。利用高斯核函數(shù)和學(xué)習(xí)距離對(duì)圖的鄰接矩陣進(jìn)行歸一化。HGNN【102】通過(guò)在超圖上應(yīng)用光譜卷積建立超邊緣卷積層。

上述方法適用于全圖。為了利用局部結(jié)構(gòu)信息,Wang等人提出了一種端到端的光譜卷積網(wǎng)絡(luò)LocalSpecGCN來(lái)處理局部圖(有k個(gè)最近鄰構(gòu)成)。該方法不需要離線計(jì)算圖拉普拉斯矩陣和圖粗化層次。在PointGCN中基于點(diǎn)云的K個(gè)最近鄰構(gòu)造一個(gè)圖,每一個(gè)邊使用高斯核進(jìn)行加權(quán)。卷積濾波器被定義為圖譜域的切比雪夫多項(xiàng)式。全局池化和多分辨率池化用來(lái)捕捉點(diǎn)云的全部和局部特征。Pen等人【105】通過(guò)對(duì)譜域K個(gè)最近鄰圖進(jìn)行卷積,提出了3DTI-net.通過(guò)學(xué)習(xí)相對(duì)歐氏距離和方向距離來(lái)實(shí)現(xiàn)幾何變換的不變性。

基于層次數(shù)據(jù)結(jié)構(gòu)的方法

這些網(wǎng)絡(luò)基于不用層次數(shù)據(jù)結(jié)構(gòu)組成(比如說(shuō)octree或者KDtree)。在這些方法中,點(diǎn)特征是沿著樹(shù)從葉節(jié)點(diǎn)到根節(jié)點(diǎn)的層次學(xué)習(xí)。

Lei等人【77】提出了一種使用球面卷積核的八叉樹(shù)引導(dǎo)的CNN。網(wǎng)絡(luò)的每一層對(duì)應(yīng)著八叉樹(shù)中的一層,每一層都應(yīng)用一個(gè)球面卷積核。當(dāng)前層的神經(jīng)元的值確定為上一層所有相關(guān)子節(jié)點(diǎn)的平均值,域基于octree的OctNet不同,Kd-Net是在每次迭代中使用多個(gè)分裂方向不同的K-dTree來(lái)構(gòu)建的。按照自底向上的方法,非葉節(jié)點(diǎn)的表示使用MLP從他們孩子結(jié)點(diǎn)的表示計(jì)算而來(lái)。最后將根節(jié)點(diǎn)的特征數(shù)輸入到全連接層中,從而預(yù)測(cè)得分。注意,Kd-Tree通過(guò)節(jié)點(diǎn)的分割類型在每一層共享參數(shù)。3DContextNet使用一種標(biāo)準(zhǔn)平衡的K-d tree去獲得特征學(xué)習(xí)和聚合。在每一層,點(diǎn)特征首先通過(guò)MLP學(xué)習(xí),基于局部線索(模型局部區(qū)域點(diǎn)之間的相互依賴)和全局上下文線索(模型一個(gè)位子與所有其他位置的關(guān)系)。然后,使用MLP從子節(jié)點(diǎn)計(jì)算非葉節(jié)點(diǎn)的特征。并且通過(guò)最大池聚合。為了進(jìn)行分類,重復(fù)上述過(guò)程,直到達(dá)到根節(jié)點(diǎn)。

SO-Net網(wǎng)絡(luò)的層次結(jié)構(gòu)通過(guò)點(diǎn)到節(jié)點(diǎn)K緊鄰搜索來(lái)構(gòu)建的。具體來(lái)說(shuō),采用改進(jìn)的排列不變自組織映射(SOM)對(duì)點(diǎn)云的空間分布進(jìn)行建模。通過(guò)一些列完全聯(lián)通的層,從歸一化的點(diǎn)到節(jié)點(diǎn)坐標(biāo)中學(xué)習(xí)單個(gè)點(diǎn)特征。SOM中每個(gè)節(jié)點(diǎn)的特征是利用信道最大池的方法從該節(jié)點(diǎn)相關(guān)的點(diǎn)特征中提取出來(lái)的。然后使用類似于PointNet的方法從節(jié)點(diǎn)特性中學(xué)習(xí)最后的特性。有PointNet++相比,SOM的層次結(jié)構(gòu)更加高效,充分挖掘了點(diǎn)云的空間分布。

其他的方法

另外,許多的方案被提出,RBFnet【113】用過(guò)聚集系數(shù)分布的徑向基函數(shù)(RBF)核的特征,明確地模擬點(diǎn)的空間分布,具有科學(xué)系的和位置和大小。3DPointCapsNet【112】使用逐點(diǎn)MLP和卷積層學(xué)習(xí)點(diǎn)獨(dú)立特征,并使用多個(gè)最大池化層提取全局潛在表示。在無(wú)監(jiān)督動(dòng)態(tài)路由的基礎(chǔ)上,獲得了強(qiáng)大的具有代表性的層被學(xué)習(xí)。QIN等人【116】提出了一種用于三維點(diǎn)云表示的端到端無(wú)監(jiān)督域自適應(yīng)網(wǎng)絡(luò)PointDAN。為了捕獲點(diǎn)云的語(yǔ)義屬性,提出了一種自監(jiān)督的方法來(lái)重構(gòu)點(diǎn)云,點(diǎn)云的各個(gè)部分被隨機(jī)重新排列【117】。Li等人【118】提出了一種自動(dòng)增強(qiáng)框架PointAugment,用于對(duì)網(wǎng)絡(luò)訓(xùn)練中的點(diǎn)云樣本進(jìn)行自動(dòng)優(yōu)化和增強(qiáng)。具體來(lái)說(shuō),每個(gè)輸入樣本的形狀變換和電位移將被自動(dòng)學(xué)習(xí),網(wǎng)絡(luò)用過(guò)交替優(yōu)化和恩新其增強(qiáng)器和分類器的可學(xué)習(xí)參數(shù)進(jìn)行訓(xùn)練。受到形狀信息的啟發(fā)【119】,xie等人提出了一種ShapeContextNet架構(gòu),利用點(diǎn)乘自我注意將親和點(diǎn)選擇和緊湊的特征聚合結(jié)合到一種軟對(duì)其操作中。為了處理三維點(diǎn)云中的噪聲和遮擋,Bobkov等人【121】將手工制作的基于4D旋轉(zhuǎn)不變描述注入到4D卷積神經(jīng)網(wǎng)絡(luò)中。Prokudin等人【122】首先從一個(gè)單位球隨機(jī)采樣一個(gè)均勻分布的基點(diǎn)集,然后將點(diǎn)云編碼為到基點(diǎn)集的最小距離因此電源被轉(zhuǎn)換成一個(gè)相對(duì)較小的固定長(zhǎng)度的向量,編碼后的表示法可以用現(xiàn)有的機(jī)器學(xué)習(xí)方法進(jìn)行處理。

RCNet【115】使用標(biāo)準(zhǔn)的RNN和2D CNN去構(gòu)建用于三維點(diǎn)云處理的排列不變網(wǎng)絡(luò)。首先將點(diǎn)云劃分為平行光束,并按照特定的尺寸排序,然后將每個(gè)光束送入到共享的RNN中。學(xué)習(xí)到的特征進(jìn)一步輸入到一個(gè)有效的2DCNN中進(jìn)行層次特征聚合。為了提高其描述能力,提出了將多個(gè)RCNet-E按不同的劃分和排序方向集成的方法。Point2Sequences【114】是另外一種基于RNN的模型,他捕捉點(diǎn)云局部區(qū)域不同區(qū)域之間的相關(guān)性。它將從一個(gè)局部區(qū)域來(lái)自各個(gè)尺度的序列輸入到基于rnn的編碼器-解碼器結(jié)構(gòu)中,以聚合局部區(qū)域特征。

有一些方法也從3D點(diǎn)云和2D圖像學(xué)習(xí)。在PVNet【110】中從多視圖圖像中提取到的高級(jí)全局特征通過(guò)嵌入網(wǎng)絡(luò)投射到點(diǎn)云的子空間。并通過(guò)軟注意掩膜與點(diǎn)云特征融合。最后利用殘差連接對(duì)融合的特征和多視圖特征進(jìn)行形狀識(shí)別。后來(lái)又提出了PVRNet,通過(guò)關(guān)系評(píng)分模塊來(lái)開(kāi)發(fā)三維點(diǎn)云與其多個(gè)視圖之間的關(guān)系。在此基礎(chǔ)上,對(duì)原始2D全局視圖特征進(jìn)行單視圖融合和多視圖融合。

ModelNet10/40數(shù)據(jù)集經(jīng)常用來(lái)訓(xùn)練3D形狀分類,結(jié)論為:

1)點(diǎn)態(tài)MLP網(wǎng)絡(luò)通常被其他類型網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)態(tài)特征的基本構(gòu)件

2)及與卷積的網(wǎng)絡(luò)作為一種標(biāo)準(zhǔn)的深度學(xué)習(xí)體系結(jié)構(gòu),可以在不規(guī)則的三維點(diǎn)云上取得優(yōu)異的性能。對(duì)于不規(guī)則的數(shù)據(jù),離散卷積網(wǎng)絡(luò)和連續(xù)卷積網(wǎng)絡(luò)都應(yīng)該受到廣泛的關(guān)注。

3)近年來(lái) 基于圖的網(wǎng)絡(luò)因其對(duì)不規(guī)則數(shù)據(jù)的處理能力而受到越來(lái)越多的關(guān)注。然而將頻譜域的基于圖的網(wǎng)絡(luò)擴(kuò)展到各種圖結(jié)構(gòu)仍然具有一定的挑戰(zhàn)

4 3D對(duì)象檢測(cè)與跟蹤

在本節(jié)中我們將回顧現(xiàn)有的三維目標(biāo)檢測(cè)、三維目標(biāo)跟蹤和三維場(chǎng)景流量估計(jì)方法。

4.1 3D目標(biāo)檢測(cè)

一個(gè)典型的三維物體檢測(cè)器以場(chǎng)景的點(diǎn)云作為輸入,在每個(gè)被檢測(cè)到的物體周圍產(chǎn)生一個(gè)有方向的三維包圍框,如圖6所示:跟在圖像目標(biāo)識(shí)別相似【123】,3D目標(biāo)檢測(cè)算法可以被分成兩類:基于區(qū)域提議的方法和單鏡頭方法,幾種里程碑式的方法在圖7中:

4.1.1 地區(qū)基于協(xié)議的方法

這些方法首先提出了幾種可能包含對(duì)象的區(qū)域(也稱為建議),然后提取出區(qū)域特征以確定每個(gè)建議的類別標(biāo)簽。根據(jù)他們目標(biāo)協(xié)議的生成方法,這些方法將被進(jìn)一步分割為三類:基于多視角的、給予分割的和基于平截頭體的方法。

基于多視圖的方法:這些方法融合不同視角的特征(比如說(shuō)雷達(dá)視角,鳥瞰圖、和圖片)的明智特征。去獲取3D旋轉(zhuǎn)的盒子,就像圖8所示。這些方法的計(jì)算成本通常很高。

Chen等人【4】從BEV地圖中生成了一組高精度的3D候選框,并將其投影到多個(gè)視圖的特征地圖中(比如就激光雷達(dá)前視圖圖像、RGB圖像)。然后他們組合這些來(lái)自不同視圖的區(qū)域特征來(lái)預(yù)測(cè)有方向的3D包圍框,如圖8所示。盡管這個(gè)方法在交集的聯(lián)合(IoU)召回率為0.25.達(dá)到了99.1%,但是他的速度對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)太慢了。在此基礎(chǔ)上,從兩個(gè)方面對(duì)多視角三維目標(biāo)檢測(cè)方法進(jìn)行了改進(jìn)。

首先,提出了幾種有效融合不同模式信息的方法。為了生成對(duì)小物體的高召回的3D題案。ku等人【126】提出了一種基于多模態(tài)融合的區(qū)域提案網(wǎng)絡(luò)。他們首先使用裁剪和調(diào)整操作從BEV和圖像視角中提取等大小的特征,然后使用element-wise均值池融合這些特征。Liang等人利用連續(xù)卷積實(shí)現(xiàn)不同分辨率的圖像和3D雷達(dá)特征圖的有效融合。具體的來(lái)說(shuō),他們提取了BEV空間中的每個(gè)點(diǎn)最近的對(duì)應(yīng)圖像特征,然后通過(guò)將圖像特征投影到BEV平面,利用雙線性插值得到稠密的BEV特征映射。實(shí)驗(yàn)表明,與離散圖像特征圖和稀疏激光雷達(dá)特征圖相比,稠密的BEV特征圖更適合于三維目標(biāo)檢測(cè)。liang等人提出了一種端到端訓(xùn)練的多任務(wù)多傳感器三維目標(biāo)檢測(cè)網(wǎng)絡(luò)。具體來(lái)說(shuō),利用多個(gè)任務(wù)(例如,2D目標(biāo)識(shí)別、地面評(píng)估和深度完成)來(lái)幫助網(wǎng)絡(luò)學(xué)習(xí)更好的特征表示。進(jìn)一步利用學(xué)習(xí)到的交叉模態(tài)表示來(lái)產(chǎn)生高精度的目標(biāo)檢測(cè)結(jié)果。實(shí)驗(yàn)證明:這個(gè)方法在2D、3D和BEV檢測(cè)任務(wù)中取得了顯著的改進(jìn),并在TOR4D基準(zhǔn)測(cè)試上優(yōu)于以往最先進(jìn)方法。

其次,不同的方法被研究用來(lái)提取輸入數(shù)據(jù)的魯棒性表示。Lu等人通過(guò)引入空間通道注意力模塊(SCA)探索了多尺度上下文信息,該模塊捕捉場(chǎng)景的全局和多尺度上下文,并突出有用的特征。他還提出了一種擴(kuò)展空間不采樣(ESU)模塊,通過(guò)解多尺度低層特性獲取具有豐富空間信息的高層特征,從而生成可靠的三維對(duì)象建議。盡管可以實(shí)現(xiàn)更好的檢測(cè)性能,但上述多視圖方法需要很長(zhǎng)的運(yùn)行時(shí)間,因?yàn)樗麄優(yōu)槊恳粋€(gè)提議執(zhí)行特性池。隨后Zeng等人使用一種RoI前池化卷積來(lái)提高【40】的效率。具體來(lái)說(shuō),他們將大多數(shù)卷積操作移至RoI池模塊之前。因此,對(duì)所有對(duì)象建議都進(jìn)行一次RoI池模塊之前。因此,對(duì)所有的對(duì)象建議都進(jìn)行一次ROi操作,實(shí)驗(yàn)證明。該方法的運(yùn)行速度為11.1fps,比MV3D【4】快5倍。

基于分割的方法:這些方法首先利用現(xiàn)有的語(yǔ)義分割技術(shù)去除大部分背景點(diǎn),然后在前景點(diǎn)上生成大量高質(zhì)量協(xié)議以節(jié)省計(jì)算;如圖8b所示。與多視圖方法相比,這些方法具有更高的物體召回率,更適用于物體高度遮擋和擁擠的復(fù)雜場(chǎng)景。

Yang等人【132】使用一種2D分割網(wǎng)絡(luò)來(lái)預(yù)測(cè)前景像素,并將其投影到點(diǎn)云中,以去除大多數(shù)背景點(diǎn)。然后,他們?cè)陬A(yù)測(cè)的前景點(diǎn)上生成天,并設(shè)計(jì)了一種名為PointSloU的新標(biāo)準(zhǔn),以減少提案的冗余和含糊不清。在【132】之后,Shi等人提出了一種PointRCNN網(wǎng)絡(luò)架構(gòu)。具體來(lái)說(shuō),他們直接對(duì)三維點(diǎn)云進(jìn)行分割得到前景點(diǎn),然后融合語(yǔ)義特征和局部空間特征以生成高質(zhì)量的3D盒子。在【133】的Region Proposal NetWork(RPN)階段之后。Jesus等人【134】提出了一種利用圖卷積(GCN)進(jìn)行三維目標(biāo)檢測(cè)的開(kāi)創(chuàng)性工作,具體來(lái)說(shuō),引入兩個(gè)模塊使用圖卷積來(lái)細(xì)化對(duì)象建議。第一個(gè)模塊R-GCN利用一個(gè)提議中包含的所有點(diǎn)來(lái)實(shí)現(xiàn)每個(gè)提議的特性聚合;第二個(gè)模塊C-GCN混合來(lái)自所有提議的每幀信息,利用上下文回歸準(zhǔn)確的對(duì)象框。Sourabh等人【135】將點(diǎn)云投影到基于圖像的分割網(wǎng)絡(luò)的輸出中,并將語(yǔ)義預(yù)測(cè)分?jǐn)?shù)附加到點(diǎn)上。繪制的點(diǎn)被輸入到現(xiàn)有的檢測(cè)器中【133】【136】【137】以實(shí)現(xiàn)顯著的性能改進(jìn)。Yang等人【138】用一個(gè)球形錨將每個(gè)點(diǎn)聯(lián)系起來(lái)。然后使用每個(gè)點(diǎn)的語(yǔ)義得分來(lái)刪除冗余錨。因此,與之前的方法相比【132】【133】相比,該方法具有更高的查全率和更低的計(jì)算成本。此外,提出了一個(gè)PointsPool層來(lái)學(xué)習(xí)建議內(nèi)部點(diǎn)的緊湊特征,并引入一個(gè)并行的IOU分支來(lái)提高定位精度和檢測(cè)性能。

基于截頭的方法:這些方法首先利用現(xiàn)有的2D物體檢測(cè)器生成物體的2D候選區(qū)域,然后為每個(gè)2D候選區(qū)提取3D截錐方法,如圖8c所示。雖然這些方法可以有效的提出了三維物體的可能位置,但逐步流水線的性能受到二維圖像檢測(cè)器的限制。

F-PointNets【139】是一個(gè)開(kāi)創(chuàng)性的工作在這個(gè)方向上。他為每一個(gè)2D區(qū)域生成一個(gè)截錐建議,并應(yīng)用PointNet【5】(或PointNet++【54】)學(xué)習(xí)每個(gè)3D截錐的點(diǎn)云特征,進(jìn)行模態(tài)3D盒估計(jì)。在后續(xù)的工作中,Zhao等人【140】提出了一個(gè)Point-SENet模塊來(lái)預(yù)測(cè)一組縮放因子,該模塊進(jìn)一步被用來(lái)自適應(yīng)地突出有用的特征和抑制無(wú)信息的特征。他們還將PointSIFT【141】模塊集成到網(wǎng)絡(luò)中,獲取點(diǎn)云的方向信息,對(duì)形狀縮放具有很強(qiáng)的魯棒性。與F-PointNets相比,該方法在室內(nèi)和室外數(shù)據(jù)集【14】【25】都取得了顯著的改進(jìn)。

XU等人【142】利用二維圖像區(qū)域以及其相應(yīng)的截錐點(diǎn)來(lái)精確的回歸三維盒子,為了融合圖像特征和點(diǎn)云的全局特征,他們提出了一種用于直接回歸盒角點(diǎn)位置的全局融合網(wǎng)絡(luò),他們還提出了一種密集融合網(wǎng)絡(luò)來(lái)預(yù)測(cè)每個(gè)角落的點(diǎn)向偏移量。Shin等人【143】首先從2D圖像中估計(jì)物體的2D包圍盒和3D位姿,然后提取多個(gè)幾何上可行的物體候選對(duì)象。這些3D候選對(duì)象被輸入到一個(gè)盒子回歸網(wǎng)咯來(lái)預(yù)測(cè)準(zhǔn)確的3D對(duì)象盒子。wang等人對(duì)每個(gè)2D區(qū)域沿截錐體軸生成一系列截錐體,并應(yīng)用PointNet【5】對(duì)每個(gè)截錐體提取特征。對(duì)于截錐水平特征進(jìn)行改造,生成一個(gè)2D特征地圖,然后將其輸入到一個(gè)全卷積網(wǎng)絡(luò)中,用于3D盒子估計(jì),該方法在基于二維圖像的方法中取得了最先進(jìn)的性能,并且在官網(wǎng)KITTI排行榜上名列前茅。Joannes等人【145】首先在BEV map上得到了初步的檢測(cè)結(jié)果,然后根據(jù)預(yù)測(cè)的BEV提取小的點(diǎn)子集(也稱為patches)。采用局部細(xì)化網(wǎng)絡(luò)學(xué)習(xí)局部特征,預(yù)測(cè)高精度的三維包圍盒。

其他方法:基于軸向?qū)RIoU在圖像目標(biāo)檢測(cè)中的成功,Zhou等人將兩個(gè)3D旋轉(zhuǎn)包圍盒的IoU集成到幾個(gè)最先進(jìn)的檢測(cè)器【133】【137】【158】中,以實(shí)現(xiàn)持續(xù)的性能提升。chen等人【147】提出了一種使用點(diǎn)云和體素表示的兩階段網(wǎng)絡(luò)架構(gòu)。首先,將點(diǎn)云體素化并輸入至3D骨干網(wǎng)以產(chǎn)生初始檢測(cè)結(jié)果,第二,進(jìn)一步利用處是預(yù)測(cè)的內(nèi)部點(diǎn)特征進(jìn)行箱體細(xì)化。盡管這個(gè)設(shè)計(jì)在概念上非常簡(jiǎn)單,但是他達(dá)到了【133】的性能同時(shí)保持著16.7fps的速度。shi等人提出了PointVoxel-RCNN(PV-RCNN),利用3D卷積網(wǎng)絡(luò)和基于PointNet的幾何抽象來(lái)學(xué)習(xí)點(diǎn)云特征。具體來(lái)說(shuō),輸入點(diǎn)云首先被體素化,然后被送入3D稀疏卷積網(wǎng)絡(luò),以生成高質(zhì)量的建議。然后通過(guò)體素集抽象模塊將學(xué)習(xí)到的體素特征編碼到一小組關(guān)鍵點(diǎn)中。此外,他們還提出了一個(gè)關(guān)鍵點(diǎn)到網(wǎng)絡(luò)的POI抽象模塊,以捕獲豐富的上下文信息,用于框的細(xì)化。實(shí)驗(yàn)結(jié)果表明,該方法明顯優(yōu)于以往的方法,在KITTI 3D檢測(cè)基準(zhǔn)的Car類中排名第一。

受到基于Hough投票的2D對(duì)象檢測(cè)器的啟發(fā),Qi等人提出了從點(diǎn)云直接底對(duì)象的虛擬中心點(diǎn)投票,通過(guò)聚合投票特征生成一組高質(zhì)量的3D對(duì)象提議。VoteNet顯著優(yōu)于以前僅適用幾何信息的方法,并且在兩個(gè)大型室內(nèi)基準(zhǔn)(ScanNet【11】和SUN? RGB-D【25】)上的最先進(jìn)的性能。然后虛擬中心點(diǎn)的預(yù)測(cè)對(duì)于一個(gè)部分遮擋的物件來(lái)說(shuō)是不穩(wěn)定的。此外,Feng等人【149】增加了方向向量的輔助分支,提高了虛擬中心點(diǎn)和3D候選盒的預(yù)測(cè)精度。另外,通過(guò)將2D對(duì)象檢測(cè)線索(如幾何或語(yǔ)義/紋理線索)融到3D投票通道中,提出了一種ImVoteNet檢測(cè)器。Shi等人【151】觀察到三維物體的地面真相盒的啟可以提供物體內(nèi)部部件的精確位置,受此啟發(fā),他們提出了Part-A2 Net,這種網(wǎng)絡(luò)由不封按值截?cái)嗪筒糠志酆想A段組成。部分感知階段應(yīng)用具有稀疏卷積和稀疏反卷積的類似unet【165】的網(wǎng)絡(luò)來(lái)學(xué)習(xí)點(diǎn)向特征,用于預(yù)測(cè)和粗生成對(duì)象內(nèi)的部分位置。部分聚合節(jié)點(diǎn)采用支持ROI的池來(lái)聚合預(yù)測(cè)的部分位置以細(xì)化框。

單發(fā)射擊的方法:

這些方法利用單機(jī)網(wǎng)絡(luò)直接預(yù)測(cè)類概率并回歸物體的三維邊界盒。它們不需要區(qū)域鑒于生成和后處理。因此它們可以高速奔跑。根據(jù)輸數(shù)據(jù)的類型,單次射擊方法可以分為基于BEV的方法,基于離散化的方法和基于點(diǎn)的方法。

基于EBV的方法:這些方法主要以BEV表示未輸入。yang等人用等間距的單元對(duì)場(chǎng)景的點(diǎn)云進(jìn)行離散,并且以類似的方法對(duì)反射率進(jìn)行編碼,從而得到了規(guī)則的表示。然后使用全卷積神經(jīng)玩那個(gè)羅(FCN)來(lái)估計(jì)目標(biāo)的位置和航向角。在28.6幀每秒的情況下,該方法優(yōu)于大多數(shù)單詞射擊方法(包括VeloFCN【154】、3D-FCN【155】和Vote3Deep【156】)。之后,Yang等人【152】利用了高清地圖提供的幾何先驗(yàn)信息和語(yǔ)義先嚴(yán)信息,提高了【129】的魯棒性和檢測(cè)性能。具體來(lái)說(shuō)他們通過(guò)HD地圖上獲取地域點(diǎn)的坐標(biāo)沒(méi)然后用相對(duì)于地面的距離來(lái)表示BEV,以彌補(bǔ)道路坡度造成的評(píng)議方差。另外,他們將一個(gè)二進(jìn)制道路和BEV表示連接在通道維度上,已關(guān)注移動(dòng)的物體。由于并不是所有的地方都有高清地圖,他們還提出了一個(gè)在線地圖預(yù)測(cè)模塊來(lái)估計(jì)單個(gè)激光雷達(dá)點(diǎn)云的地圖先驗(yàn)。這種mapaware的方法明顯由于(TOR4D【129】【130】和KITTL【14】數(shù)據(jù)集上的)基線。但是其對(duì)不同密度點(diǎn)云的泛化能力較差。為了解決這一問(wèn)題,Beltran等人【153】提出了一種歸一化映射,考慮到不同激光雷達(dá)傳感器之間的差異。歸一化映射是一個(gè)2D網(wǎng)絡(luò),與BEV映射的分辨率相同,他編碼每個(gè)單元中包含的最大點(diǎn)數(shù)。結(jié)果表明,該歸一化映射顯著提高了基于BEV的檢測(cè)器的泛化能力。

基于離散化的方法:這些方法將點(diǎn)云轉(zhuǎn)換為規(guī)則的離散表示,然后應(yīng)用CNN預(yù)測(cè)物體的類別和三維盒子。

Li等人[154]提出了第一個(gè)使用FCN進(jìn)行三維目標(biāo)檢測(cè)的方法。他們將點(diǎn)云轉(zhuǎn)換為2D點(diǎn)圖,并使用2D FCN來(lái)預(yù)測(cè)物體的邊界框和置信度。隨后[155]將點(diǎn)云離散為長(zhǎng)、寬、高、通道等維度的4D張量,并將基于二維fcn的檢測(cè)技術(shù)擴(kuò)展到三維域進(jìn)行三維目標(biāo)檢測(cè)。與[154]相比,基于3D fcn的方法[155]獲得了超過(guò)20%的精度增益,但由于3D卷積和數(shù)據(jù)的稀疏性,不可避免地會(huì)消耗更多的計(jì)算資源。為了解決體素的稀疏性問(wèn)題,Engelcke等人[156]利用了一種以特征為中心的投票方案,為每個(gè)非空體素生成一組投票,并通過(guò)積累投票來(lái)獲得卷積結(jié)果。它的計(jì)算復(fù)雜度與被占用的體素?cái)?shù)量成正比。Li等[157]通過(guò)疊加多個(gè)稀疏的3D cnn構(gòu)建了一個(gè)3D骨干網(wǎng)。該方法充分利用體素的稀疏性,節(jié)省存儲(chǔ)空間,提高計(jì)算速度。該三維骨干網(wǎng)在不引入大量計(jì)算量的前提下,提取了豐富的三維特征用于目標(biāo)檢測(cè)。

?

5 點(diǎn)云分割

三維點(diǎn)云分割既需要了解全局幾何結(jié)構(gòu),也需要了解每個(gè)點(diǎn)的細(xì)粒度細(xì)節(jié)。通過(guò)對(duì)分割粒度的不同,三維點(diǎn)云分割方法可以分成三種類別:語(yǔ)義分割(場(chǎng)景級(jí))、實(shí)力分割(對(duì)象級(jí))以及部分分割(部分級(jí))

5.1 三維點(diǎn)云語(yǔ)義分割

對(duì)于一個(gè)給定的點(diǎn)云,語(yǔ)義分割的目標(biāo)是根據(jù)點(diǎn)的語(yǔ)義將其分割成若干子集。類比于3D形狀分類(第3節(jié)),語(yǔ)義分割有四種模式:基于投影的、基于離散的、基于點(diǎn)的和混合方法。

不管是基于投影的還是基于離散的方法,他們的第一步都是將點(diǎn)云轉(zhuǎn)化為一個(gè)中間正則表示,比如說(shuō)多視角【181】,【182】,球形【183】、【184】、【185】體積的【166】、【186】、【187】晶格體的【188】、【189】和混合表示【190】、【191】正如圖11所示。然后將中間分割結(jié)果投影回原始點(diǎn)云。相比之下,基于點(diǎn)的的方法可直接處理不規(guī)則的點(diǎn)云。幾種代表性的方法如圖10所示。

5.1.1? 基于投影的方法

這些方法通常將一個(gè)三維點(diǎn)云投影到二維圖像中,其中包括多視圖的和球形的圖像

多視圖的表達(dá)方法:Lawin等人【181】首先將3維點(diǎn)云投影到一個(gè)二維平面上通過(guò)多個(gè)攝像機(jī)虛擬視角,然后使用多流FCN預(yù)測(cè)合成圖像的像素級(jí)評(píng)分。通過(guò)融合不同仕途上的重投影得分,得到每個(gè)點(diǎn)的最終語(yǔ)義標(biāo)簽。相似的是,Boulch等人【182】首先使用多個(gè)相機(jī)視角來(lái)生成點(diǎn)云的多個(gè)RGB和深度快照,然后他們使用2D分割網(wǎng)絡(luò)對(duì)這些擴(kuò)招進(jìn)行像素級(jí)標(biāo)記,使用殘差校正進(jìn)一步融合RGB圖像和深度圖像預(yù)測(cè)的分?jǐn)?shù)【192】。Tatarchenko等人【193】基于點(diǎn)云的從局部歐幾里得曲面采樣的假設(shè),引入了切線卷積用于密集點(diǎn)云分割。方法首先將每個(gè)點(diǎn)周圍的局部表面幾何投影到一個(gè)虛擬切平面。然后將切卷積直接在曲面幾何上操作,該方法展現(xiàn)了強(qiáng)大的可擴(kuò)展性,能夠處理數(shù)百萬(wàn)個(gè)點(diǎn)的大規(guī)模點(diǎn)云。總的來(lái)說(shuō),多視圖分割方法的性能對(duì)視點(diǎn)選擇和遮擋敏感。此外,由于投影步驟不可避免地導(dǎo)致信息丟失,這些方法沒(méi)有充分利用底層的幾何和結(jié)構(gòu)信息。

球形表示:為了獲得更快和更精確的三維點(diǎn)云分割,WU等人【183】提出了一個(gè)基于SqueezeNet【194】和條件隨機(jī)場(chǎng)(CRF)的端到端的網(wǎng)絡(luò)。為了更進(jìn)一步的提升點(diǎn)云分割的準(zhǔn)確度,SqueezeSegV2【184】被引入來(lái)利用一個(gè)無(wú)監(jiān)督的域自適應(yīng)管道來(lái)處理域漂移。Milioto等人【185】提出了RangeNet++對(duì)激光雷達(dá)的點(diǎn)云進(jìn)行實(shí)時(shí)語(yǔ)義分割,首先將二維范圍圖像的語(yǔ)義標(biāo)簽轉(zhuǎn)移到三維點(diǎn)云中,然后利用基于GPU的高效KNN后處理步驟結(jié)局離散化誤差和模糊推理輸出問(wèn)題。?球面投影比單視角投影保留更多的信息,適合于激光雷達(dá)點(diǎn)云的標(biāo)記,然而中間級(jí)別的表達(dá)不可避免的帶來(lái)了離散化誤差和遮擋等問(wèn)題。

5.1.2 基于離散的方法

這些方法通常將點(diǎn)云轉(zhuǎn)化為一個(gè)稠密或稀疏離散表達(dá),比如說(shuō)體積和稀疏置換面格。

稠密離散表達(dá):早期的方法通常是將點(diǎn)云體素化為一個(gè)密集的網(wǎng)格,然后利用標(biāo)準(zhǔn)的3D卷積。Huang等人【195】首先將點(diǎn)云劃分為一組占用體素,然后將這些中間數(shù)據(jù)輸入到權(quán)3DCNN中進(jìn)行體素分割,最后體素內(nèi)的所有點(diǎn)都被賦予與體素相同的語(yǔ)義標(biāo)簽。該方法的性能受到體素粒度和點(diǎn)云分割產(chǎn)生的邊界偽影的嚴(yán)重限制。更進(jìn)一步,Tchapmi等人【196】提出了一種SEGCloud來(lái)實(shí)現(xiàn)細(xì)粒度和全局一致的語(yǔ)義分割。這種方法引入了確定性三線性插值,將3D-FCNN【197】生成的粗體素預(yù)測(cè)映射到點(diǎn)云,然后使用全連接CRF(FC-CRF)來(lái)加強(qiáng)這些推斷點(diǎn)標(biāo)簽的空間一致性。Meng等人【186】提出了一種基于核的插值變分自編碼器結(jié)構(gòu),對(duì)每個(gè)體素內(nèi)的局部幾何結(jié)構(gòu)進(jìn)行編碼。每個(gè)體素采用RBF代替二進(jìn)制占用表示,以獲得連續(xù)的表示,并捕獲每個(gè)體素中點(diǎn)的分布。VAE進(jìn)一步被用來(lái)映射每個(gè)體素內(nèi)的點(diǎn)分布到一個(gè)緊湊的潛在空間,然后利用對(duì)稱群和等價(jià)CNN實(shí)現(xiàn)魯棒性特征學(xué)習(xí)。

由于3D CNN具有良好的可擴(kuò)展性,基于體積的網(wǎng)絡(luò)可以自由的訓(xùn)練和測(cè)試。在完全卷積網(wǎng)絡(luò)中(FCPN)【187】,首先從點(diǎn)云中分層抽象出不同層次的幾何關(guān)系,然后使用3D卷積和加權(quán)平均池化來(lái)提取特征并合并長(zhǎng)期依賴關(guān)系 。該方法能處理大規(guī)模點(diǎn)云,在推理過(guò)程中具有良好的可擴(kuò)展性。Dai等人【198】提出了ScanComplete來(lái)實(shí)現(xiàn)三維掃描的完成和逐體素語(yǔ)義標(biāo)注。該方法利用了完全連接神經(jīng)網(wǎng)絡(luò)的可伸縮性,可以適應(yīng)訓(xùn)練和測(cè)試中不同的輸入數(shù)據(jù)大小。采用匆促道西的策略分層提高預(yù)測(cè)結(jié)果的分辨率。

總的來(lái)說(shuō),體積表示自然地保留了三維點(diǎn)云的鄰域結(jié)構(gòu)。他的常規(guī)數(shù)據(jù)格式也允許直接應(yīng)用標(biāo)準(zhǔn)的3D卷積。這些因素導(dǎo)致了該領(lǐng)域性能的穩(wěn)步提高,然而體素化步驟固有地引入了離散化偽影和信息的丟失。通常,高分辨率會(huì)導(dǎo)致高內(nèi)存和計(jì)算成本,而低分辨率會(huì)導(dǎo)致細(xì)節(jié)丟失。在實(shí)踐中,選擇合適的網(wǎng)格分辨率并不是一件簡(jiǎn)單的事情。

稀疏的離散化表示:體積的表示是自然分散的,因?yàn)榉橇阒档臄?shù)量只占很小的百分比。因此在空間稀疏的數(shù)據(jù)上應(yīng)用密集卷積神經(jīng)網(wǎng)絡(luò)是低效的,為此,Graham等人【166】提出了基于索引結(jié)構(gòu)的子流形稀疏卷積網(wǎng)絡(luò)。這個(gè)方法通過(guò)限制只與被占用的體素相關(guān)卷積的輸出,顯著降低了內(nèi)存和計(jì)算成本。同時(shí)它的離散卷積也可以控制提取特征的稀疏性。這種子流形稀疏卷積適用于高維空間稀疏數(shù)據(jù)的高效處理。此外Choy等人【199】提出了一種4D時(shí)空卷積神經(jīng)網(wǎng)絡(luò)用于3D視頻感知,提出了一種有效處理高維數(shù)據(jù)的廣義稀疏卷積算法,進(jìn)一步應(yīng)用三平穩(wěn)條件隨機(jī)場(chǎng)加強(qiáng)一致性。

另一方面,SU等人【188】提出了基于雙邊卷積層的Sparse Lattice Networs(SPLATNets)的稀疏網(wǎng)格網(wǎng)絡(luò)(spartgrid Networks,? SPLATNet)。該方法首先將一個(gè)原始點(diǎn)云插值到一個(gè)滿面體稀疏晶格上,然后應(yīng)用BCL對(duì)稀疏晶格上被占用的部分進(jìn)行卷積,然后將過(guò)濾后的輸出被插值回原始點(diǎn)云。此外該方法還實(shí)現(xiàn)多視角圖像與點(diǎn)云的靈活聯(lián)合處理。此外 Rosu等人【189】提出類LatticeNet來(lái)實(shí)現(xiàn)對(duì)大型點(diǎn)云的高效處理。此外還引入一個(gè)名為DeformsSlice的數(shù)據(jù)依賴插值模塊來(lái)將柵格特征向后投影到點(diǎn)云上。

5.1.3混合方法

為了進(jìn)一步利用所有可用的信息,已經(jīng)提出了幾種從3D掃描中學(xué)習(xí)多模態(tài)特征的方法。Dai 和NiePner等人【190】提出了一種結(jié)合RGB特征和幾何特征的聯(lián)合3D-多視圖網(wǎng)絡(luò)。利用了一個(gè)三維CNN流和多個(gè)二維CNN流提取特征,并提出了一種可微背投影層將學(xué)習(xí)到的二維嵌入和三維幾何特征聯(lián)合融合。更進(jìn)一步,Chiang等人【200】提出了一種統(tǒng)一的基于點(diǎn)的框架,從點(diǎn)云中學(xué)習(xí)2D紋理外觀、3D結(jié)構(gòu)和全局上下文特征。該方法直接利用基于點(diǎn)的網(wǎng)絡(luò)來(lái)提取局部幾何特征和全局上下文,無(wú)需進(jìn)行體素化處理。Jaritz等人【191】提出了一種多視圖的PointNet(MVPNet),在標(biāo)準(zhǔn)點(diǎn)云空間中從二維多視圖圖像和空間幾何特征中聚合外觀特征。

5.1.4 基于點(diǎn)的方法

基于點(diǎn)的網(wǎng)絡(luò)直接工作在不規(guī)則的點(diǎn)云上,然而點(diǎn)云是無(wú)序和無(wú)結(jié)構(gòu)的,直接應(yīng)用標(biāo)準(zhǔn)的CNN是不可行的,為此,開(kāi)創(chuàng)性的PointNet被提出使用共享MLP學(xué)習(xí)點(diǎn)云特征和使用對(duì)稱池函數(shù)學(xué)習(xí)全局特征。在PointNET的基礎(chǔ)上,最近提出了一系列基于點(diǎn)的網(wǎng)絡(luò)。總的來(lái)說(shuō),這些方法可以分為逐點(diǎn)的MLP方法和點(diǎn)卷積方法和基于RNN的方法和基于圖的方法。

點(diǎn)態(tài)MLP的方法:這些方法由于效率高,通常以共享MLP作為網(wǎng)絡(luò)的基本單元。然后,共享的MLP提取的點(diǎn)向特征不能捕捉點(diǎn)云的局部幾何形態(tài)以及【5】點(diǎn)之間的相互所作用。為了為每個(gè)點(diǎn)獲取更廣泛的背景信息并學(xué)習(xí)更豐富的局部結(jié)構(gòu),已經(jīng)引入了幾種專用網(wǎng)絡(luò),包括基于鄰域特征池的方法,基于注意力的聚合方法以及局部—全局特征級(jí)聯(lián)方法。

鄰近特征池:為了捕獲局部幾何模式,這些方法通過(guò)聚合臨近點(diǎn)的信息來(lái)學(xué)習(xí)每個(gè)點(diǎn)的特征,以獲取局部的幾何圖案。特別是PointNet++【54】的組點(diǎn)是分層次的,從更大的局部區(qū)域逐步學(xué)習(xí),如圖12所示,真對(duì)點(diǎn)云的不均勻性和密度變化帶來(lái)的問(wèn)題,提出了多尺度分組和多分辨率分組。后來(lái)Jiang等人【141】提出了一個(gè)PointSIFT模塊來(lái)實(shí)現(xiàn)方向編碼和規(guī)模感知。這些模塊通過(guò)三個(gè)階段的有序卷積,對(duì)來(lái)自八個(gè)空間方向的信息進(jìn)行堆棧和編碼。將多尺度特征串聯(lián)起來(lái),實(shí)現(xiàn)對(duì)不同角度的自適應(yīng)。與PointNet++中使用的分組技術(shù)(即球查詢)不同,Engelmann等人【204】利用K-means聚類和KNN分別定義了世界空間和特征空間的兩個(gè)鄰域、基于統(tǒng)一類點(diǎn)在特征空間中距離更近的假設(shè),引入成對(duì)距離損失和質(zhì)心損失來(lái)進(jìn)一步正則化特征學(xué)習(xí)。為了對(duì)不同點(diǎn)之間的相互關(guān)系進(jìn)行建模,Zhao等人【57】提出了PointWeb,用過(guò)對(duì)密集結(jié)構(gòu)構(gòu)建局部全連接的WEB來(lái)探索局部區(qū)域內(nèi)所有點(diǎn)對(duì)之間的關(guān)系。提出了一種自適應(yīng)特征調(diào)整(AFA)模塊來(lái)實(shí)現(xiàn)信息交換和特征細(xì)化。這種聚合操作有助于網(wǎng)絡(luò)學(xué)習(xí)有區(qū)別的特征表示。Zhang等人【205】基于來(lái)自同心球殼的統(tǒng)計(jì),提出了一種排列不變卷積,稱為Shellconv。該方法首先查詢一組多尺度的同心球,然后使用最大池化操作來(lái)總結(jié)統(tǒng)計(jì)數(shù)據(jù),然后使用MLPS和一維卷積來(lái)得到最終的卷積輸出。HU等人【206】提出了一種高效的、輕量級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)叫做RANDLA-net用來(lái)大規(guī)模點(diǎn)云分割。該網(wǎng)絡(luò)利用隨機(jī)采樣點(diǎn)在內(nèi)存和計(jì)算方面實(shí)現(xiàn)了顯著的高效率,進(jìn)一步的提出了局部特征聚合模塊來(lái)捕獲和保存幾何特征。

基于注意的聚集:為了進(jìn)一步提高分割精度,一個(gè)注意力機(jī)制【120】被用來(lái)做點(diǎn)云分割。yang等人【56】提出了一種分組拖拽機(jī)制來(lái)對(duì)點(diǎn)之間的關(guān)系進(jìn)行建模,并提出了一種排列不變。任務(wù)不可知和可維的Gumbel Subset Sampling(GSS)來(lái)替代管飯使用的FPS方法。本模塊對(duì)異常值不太敏感并且可以選擇一個(gè)具有代表性的點(diǎn)子集。為了更好捕獲點(diǎn)云的局部空間感知,CHEN等人【207】提出了一種局部空間感知(Local Spatial Aware.LSA)層,基于點(diǎn)云的空間布局和局部結(jié)構(gòu)來(lái)學(xué)習(xí)空間感知權(quán)值。和CRF相似,Zhao等人【208】提出了一種基于注意力的評(píng)分細(xì)化(Attentin-based Score Refinement, ASR)模塊對(duì)網(wǎng)絡(luò)產(chǎn)生分割結(jié)果進(jìn)行后處理。通過(guò)將相鄰點(diǎn)的分?jǐn)?shù)和學(xué)習(xí)到的權(quán)值合并來(lái)初始化分割結(jié)果。該模塊可以很容易的集成現(xiàn)有的深度網(wǎng)絡(luò)中以提高分割性能。

局部-全局連接:zhao等人【112】提出了一種置換不變性的PS2-Net來(lái)整合點(diǎn)云的上下文結(jié)構(gòu)和全局上下文。Edgeconv【87】和NetVLAD【209】被反復(fù)堆疊以捕獲局部信息和場(chǎng)景級(jí)全局特征。

點(diǎn)卷積的方法:這些方法傾向于提出有效的卷積操作。Hua等人【76】提出了一種逐點(diǎn)卷積算子,將相鄰的點(diǎn)放入核細(xì)胞中,然后與核權(quán)值進(jìn)行卷積。正如圖12所示,Wang等人【201】提出了一種基于參數(shù)連續(xù)卷積層的網(wǎng)絡(luò)結(jié)構(gòu)PCCN。本層的核函數(shù)由MLP參數(shù)化并跨越連續(xù)的向量空間。Thomas等人【65】提出了一種基于核點(diǎn)卷積(KPConv)的核點(diǎn)全卷積網(wǎng)絡(luò)(KP-FCNN)。具體來(lái)說(shuō),KPConv的卷積權(quán)重由核點(diǎn)之間的歐氏距離來(lái)確定,核點(diǎn)的數(shù)量是不固定的。核點(diǎn)的位置被表述為球面空間最優(yōu)覆蓋的優(yōu)化問(wèn)題。需要注意的是,在不同的點(diǎn)云密度下,使用半徑鄰域保持一致的接受場(chǎng),在每一層上使用網(wǎng)格子采樣,已獲得較高的魯棒性。Engelmann等人【211】提出了豐富的消融實(shí)驗(yàn)和可視化結(jié)果,展示了接收?qǐng)鰧?duì)基于聚合的方法性能的影響。他們還提出了擴(kuò)展點(diǎn)卷積(DPC)操作來(lái)聚合擴(kuò)展的鄰域特征,而不是K個(gè)最近的鄰域特征。該操作被證明在增加接受域方面非常有效,并且可以很容易的集成到現(xiàn)有的基于聚合的網(wǎng)絡(luò)中。

基于RNN的方法:為了獲取點(diǎn)云的上下文特征,Recurrent Neural NetWork(RNN)被用來(lái)做電魚的語(yǔ)義分割。基于PointNet,EngelMann等人【213】首先將一個(gè)點(diǎn)塊轉(zhuǎn)換成多個(gè)尺度塊和網(wǎng)格塊,從而獲得輸入級(jí)上下文。然后將PointNet提取的分塊特征依次輸入到整合單元(Consolidation Units,CU)或循環(huán)整合單元(Recurrent Conslidation Units,RCU)中,獲取輸出層的上下文。實(shí)驗(yàn)結(jié)果表明,融合空間上下文對(duì)于分割性能的提升是非常重要的。Huang等人【212】提出了一種輕量級(jí)的局部依賴建模模塊,利用切片池化層將無(wú)序的點(diǎn)特征幾何轉(zhuǎn)化為有序的特征向量序列。如圖12所示,Ye等人【202】首先提出了點(diǎn)態(tài)金字塔池化(3P)模塊來(lái)捕獲從粗到細(xì)的局部結(jié)構(gòu),然后利用雙層層次RNN來(lái)進(jìn)一步獲取長(zhǎng)期空間依賴性。然后應(yīng)用RNN實(shí)現(xiàn)端到端的學(xué)習(xí),然而這些方法在將局部鄰域特征和全局結(jié)構(gòu)特征聚合時(shí),丟失了點(diǎn)云豐富的幾何特征和密度分布【220】。為了緩解剛性和靜態(tài)池化操作帶來(lái)的問(wèn)題,zhao等人【220】提出了一種動(dòng)態(tài)聚合網(wǎng)絡(luò)(DARNet)來(lái)考慮整體場(chǎng)景復(fù)雜度和局部幾何特征,中介特征使用自適應(yīng)的接受域和節(jié)點(diǎn)權(quán)值動(dòng)態(tài)聚合。LIU等人【221】提出了用于大規(guī)模的點(diǎn)云高效語(yǔ)義解析的3DCNN-QDN-RNN。該網(wǎng)絡(luò)首先使用3Dcnn網(wǎng)絡(luò)學(xué)習(xí)空間分布和顏色特征,然后使用DQN對(duì)屬于特定類別的對(duì)象進(jìn)行定位,最后將鏈接的特征向量輸入殘差RNN,得到最終的分割結(jié)果。

基于圖的方法:為了捕獲三維點(diǎn)云的基本形狀和幾何結(jié)構(gòu),有幾種方法有助于圖形工作。正如圖12所示,Landrieu等人【203】將點(diǎn)云表示為一組相互連接的簡(jiǎn)單形狀和上點(diǎn),并使用一個(gè)屬性有向圖(即上點(diǎn)圖)捕獲結(jié)構(gòu)和上下文信息。然后大規(guī)模點(diǎn)云分割問(wèn)題被分解成三個(gè)子問(wèn)題,幾何均勻分割、上點(diǎn)嵌入和上下文分割三個(gè)子問(wèn)題。為了進(jìn)一步改進(jìn)分割步驟,Landrieu和Boussaha【214】等人提出了一種監(jiān)督框架將電暈過(guò)度分割為純超點(diǎn)。這個(gè)問(wèn)題被表述為一個(gè)由鄰接圖構(gòu)成的深度度量學(xué)習(xí)問(wèn)題。此外一個(gè)圖結(jié)構(gòu)的對(duì)比損失來(lái)幫助識(shí)別對(duì)象之間的邊界。

為了更好的捕獲在高位空間的局部幾何關(guān)系,Kang等人【222】基于圖嵌入模塊(GEM)的金字塔網(wǎng)絡(luò)(PyramNet)和金字塔注意網(wǎng)絡(luò)(PAN)。GEM模塊將點(diǎn)云表示成有向無(wú)環(huán)圖,并利用協(xié)方差矩陣代替歐氏距離構(gòu)造相鄰相似矩陣。PAN模塊使用四種不同大小的卷積核來(lái)提出不同于以強(qiáng)度的特征。在[215】中提出了圖注意力卷積(graph Attention Convolution, GAC),從局部鄰域集中選擇性的學(xué)習(xí)相關(guān)特征。該操作是根據(jù)不同的相鄰點(diǎn)和特征通道的空間位置個(gè)特征差異動(dòng)態(tài)分配注意權(quán)值來(lái)實(shí)現(xiàn)的。GAC可以學(xué)習(xí)去捕獲版別特征進(jìn)行分割,與常用的CRF模型具有相似的特征。MA【223】等人提出了一個(gè)點(diǎn)全局上下文推理(Point Global Context Reasoning,PointGCR)模塊沿著通道維數(shù)捕獲全局上下文信息使用無(wú)向圖表達(dá)。PointGCRs是一種即插即用,端到端的可訓(xùn)練的模塊。它可以很容易的集成到現(xiàn)有的分段網(wǎng)絡(luò)中,以實(shí)現(xiàn)性能的提高。

另外最近的一些工作試圖在弱監(jiān)督學(xué)習(xí)下實(shí)現(xiàn)點(diǎn)云的語(yǔ)義分割。WEI等人提出了一種雙階段的方法來(lái)訓(xùn)練帶有子云級(jí)標(biāo)簽的分割網(wǎng)絡(luò),Xu等人【225】研究了幾種用于點(diǎn)云語(yǔ)義分割的不精確監(jiān)督方案。他們還提出了一種只需要部分標(biāo)記點(diǎn)(例如10%)就可以訓(xùn)練的網(wǎng)絡(luò)。

5.2實(shí)例分割

與語(yǔ)義分割相比,實(shí)例分割要求更準(zhǔn)確和細(xì)粒度的點(diǎn)推理。特別的是,不僅要區(qū)分語(yǔ)義相同的點(diǎn),也要區(qū)分語(yǔ)義相同的實(shí)例。總體來(lái)說(shuō),目前存在的方法可以分成兩個(gè)類:基于協(xié)議的方法和無(wú)建議的方法。具體如圖13所示:

5.2.1 基于協(xié)議的方法

這些方法將實(shí)例分割問(wèn)題轉(zhuǎn)化為兩個(gè)子任務(wù):3D目標(biāo)識(shí)別和實(shí)例掩碼預(yù)測(cè)。

Hou等人【226】提出了一種3D全卷積語(yǔ)義實(shí)例分割(3D-SIS)網(wǎng)絡(luò),在RGB-D掃描儀上實(shí)現(xiàn)語(yǔ)義實(shí)例分割。這個(gè)網(wǎng)絡(luò)從顏色和幾何特征中學(xué)習(xí)。與3D目標(biāo)識(shí)別類似,一個(gè)三維區(qū)域建議網(wǎng)絡(luò)(3D-RPN)和一個(gè)三維興趣區(qū)域(3D-RoI)層被用于預(yù)測(cè)邊界盒子位置,目標(biāo)類別標(biāo)簽和實(shí)例掩碼。根據(jù)綜合分析策略,YI等人【227】提出了生成形狀建議網(wǎng)絡(luò)(Generative Shape Proposal NetWork, GSPN)來(lái)生成高目標(biāo)性3D建議,這些建議通過(guò)基于區(qū)域的電網(wǎng)(R-PointNET)進(jìn)一步細(xì)化,最終目標(biāo)是通過(guò)預(yù)測(cè)每個(gè)類標(biāo)點(diǎn)的逐點(diǎn)二進(jìn)制掩碼獲得的。與從點(diǎn)云中直接回歸三維點(diǎn)邊界框不同,該方法通過(guò)加強(qiáng)幾何理解,消除了大量無(wú)意義的建議。

Narita等人通過(guò)擴(kuò)充2D全景分割擴(kuò)展到三維映射,提出了一種在線體三維映射系統(tǒng),可以聯(lián)合實(shí)現(xiàn)大規(guī)模三維重建、語(yǔ)義標(biāo)注和實(shí)例分割。他們首先利用2D語(yǔ)義和實(shí)例分割網(wǎng)絡(luò)獲得像素級(jí)全景標(biāo)簽,然后將這些照片集成到體積地圖中去。在此基礎(chǔ)上,利用全鏈接的CRF實(shí)現(xiàn)精確分割。該語(yǔ)義映射系統(tǒng)可以獲取高質(zhì)量的語(yǔ)義映射和對(duì)象識(shí)別。Yang等人【229】提出了一種單階段、無(wú)錨階段、端到端可訓(xùn)練網(wǎng)絡(luò)3D-BoNet來(lái)實(shí)現(xiàn)點(diǎn)云上的實(shí)例分割,該方法直接回歸所有潛在實(shí)例的粗糙三維邊界框,然后利用點(diǎn)級(jí)二進(jìn)制分類器獲取實(shí)例標(biāo)簽。特別的,將邊界框生成任務(wù)表述為一個(gè)最優(yōu)分配問(wèn)題,此外提出了一個(gè)多準(zhǔn)則損失函數(shù)來(lái)規(guī)范生成的邊界框。該方法不需要任何后處理,計(jì)算效率高。Zhang等人【230】提出了一種針對(duì)大規(guī)模室外激光雷達(dá)點(diǎn)云的實(shí)例分割網(wǎng)絡(luò)。該方法利用自注意塊學(xué)習(xí)點(diǎn)云鳥瞰圖上的特征表示,最后的實(shí)例標(biāo)簽是根據(jù)預(yù)測(cè)水平中心和高度限制獲得的。shi等人【231】提出了一種層次感知的變分去噪遞歸自動(dòng)編碼器(VDRAE)來(lái)預(yù)測(cè)室內(nèi)空間的布局,對(duì)象建議通過(guò)遞歸上下文聚合和傳播迭代地生成和細(xì)化。

總的來(lái)說(shuō),基于建議的方法【226】,【227】【229】【232】是直觀的,實(shí)例分割結(jié)果通常有好的客觀性,然而這些方法要求多階段的訓(xùn)練和裁剪冗余提案。因此他們通常是耗時(shí)和計(jì)算昂貴的。

5.2.2 無(wú)協(xié)議的方法

無(wú)協(xié)議的方法【233】【~】【240】都沒(méi)有目標(biāo)識(shí)別模塊,相反他們通常認(rèn)為實(shí)例分割是予以分割之后的后續(xù)聚類步驟。特別的是,大多數(shù)存在的方法都是基于屬于同一實(shí)例的點(diǎn)應(yīng)該具有非常相似的特征的假設(shè)。因此這些方法主要集中于判斷特征學(xué)習(xí)和點(diǎn)分組。

在先前的工作中,Wang等人【233】首先介紹了一種相似群組協(xié)議網(wǎng)絡(luò)(Similarity Group Proposal NetWork, SGPN).這種方法首先學(xué)習(xí)每個(gè)點(diǎn)的特征和語(yǔ)義圖,然后引入相似度矩陣來(lái)表示每個(gè)成對(duì)特征之間的相似度。為了學(xué)習(xí)更多的識(shí)別特征,他們使用了一種雙鉸鏈損失來(lái)相互調(diào)整相似矩陣和語(yǔ)義分割結(jié)果。最后,采用啟發(fā)式非極大抑制方法將相似點(diǎn)合并到實(shí)例當(dāng)中。由于構(gòu)建相似矩陣需要大量的內(nèi)存消耗,該方法的可伸縮性是有限的。類似的LIU等人【237】首先利用子流形稀疏卷積【166】來(lái)預(yù)測(cè)每個(gè)體素的語(yǔ)義得分和每個(gè)緊鄰體素之間的親和力。然后他們引入了一種聚類算法,根據(jù)預(yù)測(cè)的親和性和網(wǎng)絡(luò)拓?fù)鋵Ⅻc(diǎn)分組到實(shí)例中。MO等人【241】在PartNet中引入了一種檢測(cè)分割網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)實(shí)例分割。使用PointNet++來(lái)預(yù)測(cè)每個(gè)點(diǎn)的語(yǔ)義標(biāo)簽和不相連的實(shí)例掩碼的主干。此外,Liang等人【238】提出了一種結(jié)構(gòu)感知的損失用哦過(guò)來(lái)區(qū)分性嵌入得學(xué)習(xí)。這種損失既考慮了特征的相似性,又考慮了點(diǎn)之前的幾何關(guān)系。進(jìn)一步使用注意力機(jī)制的圖CNN,通過(guò)聚合來(lái)自鄰居的不同信息,自適應(yīng)的細(xì)化學(xué)習(xí)特征。

因?yàn)辄c(diǎn)的語(yǔ)義類別和實(shí)例標(biāo)簽通常是相互依賴的,因此提出幾種將兩個(gè)任務(wù)耦合成單個(gè)任務(wù)的方法。Wang等人【234】通過(guò)引入端到端和可學(xué)習(xí)的關(guān)聯(lián)分割實(shí)例和語(yǔ)義(ASIS)模塊集成了這兩個(gè)任務(wù)。實(shí)驗(yàn)表明。通過(guò)ASIS模塊,語(yǔ)義特征和實(shí)例特征可以相互支持,從而提高性能。類似的,Zhao等人【242】提出了JSNet來(lái)實(shí)現(xiàn)語(yǔ)義和實(shí)例分割。此外,Pham等人【235】首先引出了多任務(wù)點(diǎn)智能網(wǎng)絡(luò)(multitask Point-Wise NetWork, MT-PNet)為每個(gè)點(diǎn)分配一個(gè)標(biāo)簽,并通過(guò)引入?yún)^(qū)分性損失來(lái)正則化特征空間中的嵌入【243】。然后他們將預(yù)測(cè)的語(yǔ)義標(biāo)簽和嵌入到一個(gè)多值條件隨機(jī)場(chǎng)(MV-CRF)模型中進(jìn)行聯(lián)合優(yōu)化,最后,采用均值域變分推理方法生成語(yǔ)義標(biāo)簽和實(shí)例標(biāo)簽。Hu等人【244】首先提出了一個(gè)動(dòng)態(tài)區(qū)域增長(zhǎng)(Dynamic Region Growing ,DRG)方法,將點(diǎn)云動(dòng)態(tài)分離為一組不連通的版塊,然后使用無(wú)監(jiān)督的K-means++算法對(duì)所有這些板塊進(jìn)行分組。然后在小塊間上下文信息的指導(dǎo)下進(jìn)行多尺度小塊分割。最后,將這些標(biāo)記的補(bǔ)丁合并到對(duì)象級(jí),得到最終的語(yǔ)義標(biāo)簽和實(shí)例標(biāo)簽。

Elich等人【236】為了全3D場(chǎng)景中進(jìn)行實(shí)例分割,提出了一種混合2D-3D的網(wǎng)絡(luò),從BEV表示和點(diǎn)云局部幾何特征中聯(lián)合學(xué)習(xí)全局一致 的實(shí)例特征。然后結(jié)合學(xué)習(xí)到的特征進(jìn)行實(shí)例或者語(yǔ)義分割。值得注意的是,與啟發(fā)式的GroupMerging算法【233】相比,使用了更靈活的MeanShift【245】算法將這些點(diǎn)分組到實(shí)例中,另外多任務(wù)學(xué)習(xí)也被引入到實(shí)例分割中。Lahoud等人【246】學(xué)習(xí)了每個(gè)實(shí)例的獨(dú)特特征嵌入和估計(jì)目標(biāo)中心的方向信息。提出了特征嵌入損耗和方向損耗潛在特征空間中學(xué)習(xí)到的特征嵌入。采用均值漂移聚類和非最大抑制事務(wù)處理對(duì)體素進(jìn)行實(shí)例分組。這些方法在ScanNet【11】基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能,此外,預(yù)測(cè)的方向信息對(duì)于確定實(shí)例的邊界特別有用,Zhang等人【247】將概率嵌入引用到點(diǎn)云實(shí)例分隔中。該方法還加入了不確定性評(píng)估,并提出了一種新的損失函數(shù)用于聚類步驟,Jiang等人【240】提出了PointGroup網(wǎng)絡(luò),該網(wǎng)絡(luò)由一個(gè)語(yǔ)義分隔分支和一個(gè)偏移預(yù)測(cè)分支組成。進(jìn)一步利用雙焦聚類算法和ScoreNet實(shí)現(xiàn)更好的分組結(jié)果。

總的來(lái)說(shuō),無(wú)協(xié)議的方法不需要計(jì)算開(kāi)銷很大的區(qū)域提案組件。然而由這些方法分組的實(shí)例段的對(duì)象性通常很低,因?yàn)檫@些方法不顯式的檢測(cè)對(duì)象邊界。

5.3 部分分割

3D形狀圖像部分分割的困難主要有兩個(gè)方面:首先具有相同語(yǔ)義標(biāo)簽的形狀部分有著很大的幾何變異性和歧義性。第二具有相同語(yǔ)義的物體部件數(shù)量可能不同。

VoxSegNet【248】在有限的解決方案下實(shí)現(xiàn)了三維體素化的數(shù)據(jù)的細(xì)粒度部分的分割,提出了一種空間密度提取(Spatial density Extraction, SDE)模塊。該模塊由堆疊的深黑色殘差塊組成,用于從稀疏提數(shù)據(jù)中提取多尺度鑒別特征。通過(guò)逐步應(yīng)用主意特征聚合(AFA)模塊,對(duì)學(xué)習(xí)到的特征進(jìn)行在加權(quán)和融合。Kalohetakis等人【249】將FCNs和基于表面的CRFs結(jié)合起來(lái)實(shí)現(xiàn)端到端的三維臨建分割,他們首先從多個(gè)視圖生成圖像以實(shí)現(xiàn)最佳的表面覆蓋,然后將這些圖像輸入2D網(wǎng)絡(luò)中以生成置信圖。然后這些置信圖被一個(gè)基于表面的CRF聚合,該CEF負(fù)責(zé)對(duì)整個(gè)場(chǎng)景進(jìn)行一致的標(biāo)記。YI等人【250】引出了一種同步譜CNN(SyncSpecCNN)來(lái)對(duì)不規(guī)則和非同構(gòu)型狀圖進(jìn)行卷積。為解決零件的多尺度分析和形狀間的信息共享問(wèn)題,提出了一種擴(kuò)展卷積核的譜參數(shù)化和譜變壓器網(wǎng)絡(luò)。

wang等人【251】首先用過(guò)引入全形狀卷積網(wǎng)絡(luò)(shape Fully Convolutional Networks, SFCN)對(duì)三維網(wǎng)格進(jìn)行形狀分割,并以三種低級(jí)幾何特征作為輸入。然后利用基于投票的多標(biāo)簽圖切割來(lái)進(jìn)一步細(xì)化分割結(jié)果,Zhu等人【252】提出了一種弱監(jiān)督CoSegNet用于三維形狀協(xié)同分割。該網(wǎng)絡(luò)以未分割的三維點(diǎn)云形狀集合為輸入,通過(guò)迭代最小化組一致性損失來(lái)產(chǎn)生形狀零件標(biāo)簽,與CRF相似,我們提出了一種預(yù)處理的局部細(xì)化網(wǎng)絡(luò)來(lái)進(jìn)一步細(xì)化和去噪,Chen等人【253】提出了一種分支自動(dòng)編碼網(wǎng)絡(luò)(BAE-NET)用于無(wú)監(jiān)督、單鏡頭和弱監(jiān)督的三維形狀協(xié)同分割。該方法將形狀共同分割任務(wù)作為一個(gè)表示學(xué)習(xí)問(wèn)題,旨在通過(guò)最小化形狀重建損失來(lái)尋找最簡(jiǎn)單的部件表。基于編碼-譯碼結(jié)構(gòu),該網(wǎng)絡(luò)的每個(gè)分支都可以學(xué)習(xí)特定零件形狀的緊湊表示。然后將從每個(gè)分支學(xué)到的特征和點(diǎn)坐標(biāo)反饋給解碼器產(chǎn)生一個(gè)二進(jìn)制值(表示該點(diǎn)是否屬于該部分)。該方法具有良好的泛化能力,可以處理大量的三維形狀幾何(多達(dá)5000多個(gè)形狀)。但是該方法對(duì)初始參數(shù)敏感,沒(méi)有將形狀語(yǔ)義納入到網(wǎng)絡(luò)中,阻礙了每次迭代都能獲得魯棒穩(wěn)定的估計(jì)。YU等人【254】提出了一種自上而下的遞歸部件分解網(wǎng)絡(luò)(PartNet)用于分層形狀分割。與現(xiàn)有的將形狀分割為固定標(biāo)簽集的方法不同,該網(wǎng)絡(luò)將零件分割定義為級(jí)聯(lián)二值標(biāo)記問(wèn)題,并根據(jù)幾何結(jié)構(gòu)將輸入點(diǎn)云分割為任意數(shù)量的零件,LUO等人【255】引入了一種基于學(xué)習(xí)的分組框架用于零鏡頭3D部分分割任務(wù)。為了提高跨類泛化能力,該方法傾向于學(xué)習(xí)一個(gè)限制網(wǎng)絡(luò)在局部上下文中學(xué)習(xí)部分級(jí)特征的分組策略。

5.4總結(jié)

表5顯示了現(xiàn)有方法在公共基準(zhǔn)測(cè)試中獲得的結(jié)果,包括S3DIS[10]、Semantic3D[12]、ScanNet[39]和SemanticKITTI[15]。以下問(wèn)題需要進(jìn)一步研究。

·由于常規(guī)的數(shù)據(jù)表示,基于投影的方法和基于離散化的方法都可以利用其2D圖像對(duì)應(yīng)的成熟網(wǎng)絡(luò)架構(gòu)。然后基于投影方法的主要限制依賴于3D-2D投影帶來(lái)的信息損失,而基于離散化方法的主要瓶頸是由于分辨率的提高該來(lái)的計(jì)算和存儲(chǔ)成本的三次增加。為此在索引結(jié)構(gòu)上建立稀疏卷積是一種可行的軍方案,值得進(jìn)一步探索。

·基于點(diǎn)的網(wǎng)絡(luò)是最常使用的研究方法,然而點(diǎn)表示自然沒(méi)有明確的鄰域信息,大多數(shù)現(xiàn)有的基于點(diǎn)的犯法求助于昂貴的鄰域搜索機(jī)制(例如,KNN[79] 或者球查詢【54】),這本質(zhì)上限制了這些方法的效率,最近提出了點(diǎn)-體素聯(lián)合表示【256】將是進(jìn)一步研究的有趣的方向。

·從不平衡數(shù)據(jù)中仍然是點(diǎn)云分割中一個(gè)具有挑戰(zhàn)性的問(wèn)題。雖然幾種方法【65】【203】【2045】在總體上取得了顯著的成績(jī)。但他們?cè)谏贁?shù)類別中的表現(xiàn)仍然有限。不如說(shuō),RandLA-Net【206】在Senabtic3D的reduced-8子集上實(shí)現(xiàn)了76%的總體IoU,但是在硬景觀類上實(shí)現(xiàn)了41.1%的非常低的IoU。

·現(xiàn)有的大多數(shù)方法【5】【54】【79】【205】【207】都用于小點(diǎn)上。在實(shí)際應(yīng)用中,深度傳感器獲取的點(diǎn)云通常是巨大的,大規(guī)模的。因此,進(jìn)一步研究大尺度點(diǎn)云的有效分割問(wèn)題是非常有必要的。

·一些著作【178】【179】【199】已經(jīng)開(kāi)始從動(dòng)態(tài)點(diǎn)云中學(xué)習(xí)時(shí)空信息。我們希望這些時(shí)空信息能夠幫助提高三維物體識(shí)別,分割和完成后續(xù)任務(wù)的性能。

6 結(jié)論

本篇文章詳細(xì)的介紹了三維形狀分類、三維目標(biāo)檢測(cè)和跟蹤,三維場(chǎng)景和目標(biāo)分割。對(duì)于這些方法進(jìn)行了綜合分類和性能比較。介紹了各種方法的優(yōu)缺點(diǎn),并提出了可能的研究方向。

總結(jié)

以上是生活随笔為你收集整理的点云综述学习笔记(一)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。