日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

三维点云语义分割基础知识

發(fā)布時間:2023/12/20 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 三维点云语义分割基础知识 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

三維點云語義分割基礎(chǔ)知識

  • 1. 簡介
    • 1.1 點云分割介紹
    • 1.2 三維數(shù)據(jù)表達(dá)方式
    • 1.3 點云的特點及優(yōu)勢
  • 2 研究現(xiàn)狀
    • 2.1 基于人工特征和機(jī)器學(xué)習(xí)的方法
    • 2.2 基于深度學(xué)習(xí)的方法

1. 簡介

1.1 點云分割介紹

點云分割,即對點云中的每個點賦予有意義的標(biāo)注,標(biāo)注代表可以是任何具有特定意義的信息。在實際應(yīng)用中,通常是一組代表幾種特定類別標(biāo)簽的一個。如果標(biāo)簽具有特定含義,如是一個場景的物體類別,那么這個過程就是一個場景的分割或稱語義理解。機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步也使得三維數(shù)據(jù)理解受益匪淺,尤其是對密集點云這樣的大量數(shù)據(jù)。

一些基于人工提取特征的經(jīng)典機(jī)器學(xué)習(xí)方法,如支持向量機(jī)(SVM)和隨機(jī)森林(RF), 也在一系列三維模型檢測與分割任務(wù)中取得了較為成功的結(jié)果[1-2]。近年來,從機(jī)器人導(dǎo)航到國家級遙感技術(shù),對算法實時性和魯棒性的要求也越來越高。以自動 駕駛為例,若汽車采集的圖像以及點云數(shù)據(jù)需要等待漫長的手工提取特征,再進(jìn)行場景分析,顯然是不可行的。于是,越來越多的研究開始轉(zhuǎn)向深度學(xué)習(xí)[3]。深度學(xué)習(xí)相比其他機(jī)器學(xué)習(xí)算法有著獨特的優(yōu)勢。

(1)特征學(xué)習(xí)(Representation Learning):原本需要人工提取的特征可作為訓(xùn)練過程的一部分進(jìn)行學(xué)習(xí)。
(2)端到端(End-to-End):設(shè)備采集的原始輸入數(shù)據(jù)可以直接輸入到學(xué)習(xí)算法中,而后算法自動導(dǎo)出檢測或分類所需的輸出形式。

一般的語義分割需要兩部分:segmentation(更加依賴全局信息和局部信息),而classification(分類任務(wù)一般需要全局信息),一般的網(wǎng)絡(luò)結(jié)構(gòu)是encoder-decoder的過程,即:提特征-特征映射-特征圖壓縮(降維)-全連接-分類,比如在二維的的pspnet,fcn等等, 可能還有CRF去調(diào)整。

三維點云語義分割任務(wù)是對每個點進(jìn)行語義類別的預(yù)測,其常用的評價指標(biāo)有整體精度 (Overall Accuracy, OA)、平均類別精度 (meanAccuracy, mAcc)、平均類別交并比 (mean Intersection over Union,mIoU),其定義為:

其中,表示本屬于第 類的點被預(yù)測為第類的數(shù)目。語義分割的研究重心之一在于其局部特征的提取以及局部特征和全局特征的融合。在文獻(xiàn) [46, 51, 52] 中,作者使用三維卷積構(gòu)建三維全卷積網(wǎng)絡(luò),其結(jié)構(gòu)類似于二維語義分割,其中 [51, 52] 對三維卷積進(jìn)行了稀疏優(yōu)化。在文獻(xiàn) [48] 中,作者提出使用池化進(jìn)行全局特征的提取,并隨后在 [56] 中提出適用于點云數(shù)據(jù)的編碼-解碼結(jié)構(gòu)。在文獻(xiàn) [60, 61] 中,作者對點云進(jìn)行分塊從而提取局部特征,并使用 RNN 進(jìn)行局部特征的傳遞。文獻(xiàn) [80, 82, 83] 借鑒圖卷積的思想實現(xiàn)局部點云特征的提取。

1.2 三維數(shù)據(jù)表達(dá)方式

目前用于深度學(xué)習(xí)的三維數(shù)據(jù)有如下幾種表達(dá)方式:
1)多視角(multi-view):多角度的RGB圖像或者RGB-D圖像,通過多視角二維圖片組合為三維物體,此方法將傳統(tǒng)CNN應(yīng)用于多張二維視角的圖片,特征被view pooling procedure聚合起來形成三維物體;
2)體素(volumetric):通過將物體表現(xiàn)為空間中的體素進(jìn)行類似于二維的三維卷積(例如,卷積核大小為5 x 5 x 5),是規(guī)律化的并且易于類比二維的,但同時因為多了一個維度出來,時間和空間復(fù)雜度都非常高,目前已經(jīng)不是主流的方法了;
3)點云(point clouds):由N個D維的點組成,當(dāng)這個D=3的時候一般代表著(x,y,z)的坐標(biāo),當(dāng)然也可以包括一些法向量、強(qiáng)度等別的特征。直接將三維點云拋入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,數(shù)據(jù)量小。主要任務(wù)有分類、分割以及大場景下語義分割;
4) 非歐式(manifold graph):在流形或圖的結(jié)構(gòu)上進(jìn)行卷積,三維點云可以表現(xiàn)為mesh結(jié)構(gòu),可以通過點對之間臨接關(guān)系表現(xiàn)為圖的結(jié)構(gòu)。


三維點云的多種表示方法,也對應(yīng)著不同的處理方法。比較容易的處理方式為將其投影為二維圖像或者轉(zhuǎn)換為三維體素 (Voxel),從而將無序的空間點轉(zhuǎn)變?yōu)橐?guī)則的數(shù)據(jù)排列;也可以使用原始點作為表示,不做任何變換,該方式的好處為最大可能保留所有原始信息。此外,點云作為空間無序點集,可以被看作普適意義上的圖數(shù)據(jù);點云還有另外一種表示,稱作網(wǎng)格 (Mesh),其也可以被看作是構(gòu)建了局部連接關(guān)系的點,即為圖。將點云看作圖數(shù)據(jù),可以使用圖領(lǐng)域新興的圖卷積 (Graph Convolution) 技術(shù)進(jìn)行處理。需要提及的是,原始點的表示和圖表示之間并無明確界限(事實上原始點云和網(wǎng)格 (Mesh) 之間有一定區(qū)別,但若從語義理解方法的角度看,可暫時忽略此區(qū)別,將Mesh看作是增加了一種連接關(guān)系)。

1.3 點云的特點及優(yōu)勢

三維空間中的點云存在下面三個主要的屬性:無序性、旋轉(zhuǎn)性、關(guān)聯(lián)性。
1.3.1點的無序性
點的無序性,也可以稱作點的置換不變性,那么什么是置換不變性呢,簡單地說就是點的排序不影響物體的性質(zhì)。點云本質(zhì)上是一長串點(nx3矩陣,其中n是點數(shù))。在幾何上,點的順序不影響它在空間中對整體形狀的表示,例如,相同的點云可以由兩個完全不同的矩陣表示。當(dāng)一個N×D在N的維度上隨意的打亂之后,其表述的其實是同一個物體。因此針對點云的置換不變性,其設(shè)計的網(wǎng)絡(luò)必須是一個對稱的函數(shù),比如SUM和MAX函數(shù)。

下圖中x代表點云中某個點,h代表特征提取層,g叫做對稱方法,r代表更高維特征提取,最后接一個softmax分類。g可以是maxpooling或sumpooling,也就是說,最后的D維特征對每一維都選取N個點中對應(yīng)的最大特征值或特征值總和,這樣就可以通過g來解決無序性問題。pointnet采用了max-pooling策略。

其他方法:
1)Sorting:將不同輸入按一定規(guī)則排列成統(tǒng)一的順序,但是實際上不存在這樣一個穩(wěn)定的從高緯度到1維度的映射;
2)RNN:將輸入的點云當(dāng)成是一個序列用來訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),通過改變順序來增加訓(xùn)練數(shù)據(jù),從而使得RNN的輸出結(jié)果對順序不變,數(shù)據(jù)的一些抖動也得到了增強(qiáng);
3)symmetric function:一些對稱的函數(shù)方法,通過一個形式簡單的對稱函數(shù)聚合每個點的信息。
1.3.2 點的旋轉(zhuǎn)性
相同的點云在空間中經(jīng)過一定的剛性變化(旋轉(zhuǎn)或平移),坐標(biāo)發(fā)生變化。不論點云在怎樣的坐標(biāo)系下呈現(xiàn),網(wǎng)絡(luò)都能正確的識別出。這個問題可以通過STN(spacial transform netw)來解決。二維的變換方法可以參考此處,三維不太一樣的是點云是一個不規(guī)則的結(jié)構(gòu)(無序,無網(wǎng)格),不需要重采樣的過程。pointnet通過學(xué)習(xí)一個矩陣來達(dá)到對目標(biāo)最有效的變換。


對于普通的PointNet(vanilla),如果先后輸入同一個但是經(jīng)過不同旋轉(zhuǎn)角度的物體,它可能不能很好地將其識別出來。在論文中的方法是新引入了一個T-Net網(wǎng)絡(luò)去學(xué)習(xí)點云的旋轉(zhuǎn),將物體校準(zhǔn),剩下來的PointNet(vanilla)只需要對校準(zhǔn)后的物體進(jìn)行分類或者分割即可。

由圖可以看出,由于點云的旋轉(zhuǎn)非常的簡單,只需要對一個N×D的點云矩陣乘以一個D×D的旋轉(zhuǎn)矩陣即可,因此對輸入點云學(xué)習(xí)一個3×3的矩陣,即可將其矯正;同樣的將點云映射到K維的冗余空間后,再對K維的點云特征做一次校對,只不過這次校對需要引入一個正則化懲罰項,希望其盡可能接近于一個正交矩陣。
正則化:


1.3.3 關(guān)聯(lián)性
點云中的每個點不是孤立的,點與點之間存在著關(guān)聯(lián),相鄰的許多點可能組成一個具有重要意義的子集,它包含了點云的局部特征。因此希望模型能夠捕捉到點與點之間的關(guān)聯(lián)、點云的局部結(jié)構(gòu)從而提取出點云的局部特征。點云的關(guān)聯(lián)性也正是現(xiàn)在各個頂會眾多論文的創(chuàng)新所在。

1.3.4 點云的優(yōu)勢
點云由很多優(yōu)勢,也越來越受到雷達(dá)自動駕駛的青睞。
1)點云更接近于設(shè)備的原始表征(即雷達(dá)掃描物體直接產(chǎn)生點云)
2)點云的表達(dá)方式更加簡單,一個物體僅用一個N×D的矩陣表示。

2 研究現(xiàn)狀

2.1 基于人工特征和機(jī)器學(xué)習(xí)的方法

在機(jī)器學(xué)習(xí)中,為了實現(xiàn)每個預(yù)測數(shù)據(jù)的自動標(biāo)注,通常會選擇監(jiān)督學(xué)習(xí)方法進(jìn)行模型訓(xùn)練。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的點云分割方法,通常采用典型的監(jiān)督學(xué)習(xí)算法包括支持向量機(jī)(SVM)、隨機(jī)森林(RF)和樸素貝葉斯。由于僅考慮點云中的單個點是不能獲得有意義的信息,因此這些方法還依賴于一系列稱為特征描述符(Signature)或描述子的人工特征。常見的點云的描述子可以大致分為統(tǒng)計特征和幾何特征。

(1)統(tǒng)計特征通常會選取固定鄰域內(nèi)點云的數(shù)量、 密度、體積、標(biāo)準(zhǔn)差等,其中比較具有代表性的有:快速點特征直方圖(Fast Point Feature Histograms,FPFH)[4]、 方向直方圖(Signature of Histograms of OrienTations, SHOT)[5]等。
(2)幾何特征通常將局部領(lǐng)域內(nèi)的點云描述為線、面或者幾何形狀,其中比較典型的有自旋圖像(Spin Image)[6]、局部表面切片(Local Surface Patches)[7]、固有形態(tài)(Intrinsic Shape)[8]等。

為了從大量點云中找到這些領(lǐng)域特征,通常需要一定的加速算法。此外,這些特征對點云密度具有一定的耦合性。雖然已經(jīng)有一些方法在一定程度上解決了這些問題,并可以實現(xiàn)90%左右的分類精度。但是,這些方法都是在一定小范圍內(nèi)進(jìn)行測試和驗證,缺乏泛化和擴(kuò)展能力,并且,這些方法對大范圍場景下出現(xiàn)物體被遮擋或者重疊通常表現(xiàn)不佳。最重要的,手工提取特征耗費的時間是實時性應(yīng)用所不能接受的。

2.2 基于深度學(xué)習(xí)的方法

在PointNet出現(xiàn)以前,點云上的深度學(xué)習(xí)模型大致分為三類:
1)基于3DCNN的體素模型:先將點云映射到體素空間上,在通過3DCNN進(jìn)行分類或者分割。但是缺點是計算量受限制,目前最好的設(shè)備也大致只能處理32×32×32的體素;另外由于體素網(wǎng)格的立方體性質(zhì),點云表面很多特征都沒有辦法被表述出來,因此模型效果差。
2)將點云映射到2D空間中利用CNN分類;
3)利用傳統(tǒng)的人工點云特征分類,例如:normal 法向量、intensity強(qiáng)度信息、local density 局部稠密度、local curvature 局部曲率等等;

基于深度學(xué)習(xí)的方法,本文從四種點云表示切入,介紹深度學(xué)習(xí)在三維點云上的應(yīng)用,分別為:基于二維投影的方法、基于三維體素的方法、基于原始點的方法和基于圖的方法。

2.2.1 基于二維投影的方法
? CNN 最好的應(yīng)用領(lǐng)域在于圖像處理,將三維點云數(shù)據(jù)投影到二維圖像平面,即可使得 CNN 應(yīng)用于點云數(shù)據(jù)成為可能。

?在文獻(xiàn) [31] 中,作者將原始的三維點云從不同視角進(jìn)行投影,得到 12 個視角下的投影圖片,并使用 CNN 對不同視角的圖片分別提取特征,通過池化結(jié)合不同視角的信息,進(jìn)行最終的點云物體分類。在文獻(xiàn) [32, 33] 中,作者使用類似的思路對三維場景進(jìn)行多視角投影,生成一系列 RGB 圖、深度圖及其他屬性圖片,并使用全卷積 (Fully Convolutional Networks, FCN)[34] 進(jìn)行像素級語義分割,最終通過反向投影得到點云的語義分割結(jié)果。在文獻(xiàn) [35] 中,作者將單幀 64 線激光雷達(dá)數(shù)據(jù)投影為鳥瞰圖和前視圖,并結(jié)合攝像頭采集的 RGB 圖,并列輸入進(jìn)三個CNN,其中,鳥瞰圖和前視圖編碼了高度、密度、強(qiáng)度等一系列信息,三個網(wǎng)絡(luò)的特征相互融合得到物體的三維邊界框。在文獻(xiàn) [36] 中,作者使用類似于 [31] 的思路,設(shè)置多個不同尺度的投影視角,并結(jié)合條件隨機(jī)場(Conditional Random Field,CRF)[37],進(jìn)行三維點云物體的部件分割。在文獻(xiàn) [38] 中,作者對單幀 64 線激光雷達(dá)數(shù)據(jù)進(jìn)行球面投影 (Spherical Projection),得到對應(yīng)的圖像,圖像的像素值編碼為 x 坐標(biāo)、強(qiáng)度和深度三通道,使用運行效率較高的 SqueezeNet[39] 進(jìn)行圖像的語義分割,使用 CRF 進(jìn)行后處理優(yōu)化,最終將分割結(jié)果投影至點云。在文獻(xiàn) [40]中,作者將層次分組概念引入到多視角投影中,提出“視角-組別-形狀”由低到高的三個層次,實現(xiàn)更加具有可分度的特征學(xué)習(xí)。在文獻(xiàn) [41] 中,作者沿著點云表面法線方向,將局部點云投影至切平面,對切平面上的投影圖像使用 FCN 進(jìn)行語義分割。在文獻(xiàn) [42] 中,作者使用類似于 [35] 的點云投影方法,進(jìn)行三維目標(biāo)的邊框預(yù)測。與 [35] 不同的是, [42] 未使用前視圖,并舍棄了鳥瞰圖中的強(qiáng)度信息。

2.2.2 基于三維體素的方法

三維點云進(jìn)行二維投影降低了算法處理的難度,但是三維到二維的投影必然帶來幾何結(jié)構(gòu)信息的損失,直接進(jìn)行三維特征的提取在一些場景下是非常有必要的。一種最自然的想法便是 CNN 的延拓,將二維卷積神經(jīng)網(wǎng)絡(luò)拓展一個維度,使其可以處理三維排列的數(shù)據(jù);同時,對點云進(jìn)行體素化 (Voxelization),將其轉(zhuǎn)換為空間上規(guī)則排布的柵格,使得三維卷積神經(jīng)網(wǎng)絡(luò)(Three Dimension Convolutional Neural Network, 3DCNN) 可以直接應(yīng)用在這種表示上。

文獻(xiàn) [43, 44] 是較早將 3DCNN 應(yīng)用于三維點云處理的工作,他們將原始點云轉(zhuǎn)換為體素 (Voxel),并使用 3DCNN 進(jìn)行點云物體的特征提取。在文獻(xiàn) [45] 中,作者深入探討了基于二維投影的方法和基于三維體素的方法的優(yōu)劣,嘗試尋找這兩種方法精度差異的來源,并針對 3DCNN 提出兩種優(yōu)化措施:使用完整物體的一部分進(jìn)行輔助訓(xùn)練以及使用各向異性的 3D卷積核。在文獻(xiàn) [46] 中,作者使用三維卷積構(gòu)建三維全卷積網(wǎng)絡(luò),串聯(lián)以三線性插值和條件隨機(jī)場,實現(xiàn)室內(nèi)、室外點云場景的語義分割。在文獻(xiàn) [47] 中,作者提出體素特征編碼模塊,使用 PointNet[48]編碼同一體素內(nèi)的特征,并使用 3DCNN 進(jìn)行體素間的特征提取。

在文獻(xiàn) [49, 50] 中,作者使用八叉樹數(shù)據(jù)結(jié)構(gòu)對三維點云進(jìn)行編碼,以降低3DCNN 的顯存占用與計算耗時,使得體素的分辨率可以進(jìn)一步提高,從而可以學(xué)習(xí)到空間上更加精細(xì)的特征。在文獻(xiàn) [51, 52] 中,作者提出類似的降低 3DCNN 顯存占用的方法,不過省略了使用八叉樹作為中間表示,直接通過哈希表構(gòu)建了稀疏矩陣的索引關(guān)系。這類思路極大提高了 3DCNN 提取特征的能力。在文獻(xiàn) [53]中,作者將稀疏編碼技術(shù)應(yīng)用于點云的目標(biāo)檢測,其整體框架類似于 [47]。由于稀疏編碼的優(yōu)勢,使得該方法相比 [47] 取得了更好的效果。在文獻(xiàn) [54] 中,作者將稀疏優(yōu)化的卷積[51] 用作點云目標(biāo)檢測的特征提取網(wǎng)絡(luò),借鑒傳統(tǒng)兩階段目標(biāo)檢測框架[55],提升了三維目標(biāo)檢測的性能。

2.2.3 基于原始點的方法
無論是二維投影還是三位體素,均需要對原始點云進(jìn)行一定的轉(zhuǎn)換,而轉(zhuǎn)換必然帶來數(shù)據(jù)信息的損失。

在文獻(xiàn) [48] 中,作者開創(chuàng)性地提出 PointNet,一個用于直接處理原始點云數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。該方法使用多層感知機(jī)進(jìn)行逐點特征提取,使用池化進(jìn)行全局特征提取,可用于三維點云的分類、部件分割、語義分割等多種任務(wù),開辟了基于原始點方法的先河。但是 PointNet 沒有考慮點云的局部特征,該研究者在隨后發(fā)表的 [56] 中,對 PointNet 進(jìn)行改進(jìn),通過設(shè)計點云數(shù)據(jù)的層次結(jié)構(gòu)以及多尺度特征,實現(xiàn)局部特征與全局特征的融合。

點云局部特征的有效提取是點云理解中較為本質(zhì)的問題之一。在文獻(xiàn) [57] 中,作者根據(jù)點云局部坐標(biāo)信息學(xué)習(xí)置換矩陣,對局部點云的特征進(jìn)行變換和加權(quán),試圖實現(xiàn)點云局部排序的一致性。在文獻(xiàn) [58] 中,作者通過自組織映射從原始點云中計算得到自組織節(jié)點,并將近鄰點的特征匯聚至自組織節(jié)點處。在文獻(xiàn) [59]中,作者將點云轉(zhuǎn)換到 Lattice 坐標(biāo)系下,并定義了在該坐標(biāo)系下的卷積操作。在文獻(xiàn) [60] 中,作者沿三個坐標(biāo)軸對點云進(jìn)行空間分塊,使用三組循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeural Network, RNN) 進(jìn)行塊與塊之間特征的傳遞,構(gòu)建局部聯(lián)系。在文獻(xiàn) [61] 中,作者使用金字塔池化方法和雙向 RNN 進(jìn)行局部特征的傳遞。文獻(xiàn)[62] 借鑒 SIFT[63] 特征點的思路,將局部點云劃分為八個區(qū)域,解決僅根據(jù)離進(jìn)行近鄰搜索所帶來的問題。類似的思路有 [64],其提出一種逐點的 3D 卷積,對于每個點,將其局部鄰域按照卷積核的排列規(guī)則,劃分到不同的柵格中,并將 3D卷積核應(yīng)用于該局部柵格。在文獻(xiàn) [65] 中,作者通過公式推導(dǎo)提出一種高效的點云卷積,在不改變計算精度的情況下,大幅降低了模型顯存的需求。在文獻(xiàn) [66]中,作者定義了一種新的點云卷積核函數(shù),其不同于規(guī)則的固定柵格式卷積,而是通過插值計算每個點處的卷積參數(shù),在使用上更加靈活。

基于原始點的方法從 2017 年開始興起,并已經(jīng)取得了較大的進(jìn)步,其在語義分割[56, 62]、目標(biāo)檢測[67-69]、實例分割[70, 71]、點云匹配[72, 73] 等任務(wù)上應(yīng)用并取得不錯的效果。

2.2.4 基于圖的方法
現(xiàn)實生活中存在大量的非結(jié)構(gòu)化數(shù)據(jù),如交通網(wǎng)絡(luò)、社交網(wǎng)絡(luò)等,這些數(shù)據(jù)的節(jié)點間存在聯(lián)系,可以表示為圖。研究圖數(shù)據(jù)的學(xué)習(xí)是近年來學(xué)界的熱點。三維點云數(shù)據(jù)可以看作圖數(shù)據(jù)的一種,圖網(wǎng)絡(luò)的很多思想可以被借鑒于點云數(shù)據(jù)的特征學(xué)習(xí)中。

圖卷積 (Graph Convolution Network, GCN) 可分為基于譜的圖卷積(Spectralbased GCN) 和基于空間的圖卷積 (Spatial-based GCN)?;谧V的圖卷積的基本思路是:依據(jù)卷積定理,首先根據(jù)圖的傅里葉變換將圖數(shù)據(jù)從空間域變換到譜域,并在譜域上進(jìn)行卷積,隨后再通過圖的傅里葉反變換將卷積結(jié)果轉(zhuǎn)換到空間域。早期的圖卷積大多為基于譜的方法,在文獻(xiàn) [74] 中,作者使用拉普拉斯矩陣 (Laplacian Matrix) 定義圖的傅里葉變換,并定義了圖數(shù)據(jù)上的卷積操作,構(gòu)建了圖卷積網(wǎng)絡(luò)。

在文獻(xiàn) [75] 中,作者對 [74] 的工作進(jìn)行了改進(jìn),使用切比雪夫多項式代替先前工作中的傅里葉變換,避免了矩陣的特征值分解,同時使得圖卷積操作的感受野變?yōu)榻彽?k 個節(jié)點 (K-localized),參數(shù)復(fù)雜度大大降低。在文獻(xiàn) [76]中,作者對 [75] 提出的多項式進(jìn)行了進(jìn)一步的簡化,僅保留 0 階項和 1 階項。從[74] 到 [75, 76] 的發(fā)展,也伴隨著圖卷積從基于譜的方法到基于空間的方法的轉(zhuǎn)變??臻g方法的本質(zhì)簡單可理解為在節(jié)點域定義節(jié)點間的權(quán)重,然后對鄰域進(jìn)行加權(quán)求和。在文獻(xiàn) [77] 中,作者提出使用注意力機(jī)制,定義節(jié)點之間的權(quán)重。在文獻(xiàn) [78] 中,作者針對鄰域的采樣和特征匯聚的方式進(jìn)行了探討,提出針對大規(guī)模圖數(shù)據(jù)的處理方法。

圖卷積的理論研究影響著三維點云的深度學(xué)習(xí)。在文獻(xiàn) [79] 中,作者使用基于譜的圖卷積進(jìn)行三維物體模型的語義分割,其提出譜變換網(wǎng)絡(luò)以實現(xiàn)更好的參數(shù)共享,同時引入了空洞卷積的概念,增加多尺度信息。在文獻(xiàn) [80] 中,作者使用圖卷積進(jìn)行點云局部特征的提取?;谧V的圖卷積由于需要計算特征分解,而不同點云數(shù)據(jù)的特征分解不相同,因此增加了基于譜的圖卷積在點云上應(yīng)用的難度。近年來不少學(xué)者轉(zhuǎn)向使用基于空間的圖卷積。在文獻(xiàn) [81] 中,作者結(jié)合邊信息進(jìn)行圖卷積參數(shù)的學(xué)習(xí)。在文獻(xiàn) [82] 中,作者使用將鄰接的邊特征送進(jìn)多層感知機(jī)進(jìn)行訓(xùn)練。文獻(xiàn) [83] 借鑒 [77] 的思想應(yīng)用在點云的語義分割任務(wù)上。

參考文獻(xiàn)
注釋:參考文獻(xiàn)未按順序錄入,僅按原參考索引紀(jì)錄(懶)
[1] Shang L,Greenspan M.Real-time object recognition in sparse range images using error surface embedding[J]. International Journal of Computer Vision,2010,89(2/3): 211-228.
[2] Guo Y,Sohel F,Mohammed B.Rotational projection statistics for 3D local surface description and object recognition[J].International Journal of Computer Vision, 2013,105(1):63-86.
[3] Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521:436.
[4] Rusu R B,Blodow N,Beetz M.Fast point feature histograms for 3D registration[C]//Proceedings of IEEE International Conference on Robotics and Automation,2009:1848-1853.
[5] Tombari F,Salti S,Stefano L D.Unique signatures of histograms for local surface description[C]//Proceedings of European Conference on Computer Vision,2010:356-369.
[6] Johnson A E,Hebert M.Using spin images for efficient object recognition in cluttered 3D scenes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21(5):433-449.
[7] Chen H,Bhanu B.3D free-form object recognition in range images using local surface patches[J].Pattern Recognition, 2007,28(10):1252-1262.
[8] Zhong Y.Intrinsic shape signatures:A shape descriptor for 3D object recognition[C]//Proceedings of IEEE International Conference on Computer Vision,2009.
[26] RUSU R B, BLODOW N, BEETZ M. Fast point featurehistograms (FPFH) for 3D registration[C]//2009 IEEE International Conference onRobotics and Automation. Kobe, Japan: IEEE, 2009: 3212-3217.
[27] RUSU R B, BLODOW N, MARTON Z C, et al. Aligning pointcloud views using persistent feature histograms[C]//2008 IEEE/RSJ InternationalConference on Intelligent Robots and Systems. Nice, France: IEEE, 2008:3384-3391.
[28] OSADA R, FUNKHOUSER T, CHAZELLE B, et al. Shapedistributions[J]. ACM Transactions on Graphics (TOG), 2002, 21(4): 807-832.
[29] THOMAS H, DESCHAUD J E, MARCOTEGUI B, et al. SemanticClassification of 3D Point Clouds with Multiscale Spherical Neighborhoods[J].ArXiv preprint arXiv:1808.00495, 2018.
[30] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature,2015, 521(7553): 436-444.
[31] SU H, MAJI S, KALOGERAKIS E, et al. Multi-viewconvolutional neural networks for 3d shape recognition[C]//Proceedings of theIEEE international conference on computer vision. Santiago, Chile: IEEE, 2015:945-953.
[32] BOULCH A, LE SAUX B, AUDEBERT N. Unstructured Point CloudSemantic Labeling Using Deep Segmentation Networks.[J]. 3DOR, 2017, 2: 7.
[33] LAWIN F J, DANELLJAN M, TOSTEBERG P, et al. Deepprojective 3D semantic segmentation[C]//International Conference on ComputerAnalysis of Images and Patterns. Ystad, Sweden: Springer, 2017: 95-107.
[34] LONG J, SHELHAMER E, DARRELL T. Fully convolutionalnetworks for semantic segmentation[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Boston, MA, USA: IEEE, 2015:3431-3440.
[35] CHEN X, MA H, WAN J, et al. Multi-view 3d objectdetection network for autonomous driving[C]//Proceedings of the IEEEinternational conference on computer vision. Honolulu, HI, USA: IEEE, 2017:1907-1915.
[36] KALOGERAKIS E, AVERKIOU M, MAJI S, et al. 3D ShapeSegmentation With Projective Convolutional Networks[C]//The IEEE Conference onComputer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017.
[37] LAFFERTY J, MCCALLUM A, PEREIRA F C. Conditional randomfields: Probabilistic models for segmenting and labeling sequence data[J].,2001.
[38] WU B, WAN A, YUE X, et al. Squeezeseg: Convolutionalneural nets with recurrent crf for real-time road-object segmentation from 3dlidar point cloud[C]//2018 IEEE International Conference on Robotics and Automation(ICRA). Brisbane, QLD, Australia: IEEE, 2018: 1887-1893.
[39] IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and< 0.5 MB model size[J].ArXiv preprint arXiv:1602.07360, 2016.
[40] FENG Y, ZHANG Z, ZHAO X, et al. GVCNN: Group-viewconvolutional neural networks for 3D shape recognition[C]//Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT,USA: IEEE, 2018: 264-272.
[41] TATARCHENKO M, PARK J, KOLTUN V, et al. Tangentconvolutions for dense prediction in 3d[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE,2018: 3887-3896.[42] KU J, MOZIFIAN M, LEE J, et al. Joint 3d proposalgeneration and object detection from view aggregation[C]//2018 IEEE/RSJInternational Conference on Intelligent Robots and Systems (IROS). Madrid,Spain: IEEE, 2018: 1-8.
[43] WU Z, SONG S, KHOSLA A, et al. 3d shapenets: A deeprepresentation for volumetric shapes[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Boston, MA, USA: IEEE, 2015:1912-1920.
[44] MATURANA D, SCHERER S. Voxnet: A 3d convolutionalneural network for real-time object recognition[C]//2015 IEEE/RSJ InternationalConference on Intelligent Robots and Systems (IROS). Hamburg, Germany: IEEE,2015: 922-928.
[45] QI C R, SU H, NIE?NER M, et al. Volumetric andmulti-view cnns for object classification on 3d data[C]//Proceedings of theIEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA:IEEE, 2016: 5648-5656.
[46] TCHAPMI L, CHOY C, ARMENI I, et al. Segcloud: Semanticsegmentation of 3d point clouds[C]//3D Vision (3DV), 2017 InternationalConference on. Qingdao, China: IEEE, 2017: 537-547.
[47] ZHOU Y, TUZEL O. Voxelnet: End-to-end learning forpoint cloud based 3d object detection[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:4490-4499.
[48] QI C R, SU H, MO K, et al. Pointnet: Deep learning onpoint sets for 3d classification and segmentation[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE,2017: 652-660.
[49] RIEGLER G, ULUSOY A O, GEIGER A. Octnet: Learning deep3d representations at high resolutions[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017:3577-3586.
[50] WANG P S, LIU Y, GUO Y X, et al. O-cnn: Octree-basedconvolutional neural networks for 3d shape analysis[J]. ACM Transactions onGraphics (TOG), 2017, 36(4): 72.
[51] GRAHAM B, ENGELCKE M, van der MAATEN L. 3d semanticsegmentation with submanifold sparse convolutional networks[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT, USA: IEEE, 2018: 9224-9232.
[52] CHOY C, GWAK J, SAVARESE S. 4D Spatio-TemporalConvNets: Minkowski Convolutional Neural Networks[J]. ArXiv preprintarXiv:1904.08755, 2019.
[53] YAN Y, MAO Y, LI B. Second: Sparsely embeddedconvolutional detection[J]. Sensors, 2018, 18(10): 3337.
[54] SHI S, WANG Z, WANG X, et al. Part-A^ 2 Net: 3DPart-Aware and Aggregation Neural Network for Object Detection from PointCloud[J]. ArXiv preprint arXiv:1907.03670, 2019.
[55] REN S, HE K, GIRSHICK R, et al. Faster r-cnn: Towardsreal-time object detection with region proposal networks[C]//Advances in neuralinformation processing systems. Montreal, Quebec, Canada: MIT Press, 2015:91-99.
[56] QI C R, YI L, SU H, et al. Pointnet++: Deep hierarchicalfeature learning on point sets in a metric space[C]//Advances in NeuralInformation Processing Systems. Long Beach, CA, USA: MIT Press, 2017:5099-5108.
[57] LI Y, BU R, SUN M, et al. Pointcnn: Convolution onx-transformed points[C]// Advances in Neural Information Processing Systems.Montreal, Quebec, Canada: MIT Press, 2018: 820-830.
[58] LI J, CHEN B M, HEE LEE G. So-net: Self-organizingnetwork for point cloud analysis[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. Salt Lake City, UT, USA: IEEE, 2018:9397-9406.
[59] SU H, JAMPANI V, SUN D, et al. Splatnet: Sparse latticenetworks for point cloud processing[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:2530-2539.
[60] HUANG Q, WANG W, NEUMANN U. Recurrent Slice Networksfor 3D Segmentation of Point Clouds[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:2626-2635.
[61] YE X, LI J, HUANG H, et al. 3d recurrent neuralnetworks with context fusion for point cloud semanticsegmentation[C]//Proceedings of the European Conference on Computer Vision(ECCV). Munich, Germany: Springer, 2018: 403-417.
[62] JIANG M, WU Y, ZHAO T, et al. Pointsift: A sift-likenetwork module for 3d point cloud semantic segmentation[J]. ArXiv preprintarXiv:1807.00652, 2018.
[63] LOWE D G. Distinctive image features fromscale-invariant keypoints[J]. International journal of computer vision, 2004,60(2): 91-110.
[64] HUA B S, TRAN M K, YEUNG S K. Pointwise convolutionalneural networks[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 984-993.
[65] WU W, QI Z, FUXIN L. Pointconv: Deep convolutionalnetworks on 3d point clouds[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 9621-9630.
[66] THOMAS H, QI C R, DESCHAUD J E, et al. KPConv: Flexibleand Deformable Convolution for Point Clouds[J]. ArXiv preprintarXiv:1904.08889, 2019.
[67] QI C R, LIU W, WU C, et al. Frustum pointnets for 3dobject detection from rgb-d data[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:918-927.
[68] SHI S, WANG X, LI H. Pointrcnn: 3d object proposalgeneration and detection from point cloud[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. Long Beach, CA, USA:IEEE, 2019: 770-779.
[69] QI C R, LITANY O, HE K, et al. Deep Hough Voting for 3DObject Detection in Point Clouds[J]. ArXiv preprint arXiv:1904.09664, 2019.
[70] WANG W, YU R, HUANG Q, et al. Sgpn: Similarity groupproposal network for 3d point cloud instance segmentation[C]//Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT, USA: IEEE, 2018: 2569-2578.
[71] YI L, ZHAO W, WANG H, et al. GSPN: Generative ShapeProposal Network for 3D Instance Segmentation in Point Cloud[J]. ArXiv preprintarXiv:1812.03320, 2018.
[72] AOKI Y, GOFORTH H, SRIVATSAN R A, et al. PointNetLK:Robust & efficient point cloud registration using PointNet[C]//Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition. Long Beach,CA, USA: IEEE, 2019: 7163-7172.
[73] WANG Y, SOLOMON J M. Deep Closest Point: LearningRepresentations for Point Cloud Registration[J]. ArXiv preprintarXiv:1905.03304, 2019.
[74] BRUNA J, ZAREMBA W, SZLAM A, et al. Spectral networksand locally connected networks on graphs[J]. ArXiv preprint arXiv:1312.6203,2013.
[75] DEFFERRARD M, BRESSON X, VANDERGHEYNST P. Convolutionalneural networks on graphs with fast localized spectral filtering[C]//Advancesin neural information processing systems. Barcelona, Spain: MIT Press, 2016:3844-3852.
[76] KIPF T N, WELLING M. Semi-supervised classificationwith graph convolutional networks[J]. ArXiv preprint arXiv:1609.02907, 2016.
[77] VELI?KOVI? P, CUCURULL G, CASANOVA A, et al. Graphattention networks[J]. ArXiv preprint arXiv:1710.10903, 2017.
[78] HAMILTON W, YING Z, LESKOVEC J. Inductiverepresentation learning on large graphs[C]//Advances in Neural InformationProcessing Systems. Long Beach, CA, USA: MIT Press, 2017: 1024-1034.
[79] YI L, SU H, GUO X, et al. Syncspeccnn: Synchronizedspectral cnn for 3d shape segmentation[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017:2282-2290.
[80] WANG C, SAMARI B, SIDDIQI K. Local spectral graphconvolution for point set feature learning[C]//Proceedings of the EuropeanConference on Computer Vision (ECCV). Munich, Germany: Springer, 2018: 52-66.
[81] SIMONOVSKY M, KOMODAKIS N. Dynamic edgeconditionedfilters in convolutional neural networks on graphs[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE,2017: 3693-3702.
[82] WANG Y, SUN Y, LIU Z, et al. Dynamic graph CNN forlearning on point clouds[J]. ArXiv preprint arXiv:1801.07829, 2018.
[83] WANG L, HUANG Y, HOU Y, et al. Graph AttentionConvolution for Point Cloud Semantic Segmentation[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. Long Beach, CA, USA:IEEE, 2019: 10296-10305.
[84] HOU J, DAI A, NIE?NER M. 3D-SIS: 3D Semantic InstanceSegmentation of RGB-D Scans[J]. ArXiv preprint arXiv:1812.07003, 2018.
[85] ARMENI I, SENER O, ZAMIR A R, et al. 3d semanticparsing of large-scale indoor spaces[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016:1534-1543.

總結(jié)

以上是生活随笔為你收集整理的三维点云语义分割基础知识的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。