CVPR 2022 | GeoTransformer:基于Transformer的点云配准网络
?作者?|?秦政
單位?|?國(guó)防科技大學(xué)
研究方向 |?三維視覺
本文提出了一種基于 Transformer 的點(diǎn)云配準(zhǔn)網(wǎng)絡(luò)。通過引入點(diǎn)云中的全局結(jié)構(gòu)信息,GeoTransformer 能夠顯著提高 correspondences 的 inlier ratio,從而實(shí)現(xiàn)了 RANSAC-free 的場(chǎng)景點(diǎn)云 registration,代碼已開源。
Motivation
在這篇工作中,我們關(guān)注基于 correspondences 的點(diǎn)云配準(zhǔn)方法。這類方法首先建立兩個(gè)點(diǎn)云之間的 correspondences,再利用 correspondences 來估計(jì) transformation。顯然,這類的方法的核心在于找到高質(zhì)量的 correspondences。
為了建立 correspondences,之前大部分工作都采用了 detect-then-match 的方法 [1,2,3],即先檢測(cè)兩個(gè)點(diǎn)云中的 keypoint,再對(duì) keypoint 進(jìn)行匹配。但是,在兩個(gè)點(diǎn)云中找到重復(fù)的 keypoint 并不容易,當(dāng)兩個(gè)點(diǎn)云重疊度很低的時(shí)候會(huì)變的尤其困難。受到最近在 stereo matching 的一些 keypoint-free 工作的啟發(fā),CoFiNet [4] 也嘗試了在點(diǎn)云配準(zhǔn)中使用 coarse-to-fine 的匹配策略來建立 dense correspondences,避免了 keypoint detection 這個(gè)步驟,取得了非常不錯(cuò)的效果。
但是,如果仔細(xì)觀察可以發(fā)現(xiàn),之前這些方法的 correspondences 的質(zhì)量都還是比較差的。以 CoFiNet 為例,其在 3DMatch 上的 inlier ratio 都只有 50% 上下,而在 3DLoMatch 上 inlier ratio 更是只有 20%+,這無疑很大程度的影響了配準(zhǔn)的精度。而這其中的關(guān)鍵因素,就在于 CoFiNet 的 superpoint correspondences 的質(zhì)量并不夠好。
對(duì)于 superpoint 的匹配來說,因?yàn)檎麄€(gè)場(chǎng)景點(diǎn)云中通常會(huì)存在很多類似的 local patch,因此對(duì)于全局結(jié)構(gòu)的感知尤其重要。為了實(shí)現(xiàn)這一目標(biāo),之前的方法都使用了 transformer 來進(jìn)行全局的特征特征。但是,transformer 本身是序列無關(guān)的,它不能夠區(qū)分不同位置的 superpoint。當(dāng)然,一個(gè)簡(jiǎn)單的方法是利用 NLP、ViT 和 Point Transformer 等工作中的方式,通過將 superpoint 的坐標(biāo)進(jìn)行映射作為 transformer 的位置編碼。但是,基于坐標(biāo)的位置編碼是 transformation-variant 的,這對(duì)于點(diǎn)云配準(zhǔn)任務(wù)來說并不合理。
針對(duì)這個(gè)問題,我們?cè)O(shè)計(jì)了 GeoTransformer,通過對(duì) superpoint pair 之間的距離信息和 superpoint triplet 之間的角度信息進(jìn)行編碼,嵌入到 transformer 中,實(shí)現(xiàn)了有效的全局結(jié)構(gòu)信息學(xué)習(xí)。因?yàn)榫嚯x和角度信息都是 transformation-invariant 的,因此 GeoTransformer 在特征學(xué)習(xí)階段就能夠顯式的捕捉到兩個(gè)點(diǎn)云中的空間一致性,這在之前的方法中都是無法實(shí)現(xiàn)的。
這一優(yōu)勢(shì)使得 GeoTransformer 可以提取到非常高質(zhì)量的 correspondences,并實(shí)現(xiàn)了 RANSAC-free 的點(diǎn)云配準(zhǔn)。在 3DLoMatch 基準(zhǔn)數(shù)據(jù)集上,GeoTransformer 相比于之前的方法實(shí)現(xiàn)了 17%~31% 的 inlier ratio 提升和 7% 的 registration recall 提升。
論文標(biāo)題:
Geometric Transformer for Fast and Robust Point Cloud Registration
收錄會(huì)議:
CVPR 2022
論文鏈接:
https://arxiv.org/abs/2202.06688
代碼鏈接:
https://github.com/qinzheng93/GeoTransformer
Pipeline
▲?算法pipeline
GeoTransformer 的整個(gè)算法分為四個(gè)部分。首先,對(duì)于輸入點(diǎn)云,GeoTransformer 通過一個(gè) KPConv backbone 來提特征。我們把最后一個(gè)分辨率下的點(diǎn)云所謂 superpoint,并通過 point-to-node 劃分把每個(gè)點(diǎn)分配給最近的 superpoint,將 superpoint 擴(kuò)展成 patch。
之后,我們通過 superpoint matching module 來提取 superpoint correspondences。在 superpoint matching module 中,我們使用了 self-attention 和 cross-attention 來進(jìn)行點(diǎn)云內(nèi)和點(diǎn)云間的特征學(xué)習(xí)。為了對(duì)點(diǎn)云的全局結(jié)構(gòu)信息進(jìn)行編碼,我們?cè)O(shè)計(jì)了一種 geometric structure embedding,將 superpoint 之間的距離和角度信息引入到 self-attention 的計(jì)算中,我們把它稱為 geometric self-attention:
這里 、 和 分別對(duì)應(yīng) attention 中的 query、key 和我們的 geometric structure embedding, 是特征維度。其中,geometric structure embedding 的計(jì)算如下圖所示,具體的計(jì)算請(qǐng)移步我們的 paper。
▲?geometric structure embedding
在得到 superpoint correspondences 之后,我們使用一個(gè) point matching module 來對(duì)兩個(gè) superpoint 對(duì)應(yīng)的 patch 中的點(diǎn)進(jìn)行匹配,從而得到 point correspondences。這里我們只使用了一個(gè) sinkhorn layer 來進(jìn)行匹配操作。
最后,我們?cè)O(shè)計(jì)了一種 local-to-global 的配準(zhǔn)方法(LGR)來計(jì)算最終的 transformation。具體來說,對(duì)于每一對(duì) superpoint correspondence,我們利用其內(nèi)部的 point correspondences 配合 weighted SVD 直接計(jì)算一個(gè) local transformation,再把所有的 local transformation 在全部 correspondences 上進(jìn)行投票,選擇一個(gè)最好的,進(jìn)行若干次的迭代優(yōu)化。這個(gè)過程避免了 RANSAC 上萬次的隨機(jī)采樣迭代過程,在我們的測(cè)試中實(shí)現(xiàn)了相對(duì)于 RANSAC 接近 100 倍的加速,并且實(shí)現(xiàn)了相近甚至更好的配準(zhǔn)精度。
Experiments
我們主要在 3DMatch、3DLoMatch 和 KITTI 上進(jìn)行了對(duì)比實(shí)驗(yàn)。首先 Tab. 1 可以看到,我們的方法在 inlier ratio 這個(gè)指標(biāo)上相對(duì)于之前的方法有非常明顯的提升,高質(zhì)量的 correspondences 保證了我們?cè)谂錅?zhǔn)時(shí)能夠獲得更好的精度。
▲?3DMatch/3DLoMatch, RANSAC-based
而在 Tab. 2 中,在不使用 RANSAC 或者 LGR,僅僅使用 weighted SVD 計(jì)算 transformation 的情況下,得益于我們的高質(zhì)量 correspondences,我們的方法能夠得到與 PREDATOR 相近的精度;而在使用 LGR 得情況下,GeoTransformer 則能夠?qū)崿F(xiàn)與 RANSAC 幾乎相互的配準(zhǔn)精度。
▲?3DMatch/3DLoMatch, RANSAC-free
最后,我們還對(duì)我們的 geometric self-attention 的 attention score 進(jìn)行了可視化,可以看到,即便是在 overlap 區(qū)域很小的情況下,對(duì)于匹配的super point/patch,我們的方法依然能夠?qū)W習(xí)到非常一致的 attention score,這也證明了我們的方法能夠有效的學(xué)習(xí)到兩個(gè)點(diǎn)云中的空間一致性信息,來幫助建立更好的 correspondences。?
▲?attention score
參考文獻(xiàn)
[1] Choy, C., Park, J., & Koltun, V. (2019). Fully convolutional geometric features. InProceedings of the IEEE/CVF International Conference on Computer Vision(pp. 8958-8966).
[2] Bai, X., Luo, Z., Zhou, L., Fu, H., Quan, L., & Tai, C. L. (2020). D3feat: Joint learning of dense detection and description of 3d local features. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 6359-6367).
[3] Huang, S., Gojcic, Z., Usvyatsov, M., Wieser, A., & Schindler, K. (2021). Predator: Registration of 3d point clouds with low overlap. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(pp. 4267-4276).
[4] Yu, H., Li, F., Saleh, M., Busam, B., & Ilic, S. (2021). CoFiNet: Reliable Coarse-to-fine Correspondences for Robust PointCloud Registration.Advances in Neural Information Processing Systems,34.
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的CVPR 2022 | GeoTransformer:基于Transformer的点云配准网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 买股票的技巧有哪些 要学会控制仓位
- 下一篇: 福布斯2021全球亿万富豪榜 疫情一年富