當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CVPR 2020最新热点：物体位姿估计

發(fā)布時間：2024/10/8 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了 CVPR 2020最新热点：物体位姿估计小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?PaperWeekly 原創(chuàng) ·?作者｜文永明

學(xué)校｜中山大學(xué)碩士生

研究方向｜物體位姿估計、目標(biāo)檢測

第一篇推薦的 CVPR 2020 論文來自伯明翰大學(xué)和國防科技大學(xué)，提出了一種新的實時 6D 目標(biāo)姿態(tài)估計框架 G2L-Net，該網(wǎng)絡(luò)在 RGB-D 探測的點(diǎn)云上以分治的方式運(yùn)行，能節(jié)省時間，并且能達(dá)到 SOTA 的效果。這篇論文很好的是已經(jīng)把代碼開源放了出來。

該位姿估計模型框架流程可以分為以下三步：

第一步先從目標(biāo)物體的 RGB-D 圖像獲得粗糙的點(diǎn)云。

第二步把目標(biāo)物體的點(diǎn)云傳進(jìn)平移定位網(wǎng)絡(luò)，進(jìn)一步進(jìn)行 3D 語義分割和估計目標(biāo)物體的平移。

第三步把經(jīng)過語義分割和平移后得到精細(xì)的點(diǎn)云轉(zhuǎn)換到局部標(biāo)準(zhǔn)坐標(biāo)系，用旋轉(zhuǎn)定位網(wǎng)絡(luò)來訓(xùn)練隊點(diǎn)向嵌入特征估計物體的旋轉(zhuǎn)。

▲ Fig 1. G2L-Net的框架示意圖

筆者認(rèn)為這篇文章特別之處在于兩點(diǎn)，他們的點(diǎn)向嵌入特征充分利用了不同視角的信息從而提高了精度。之前大部分位姿估計模型包括 DenseFusion，它們的 refine 階段估計得位姿是異步的，也就是先訓(xùn)練好粗略旋轉(zhuǎn)的網(wǎng)絡(luò)，進(jìn)一步再去訓(xùn)練細(xì)化這個旋轉(zhuǎn)。

而這篇論文另辟蹊徑在旋轉(zhuǎn)定位網(wǎng)絡(luò)中估計的粗略旋轉(zhuǎn)與旋轉(zhuǎn)殘差估計網(wǎng)絡(luò)估計的旋轉(zhuǎn)殘差同步輸出，從而節(jié)省了運(yùn)行時間。

▲ Fig 2. 不同視點(diǎn)（對于一個3D物體，需要至少四個四點(diǎn)來覆蓋）

充分利用不同視角信息的想法是來自他們發(fā)現(xiàn)在不同視角下全局特征是高度相關(guān)高度相似的，這限制了泛化性能，在實驗部分就可以表明，在相同大小規(guī)模的數(shù)據(jù)集中，使用點(diǎn)向嵌入特征，由于引入的視角信息，能提高泛化能力。

▲ Fig 3. (a)相同數(shù)據(jù)規(guī)模下，G2L-Net與Frustum-P的ADD-(s)指標(biāo)對比 ? ? (b)訓(xùn)練輪次的影響

其中的旋轉(zhuǎn)定位網(wǎng)絡(luò)由三個部分組成，如圖 4 所示，先訓(xùn)練 A 結(jié)構(gòu)的網(wǎng)絡(luò)來預(yù)測指向關(guān)鍵點(diǎn)的單位向量，再用 B 結(jié)構(gòu)來生成對于物體旋轉(zhuǎn)估計的點(diǎn)向嵌入向量，再用 C 結(jié)構(gòu)的網(wǎng)絡(luò)來訓(xùn)練旋轉(zhuǎn)殘差。

▲ Fig 4. 旋轉(zhuǎn)定位網(wǎng)絡(luò)的結(jié)構(gòu)

對于旋轉(zhuǎn)定位網(wǎng)絡(luò)，論文指出我們可以定義如下的損失函數(shù)：

其中表示關(guān)鍵點(diǎn)的數(shù)量，表示網(wǎng)絡(luò)參數(shù)，和表示預(yù)測的向量和目標(biāo)真實值，表示物體點(diǎn)云的標(biāo)準(zhǔn)坐標(biāo)空間，則是點(diǎn)的數(shù)目。

最后來看看在 LINEMOD 數(shù)據(jù)集上的實驗效果：

▲ Fig 5. G2L-Net實驗效果

效果看起來真的很好了，ADD 指標(biāo)達(dá)到了 98.7，FPS 是 23 倒是可以接受。筆者準(zhǔn)備后續(xù)參考 github 公開的代碼實驗一番，看看到底是否真的能達(dá)到論文所說的這么好的效果來。

PVN3D

論文標(biāo)題：PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation

論文來源：CVPR 2020

論文鏈接：https://arxiv.org/abs/1911.04231

代碼鏈接：https://github.com/ethnhe/PVN3D

這是一項港科大、深大還有曠視研究院合作的工作，將基于 2D 關(guān)鍵點(diǎn)的方法引入到 3D 位姿估計中，提出一種基于霍夫投票的 3D 關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)，利用了剛體的幾何約束，提高了 6D 姿態(tài)估計的精確度。這篇論文代碼也已經(jīng)開源啦，有興趣的同學(xué)可以去看看。

▲ Fig 6. PVN3D總框架

以 RGBD 圖像為輸入，使用特征提取模塊融合外觀特征和幾何信息。將學(xué)習(xí)到的特征輸入三維關(guān)鍵點(diǎn)檢測模塊，經(jīng)過訓(xùn)練可以預(yù)測每個點(diǎn)的偏移量。此外，還是用了實例語義分割模塊預(yù)測每個點(diǎn)的語義標(biāo)簽，而中心投票模塊預(yù)測每個點(diǎn)到對象中心的偏移量。

通過學(xué)習(xí)每個點(diǎn)的偏移量，使用聚類算法來區(qū)分具有相同語義標(biāo)簽的不同實例和相同實例上的點(diǎn)對目標(biāo)關(guān)鍵點(diǎn)進(jìn)行投票。最后，將最小二乘擬合算法應(yīng)用于預(yù)測關(guān)鍵點(diǎn)，估計出 6 自由度的位姿參數(shù)。

投票的點(diǎn)由聚類算法進(jìn)行聚類以消除離群點(diǎn)的干擾，群集的中心點(diǎn)被選為投票選出的關(guān)鍵點(diǎn)，預(yù)測每個點(diǎn)偏移量的損失函數(shù)：

給定提取出的逐點(diǎn)特征，語義分割模塊預(yù)測每點(diǎn)的語義標(biāo)簽，論文使用了 Focal loss：

而中心點(diǎn)投票模塊投票出不同物體的中心點(diǎn)，以區(qū)分相同語義的不同實例，論文中使用了 L1 損失函數(shù)進(jìn)行監(jiān)督學(xué)習(xí)：

最終的多任務(wù)損失函數(shù)為：

對于關(guān)鍵點(diǎn)的選擇訓(xùn)練實現(xiàn)，將最小二乘擬合算法應(yīng)用于預(yù)測關(guān)鍵點(diǎn)：

同樣，我們看一下在 LINEMOD 數(shù)據(jù)集上的實驗效果，ADD(S) 指標(biāo)是 95.1：

▲ Fig 7. PVN3D實驗效果

YCB-Video 數(shù)據(jù)集的定性實驗效果圖：

▲ Fig 8. PVN3D定性實驗（YCB-Video）

可以看到是比 DenseFusion 的效果稍好，DenseFusion 右邊有個鉗子都反了，而 PVN3D 沒有，不過是部分定性實驗的效果，未知全貌了。

DPVL

論文標(biāo)題：6DoF Object Pose Estimation via Differentiable Proxy Voting Loss

論文來源：CVPR 2020

論文鏈接：https://arxiv.org/abs/2002.03923

這是一項來自澳大利亞國立大學(xué)的工作，可謂是“小題大做”型的論文了，論文考慮的角度是，基于向量場的關(guān)鍵點(diǎn)投票已經(jīng)證明了它在解決 6D 位姿估計問題上的有效性和優(yōu)越性。

然而，向量場的直接回歸忽略了像素點(diǎn)與關(guān)鍵點(diǎn)之間的距離對假設(shè)偏差的影響。換句話說，當(dāng)像素遠(yuǎn)離關(guān)鍵點(diǎn)時，方向向量上的小誤差可能會對預(yù)估的關(guān)鍵點(diǎn)產(chǎn)生嚴(yán)重偏差。直觀點(diǎn)就是如圖 9 所示：

▲ Fig 9. DPVL

相同的角度，當(dāng)距離越遠(yuǎn)時，預(yù)估的關(guān)鍵點(diǎn)會和實際的關(guān)鍵點(diǎn)產(chǎn)生更大的距離偏差。為了解決這種忽略了像素點(diǎn)與關(guān)鍵點(diǎn)之間的距離對假設(shè)偏差的影響，他們提出了一種可微分的代理投票損失。

▲?Fig 10. DPVL總框架

論文作者使用了 smooth L1 損失來回歸真實的方向向量：

其中，表示估計的方向向量，表示物體的掩碼，表示知識函數(shù)，表示標(biāo)量變量。

如前所述，單位方向向量估計誤差較小，也可能會導(dǎo)致假設(shè)偏差較大，假設(shè)點(diǎn)不集中會導(dǎo)致關(guān)鍵點(diǎn)不準(zhǔn)確，從而降低姿態(tài)估計的性能。與以前的工作不同，考慮了假設(shè)點(diǎn)的分布，并強(qiáng)制所有的假設(shè)點(diǎn)接近于真實關(guān)鍵點(diǎn)。假設(shè)一個對象包含個像素，則有??個假設(shè)。

雖然對于從兩個像素點(diǎn)獲得兩個方向向量的假設(shè)有一個封閉的解，但是計算所有的假設(shè)會導(dǎo)致深度網(wǎng)絡(luò)的訓(xùn)練效率低下，特別是當(dāng)一個物體的分辨率非常大的時候，由于決定一個關(guān)鍵點(diǎn)到直線上某個點(diǎn)的距離是沒有上界的，而是有下界的。

所以選擇使用通過一個關(guān)鍵點(diǎn)的垂線的垂足來近似代理假設(shè)點(diǎn)。這樣，我們只需要計算個垂線，而不是個假設(shè)，大大減少了計算量。

更重要的是，一個關(guān)鍵點(diǎn) 與垂足 與像素 的方向向量 之間的距離是一個閉合形式的解，也是可微的。因此，將距離最小化作為可微分的代理投票損失（DPVL） ，以迫使代理假設(shè)點(diǎn)更接近于關(guān)鍵點(diǎn)：

其中，由于是直接從我們的網(wǎng)絡(luò)中估計出來的，它可能不是單位向量，所以在這里面中有一個歸一化操作。

在 LINEMOD 數(shù)據(jù)集上的實驗效果，ADD(S) 指標(biāo)是 91.50：

效果上在這三篇里面是最低的了，但是貴在文章的可微分的公式推理上有可取之處，定性效果如下：

對比原來向量場的直接回歸的方法 PVNet 來說，是有所改進(jìn)的。

總結(jié)

毫無疑問，對于視覺領(lǐng)域來說，越來越多跡象顯示未來的研究熱點(diǎn)要么在時間維度上，比如視頻的處理和理解。另外一個就是在空間維度上做文章，如三維視覺（三維感知、SLAM、三維物體識別與分割、位姿估計），這里面 6 自由度的物體位姿估計的論文應(yīng)該會越來越多，也會越做越好。

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

CVPR 2020 | 商湯TSD目標(biāo)檢測算法解讀
CVPR 2020 | 無域標(biāo)簽下高清場景時移變換
從近年CVPR看域自適應(yīng)立體匹配
CVPR 2020 三篇有趣的論文解讀
CVPR 2020 | 港中文提出3D目標(biāo)檢測新框架
多目標(biāo)跟蹤領(lǐng)域近期值得讀的幾篇論文

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識的人。

總有一些你不認(rèn)識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個人原創(chuàng)作品，來稿需注明作者個人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨(dú)在附件中發(fā)送?

? 請留下即時聯(lián)系方式（微信或手機(jī)），以便我們在編輯發(fā)布時和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的CVPR 2020最新热点：物体位姿估计的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：建行三个能力建设指什么
下一篇： Google新作Synthesizer：

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔

生活随笔

编程问答

CVPR 2020最新热点：物体位姿估计

目錄

總結(jié)