CVPR 2020最新热点:物体位姿估计
?PaperWeekly 原創(chuàng) ·?作者|文永明
學(xué)校|中山大學(xué)碩士生
研究方向|物體位姿估計、目標(biāo)檢測
目錄
G2L-Net:從全局到局部的 6D 位姿估計網(wǎng)絡(luò)
PVN3D:3D 關(guān)鍵點(diǎn)投票 6D 姿態(tài)估計網(wǎng)絡(luò)
基于可微分代理投票損失的 6D 姿態(tài)估計
G2L-Net
論文標(biāo)題:G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.11089
代碼鏈接:https://github.com/DC1991/G2L_Net
第一篇推薦的 CVPR 2020 論文來自伯明翰大學(xué)和國防科技大學(xué),提出了一種新的實時 6D 目標(biāo)姿態(tài)估計框架 G2L-Net,該網(wǎng)絡(luò)在 RGB-D 探測的點(diǎn)云上以分治的方式運(yùn)行,能節(jié)省時間,并且能達(dá)到 SOTA 的效果。這篇論文很好的是已經(jīng)把代碼開源放了出來。
該位姿估計模型框架流程可以分為以下三步:
第一步先從目標(biāo)物體的 RGB-D 圖像獲得粗糙的點(diǎn)云。
第二步把目標(biāo)物體的點(diǎn)云傳進(jìn)平移定位網(wǎng)絡(luò),進(jìn)一步進(jìn)行 3D 語義分割和估計目標(biāo)物體的平移。
第三步把經(jīng)過語義分割和平移后得到精細(xì)的點(diǎn)云轉(zhuǎn)換到局部標(biāo)準(zhǔn)坐標(biāo)系,用旋轉(zhuǎn)定位網(wǎng)絡(luò)來訓(xùn)練隊點(diǎn)向嵌入特征估計物體的旋轉(zhuǎn)。
▲ Fig 1. G2L-Net的框架示意圖
筆者認(rèn)為這篇文章特別之處在于兩點(diǎn),他們的點(diǎn)向嵌入特征充分利用了不同視角的信息從而提高了精度。之前大部分位姿估計模型包括 DenseFusion,它們的 refine 階段估計得位姿是異步的,也就是先訓(xùn)練好粗略旋轉(zhuǎn)的網(wǎng)絡(luò),進(jìn)一步再去訓(xùn)練細(xì)化這個旋轉(zhuǎn)。
而這篇論文另辟蹊徑在旋轉(zhuǎn)定位網(wǎng)絡(luò)中估計的粗略旋轉(zhuǎn)與旋轉(zhuǎn)殘差估計網(wǎng)絡(luò)估計的旋轉(zhuǎn)殘差同步輸出,從而節(jié)省了運(yùn)行時間。
▲ Fig 2. 不同視點(diǎn)(對于一個3D物體,需要至少四個四點(diǎn)來覆蓋)
充分利用不同視角信息的想法是來自他們發(fā)現(xiàn)在不同視角下全局特征是高度相關(guān)高度相似的,這限制了泛化性能,在實驗部分就可以表明,在相同大小規(guī)模的數(shù)據(jù)集中,使用點(diǎn)向嵌入特征,由于引入的視角信息,能提高泛化能力。
▲ Fig 3. (a)相同數(shù)據(jù)規(guī)模下,G2L-Net與Frustum-P的ADD-(s)指標(biāo)對比 ? ? (b)訓(xùn)練輪次的影響
其中的旋轉(zhuǎn)定位網(wǎng)絡(luò)由三個部分組成,如圖 4 所示,先訓(xùn)練 A 結(jié)構(gòu)的網(wǎng)絡(luò)來預(yù)測指向關(guān)鍵點(diǎn)的單位向量,再用 B 結(jié)構(gòu)來生成對于物體旋轉(zhuǎn)估計的點(diǎn)向嵌入向量,再用 C 結(jié)構(gòu)的網(wǎng)絡(luò)來訓(xùn)練旋轉(zhuǎn)殘差。
▲ Fig 4. 旋轉(zhuǎn)定位網(wǎng)絡(luò)的結(jié)構(gòu)
對于旋轉(zhuǎn)定位網(wǎng)絡(luò),論文指出我們可以定義如下的損失函數(shù):
其中 表示關(guān)鍵點(diǎn)的數(shù)量, 表示網(wǎng)絡(luò)參數(shù), 和 表示預(yù)測的向量和目標(biāo)真實值, 表示物體點(diǎn)云的標(biāo)準(zhǔn)坐標(biāo)空間, 則是點(diǎn)的數(shù)目。
最后來看看在 LINEMOD 數(shù)據(jù)集上的實驗效果:
▲ Fig 5. G2L-Net實驗效果
效果看起來真的很好了,ADD 指標(biāo)達(dá)到了 98.7,FPS 是 23 倒是可以接受。筆者準(zhǔn)備后續(xù)參考 github 公開的代碼實驗一番,看看到底是否真的能達(dá)到論文所說的這么好的效果來。
PVN3D
論文標(biāo)題:PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/1911.04231
代碼鏈接:https://github.com/ethnhe/PVN3D
這是一項港科大、深大還有曠視研究院合作的工作,將基于 2D 關(guān)鍵點(diǎn)的方法引入到 3D 位姿估計中,提出一種基于霍夫投票的 3D 關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò),利用了剛體的幾何約束,提高了 6D 姿態(tài)估計的精確度。這篇論文代碼也已經(jīng)開源啦,有興趣的同學(xué)可以去看看。
▲ Fig 6. PVN3D總框架
以 RGBD 圖像為輸入,使用特征提取模塊融合外觀特征和幾何信息。將學(xué)習(xí)到的特征輸入三維關(guān)鍵點(diǎn)檢測模塊 , 經(jīng)過訓(xùn)練可以預(yù)測每個點(diǎn)的偏移量。此外,還是用了實例語義分割模塊 預(yù)測每個點(diǎn)的語義標(biāo)簽,而中心投票模塊 預(yù)測每個點(diǎn)到對象中心的偏移量。
通過學(xué)習(xí)每個點(diǎn)的偏移量,使用聚類算法來區(qū)分具有相同語義標(biāo)簽的不同實例和相同實例上的點(diǎn)對目標(biāo)關(guān)鍵點(diǎn)進(jìn)行投票。最后,將最小二乘擬合算法應(yīng)用于預(yù)測關(guān)鍵點(diǎn),估計出 6 自由度的位姿參數(shù)。
投票的點(diǎn)由聚類算法進(jìn)行聚類以消除離群點(diǎn)的干擾,群集的中心點(diǎn)被選為投票選出的關(guān)鍵點(diǎn),預(yù)測每個點(diǎn)偏移量的損失函數(shù):
給定提取出的逐點(diǎn)特征,語義分割模塊 預(yù)測每點(diǎn)的語義標(biāo)簽,論文使用了 Focal loss:
而中心點(diǎn)投票模塊 投票出不同物體的中心點(diǎn),以區(qū)分相同語義的不同實例,論文中使用了 L1 損失函數(shù)進(jìn)行監(jiān)督學(xué)習(xí):
最終的多任務(wù)損失函數(shù)為:
對于關(guān)鍵點(diǎn)的選擇訓(xùn)練實現(xiàn),將最小二乘擬合算法應(yīng)用于預(yù)測關(guān)鍵點(diǎn):
同樣,我們看一下在 LINEMOD 數(shù)據(jù)集上的實驗效果,ADD(S) 指標(biāo)是 95.1:
▲ Fig 7. PVN3D實驗效果
YCB-Video 數(shù)據(jù)集的定性實驗效果圖:
▲ Fig 8. PVN3D定性實驗(YCB-Video)
可以看到是比 DenseFusion 的效果稍好,DenseFusion 右邊有個鉗子都反了,而 PVN3D 沒有,不過是部分定性實驗的效果,未知全貌了。
DPVL
論文標(biāo)題:6DoF Object Pose Estimation via Differentiable Proxy Voting Loss
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2002.03923
這是一項來自澳大利亞國立大學(xué)的工作,可謂是“小題大做”型的論文了,論文考慮的角度是,基于向量場的關(guān)鍵點(diǎn)投票已經(jīng)證明了它在解決 6D 位姿估計問題上的有效性和優(yōu)越性。
然而,向量場的直接回歸忽略了像素點(diǎn)與關(guān)鍵點(diǎn)之間的距離對假設(shè)偏差的影響。換句話說,當(dāng)像素遠(yuǎn)離關(guān)鍵點(diǎn)時,方向向量上的小誤差可能會對預(yù)估的關(guān)鍵點(diǎn)產(chǎn)生嚴(yán)重偏差。直觀點(diǎn)就是如圖 9 所示:
▲ Fig 9. DPVL
相同的角度,當(dāng)距離越遠(yuǎn)時,預(yù)估的關(guān)鍵點(diǎn)會和實際的關(guān)鍵點(diǎn)產(chǎn)生更大的距離偏差。為了解決這種忽略了像素點(diǎn)與關(guān)鍵點(diǎn)之間的距離對假設(shè)偏差的影響,他們提出了一種可微分的代理投票損失。
▲?Fig 10. DPVL總框架
論文作者使用了 smooth L1 損失來回歸真實的方向向量:
其中, 表示估計的方向向量, 表示物體的掩碼, 表示知識函數(shù), 表示標(biāo)量變量。
如前所述,單位方向向量估計誤差較小,也可能會導(dǎo)致假設(shè)偏差較大,假設(shè)點(diǎn)不集中會導(dǎo)致關(guān)鍵點(diǎn)不準(zhǔn)確,從而降低姿態(tài)估計的性能。與以前的工作不同,考慮了假設(shè)點(diǎn)的分布,并強(qiáng)制所有的假設(shè)點(diǎn)接近于真實關(guān)鍵點(diǎn)。假設(shè)一個對象包含 個像素,則有??個假設(shè)。
雖然對于從兩個像素點(diǎn)獲得兩個方向向量的假設(shè)有一個封閉的解,但是計算所有的假設(shè)會導(dǎo)致深度網(wǎng)絡(luò)的訓(xùn)練效率低下,特別是當(dāng)一個物體的分辨率非常大的時候,由于決定一個關(guān)鍵點(diǎn)到直線上某個點(diǎn)的距離是沒有上界的,而是有下界的。
所以選擇使用通過一個關(guān)鍵點(diǎn)的垂線的垂足來近似代理假設(shè)點(diǎn)。這樣,我們只需要計算 個垂線,而不是 個假設(shè),大大減少了計算量。
更重要的是,一個關(guān)鍵點(diǎn) 與垂足 與像素 的方向向量 之間的距離是一個閉合形式的解,也是可微的。因此,將距離最小化作為可微分的代理投票損失(DPVL) ,以迫使代理假設(shè)點(diǎn)更接近于關(guān)鍵點(diǎn):
其中 ,由于 是直接從我們的網(wǎng)絡(luò)中估計出來的,它可能不是單位向量,所以在這里面中有一個歸一化操作。
在 LINEMOD 數(shù)據(jù)集上的實驗效果,ADD(S) 指標(biāo)是 91.50:
效果上在這三篇里面是最低的了,但是貴在文章的可微分的公式推理上有可取之處,定性效果如下:
對比原來向量場的直接回歸的方法 PVNet 來說,是有所改進(jìn)的。
總結(jié)
毫無疑問,對于視覺領(lǐng)域來說,越來越多跡象顯示未來的研究熱點(diǎn)要么在時間維度上,比如視頻的處理和理解。另外一個就是在空間維度上做文章,如三維視覺(三維感知、SLAM、三維物體識別與分割、位姿估計),這里面 6 自由度的物體位姿估計的論文應(yīng)該會越來越多,也會越做越好。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
CVPR 2020 | 商湯TSD目標(biāo)檢測算法解讀
CVPR 2020 | 無域標(biāo)簽下高清場景時移變換
從近年CVPR看域自適應(yīng)立體匹配
CVPR 2020 三篇有趣的論文解讀
CVPR 2020 | 港中文提出3D目標(biāo)檢測新框架
多目標(biāo)跟蹤領(lǐng)域近期值得讀的幾篇論文
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2020最新热点:物体位姿估计的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 建行三个能力建设指什么
- 下一篇: Google新作Synthesizer: