CosyPose: Consistent multi-view multi-object 6D pose estimation
CosyPose: Consistent multi-view multi-object 6D pose estimation
摘要
我們介紹一種用于恢復場景中多個已知對象的6D姿勢的方法,該場景由一組具有未知相機視點的輸入圖像捕獲。首先,我們提出一種單視圖單對象6D姿勢估計方法,該方法用于生成6D對象姿勢假設。其次,我們開發了一種魯棒的方法來匹配不同輸入圖像上的單個6D對象姿勢假設,以便共同估算單個一致場景中所有對象的相機視點和6D姿勢。我們的方法顯式處理對象對稱性,不需要深度測量,對丟失或不正確的對象假設具有魯棒性,并自動恢復場景中的對象數量。第三,我們針對給定多個對象假設及其在視圖之間的對應關系,開發了一種用于全局場景優化的方法。這是通過解決對象級別的束調整問題來實現的,該問題可以細化攝像機和對象的姿勢,以使所有視圖中的重投影誤差最小。我們證明了被稱為CosyPose的擬議方法在兩個具有挑戰性的基準上大大優于當前的單視圖和多視圖6D對象姿態估計的最新結果:YCB-Video和T-LESS數據集。項目頁面上提供了代碼和預訓練模型。
1簡介
這項工作的目標是估算由多個位置未知的攝像機捕獲的3D場景中多個已知對象的準確6D姿勢,如圖1所示。這是一個具有挑戰性的問題,因為紋理-許多對象的性質較少,存在多個相似對象,場景中對象的數量和類型未知以及相機的位置未知。然而,解決該問題將在機器人技術中具有重要的應用,其中場景中對象的準確位置和方向的知識將允許機器人計劃,導航和與環境交互。
物體姿態估計是最古老的計算機視覺問題之一[1-3],但它仍然是一個活躍的研究領域[4-11]。在RGB(無深度)圖像上操作的最佳方法[7,8,10-12]是基于可訓練卷積神經網絡的,并且能夠處理對稱或無紋理對象,這對于依賴局部[3,13-16]或全局[17]基于梯度的圖像特征的早期方法是具有挑戰性的。然而,這些作品中的大多數都是獨立考慮對象,并使用單一輸入(RGB)圖像來估計它們的姿勢。然而,在實踐中,場景由許多對象組成,并且場景的多個圖像通常是可用的,例如通過單個移動攝像機或在多攝像機設置中獲得。在這項工作中,我們解決了這些限制,并開發了一種方法,該方法結合來自多個視圖的信息,并聯合估計多個對象的姿勢,以獲得單個一致的場景解釋。
雖然從多個視圖聯合估計多個對象的姿勢的想法可能看起來很簡單,但需要解決以下挑戰。首先,當攝像機之間的相對變換未知時,在單個圖像中做出的物體姿態假設不容易在公共參考系中表達。在實際場景中,由于場景缺乏紋理或基線較大,使用局部特征配準不能很容易地恢復攝像機校準,這種情況經常出現。第二,單視圖6D物體姿態假設存在誤報和漏檢的嚴重錯誤。第三,從輸入圖像估計的候選6D對象姿態是有噪聲的,因為它們受到單視圖方法固有的深度模糊的影響。
在這項工作中,我們描述了一種解決這些挑戰的方法。我們從6D對象姿勢假設開始,我們使用一種受DeepIM啟發的新的渲染-比較方法從每個視圖估計這些假設[10]。首先,我們在不同的視角下匹配各個對象的姿態假設,并使用得到的對象級別的對應關系來恢復攝像機之間的相對位置。其次,采用基于RANSAC的穩健目標級匹配方法,解決了目標檢測中的粗差問題,優化了整體場景一致性。第三,使用基于對象級束調整的全局精化過程顯著改善了噪聲單視對象姿勢。我們的方法優化了多視圖一致性,因此被稱為CosyPose,其結果是輸入場景的單個一致性重建。我們的SingleView單對象姿態估計方法在YCB-Video[18]和T-less[19]數據集上獲得了最先進的結果,在T-less上獲得了比最先進的[7]顯著的34.2%的絕對改進。我們的多視角框架在YCB-Video上的表現明顯優于[20],同時不需要已知的攝像機姿勢,也不限于每個場景中每個類別的單個對象。在這兩個數據集上,我們顯示我們的多視角解決方案在單視角基線上顯著提高了姿態估計和6D檢測精度。
2 Related work
我們的工作建立在基于RGB圖像和對象級SLAM的單視圖和多視圖物體6D姿態估計結果的基礎上。
單視圖單對象6D位姿估計。
物體姿態估計問題[15,16]已經通過使用局部不變特征[3,13]從2D-3D對應關系估計物體姿態,或者通過使用模板匹配直接估計物體姿態[14]來實現。但是,局部特征不適用于紋理較少的對象,并且全局模板通常無法檢測到部分遮擋的對象。這兩種方法(基于特征和模板匹配)都使用深度神經網絡進行了重新研究。卷積神經網絡(CNN)可用于檢測2D[4,6,18,21,22]中的對象特征或直接找到2D到3D的對應關系[5,7,8,23]。深度方法也被用來匹配隱式姿勢特征,這可以在不需要地面真實姿勢注釋的情況下學習[12]。可以使用有效地在對象周圍移動相機以使對象的渲染圖像與輸入圖像最佳匹配的迭代過程來進一步細化對象的估計的6D姿勢[4,10]。這樣的改進步驟提供了重要的性能改進,并且正在成為評估過程的最后階段的常見實踐[8,11]。我們在第3.2節中描述的單視圖單對象姿態估計建立在DeepIM[10]的基礎上。使用深度傳感器[10,11,18]可以進一步提高6D位姿估計的性能,但在這項工作中,我們關注的是最具挑戰性的場景,即只有RGB圖像可用。
多視圖單目標六維位姿估計。
可以使用對象的多個視圖來解決深度模糊問題,并獲得有關遮擋的穩健性。以前使用局部不變特征的工作包括[15,16,24,25],并且涉及某種形式的特征匹配,以建立跨視圖的對應關系,從而聚集來自多個視點的信息。最近,利用深度神經網絡重新討論了多視圖單對象姿勢估計問題,該深度神經網絡預測每個視圖[20]中的對象姿勢候選,并在假定相機姿勢已知的情況下從多個視圖聚集信息。相反,我們的工作并不假設攝像機的姿勢是已知的。我們通過實驗證明,盡管我們需要的信息更少,但是我們的方法要優于[20]。
多視點多對象6D姿態估計。
其他作品將場景中的所有對象放在一起考慮,以便以對象和攝像機姿勢在公共坐標系中的緊湊表示形式聯合估計場景的狀態。這個問題被稱為對象級SLAM[26],其中基于深度的對象姿態估計方法[27]被用來從單個圖像中的數據庫中識別對象并估計它們的姿態。假設傳感器的運動是連續的,則使用深度測量跨幀跟蹤各個對象。連續的深度測量還可以使用ICP[28]生成相機姿勢的假設,并在聯合優化過程中最終細化對象和相機的姿勢。另一種方法[29]使用局部RGBD面片來生成對象假設并找到場景的最佳視角。然而,所有這些方法都強烈依賴深度傳感器來估計場景的3D結構,而我們的方法只利用RGB圖像。此外,它們假定視圖之間的時間連續性,這也不是我們的方法所要求的。
其他工作認為單目RGB僅限于目標級SLAM[30-32]。相關的還有[33],其中跨多個視圖和局部特征的語義2D關鍵點對應被用來聯合估計單個人的姿勢和觀察攝像機的位置。所有這些工作都依賴于局部圖像特征來估計相機姿勢。相反,我們的工作利用了神經網絡生成的6D姿勢假設,該假設允許在基于特征的配準失敗的情況下恢復相機姿勢,例如,對于T-less數據集的復雜的無紋理圖像就是這種情況。此外,[31,32]不考慮對象的全6D姿勢,[20,33]只考慮每個對象的單個實例的場景。相比之下,我們的方法能夠處理具有同一對象的多個實例的場景。
3 多視點多目標6維姿態估計
在這一部分中,我們提出了我們的多視點多目標姿態估計框架。我們首先概述一下該方法(SEC.。3.1和圖2),然后在其余部分詳細說明該方法的三個主要步驟。
3.1方法概述
我們的目標是在給定一組RGB圖像的情況下重建由多個對象組成的場景。我們假設我們知道感興趣對象的3D模型。但是,場景中可以有多個相同類型的對象,并且沒有關于場景中對象的數量或類型的信息。此外,在某些視圖中可能看不到對象,攝影機之間的相對姿勢也是未知的。我們的輸出是一個場景模型,其中包括每種類型的對象的數量、它們的6D姿勢以及攝像機的相對姿勢。我們的方法由三個主要階段組成,如圖2所示。
圖2:多視角多目標6D姿態估計。在第一階段,我們分別獲得每個視圖中的初始候選對象。在第二階段,我們將這些候選對象在不同的視圖上進行匹配,以恢復單個一致的場景。在第三階段,我們對所有物體和攝像機姿態進行全局細化,以最小化多視點重投影誤差。
在第一階段,我們在單視RGB目標檢測和6D姿態估計的最新方法的成功基礎上進行了改進。給定一組具有已知3D模型的對象和場景的單個圖像,我們為每個對象輸出一組候選檢測,并且對于每個檢測,輸出對象相對于與該圖像相關聯的相機的6D姿勢。請注意,這些檢測和姿勢有些是錯誤的,有些是丟失的。因此,我們認為在該階段中獲得的姿勢是一組初始對象候選,即,可以在給定視圖中看到的對象以及它們相對于該視圖的姿勢的估計。此對象候選生成過程在小節中介紹。3.2.。
第二階段稱為對象候選匹配,在小節中有詳細介紹。3.3中,我們對多個視圖中可見的對象進行匹配,以獲得單個一致的場景。這是一個困難的問題,因為來自第一階段的候選對象通常包括許多錯誤,這是由于(I)可能被誤識別或姿勢估計可能完全錯誤的嚴重遮擋對象;(Ii)相似對象之間的混淆;以及(Iii)未出現在訓練集中且未被正確檢測到的不尋常姿勢。為了應對這些挑戰,我們從運動結構(SFM)文獻[34,35]中使用的穩健補丁匹配策略中獲得靈感。特別是,我們設計了一種在精神上類似于[36]的匹配策略,但是我們在不同視圖之間匹配整個3D對象以獲得單個一致的3D場景,而不是匹配單個3D對象上的局部2D補丁[36]。
我們方法的最后階段(在第3.4節中介紹)是全局場景優化。我們從捆綁調整[37]中獲得靈感,但優化是在對象級別執行的:所有對象和相機的6D姿勢都被細化,以最大限度地減少全局重新投影誤差。
3.2階段1:對象候選生成
我們的系統采用場景{ia}的多張照片和一組3D模型作為輸入,每個照片與對象標簽l相關聯。我們假設與圖像ia相關聯的相機Caa的固有參數是已知的,這通常是單視圖姿勢估計方法中的情況。在每個視圖Ia中,我們使用對象檢測器(例如,FasterRCNN[38],RetinaNet[39])獲得一組對象檢測,并且使用單視圖單對象姿勢估計器(例如,PoseCNN[18],DPOD[8],DeepIM[10])獲得一組候選姿勢估計。雖然我們的方法與使用的特定方法無關,但我們在DeepIM[10]的啟發下開發了我們自己的單視圖單對象姿態估計器,它比現有技術有了很大改進,我們將在下一段描述這一點。視圖中的每個2D候選檢測由索引α標識,并且對應于對象候選Oa、α,該對象候選與預測的對象標簽La、α和相對于相機Ca的6D姿勢估計TCaOa、α相關聯。我們將6D姿態T∈SE(3)建模為由3D旋轉矩陣和3D平移向量組成的4×4均勻矩陣。
單視圖六維位姿估計。
本文介紹了一種基于DeepIM[10]思想的單視六維物體姿態估計方法,并對其進行了一些簡化和技術改進。首先,我們使用基于EfficientNet-B3[40]的較新的神經網絡結構,并且在訓練時不包括輔助信號。其次,我們利用了最近在[41]中引入的旋轉參數化,它已經被證明比四元數更穩定地產生CNN訓練。第三,我們在[42]之后的損失中分離深度和平移預測,并像在[9]中那樣顯式地處理對稱性,而不是使用點匹配損失。第四,我們不是像[10]中那樣在訓練過程中將焦距固定為1,而是使用與裁剪后的圖像相當的相機焦距。第五,除了兩個數據集提供的真實訓練圖像外,我們還使用為T-less提供的CAD模型和為YCB-Video提供的重建模型為每個數據集繪制了一百萬幅圖像。CNN首先只使用合成數據進行預訓練,然后在真實圖像和合成圖像上進行微調。最后,我們在訓練模型的同時對RGB圖像進行了數據增強,這已經被證明是在T-less上獲得良好性能的關鍵[12]。我們還注意到,這種方法只需在訓練和測試過程中提供一個規范姿態作為輸入姿態估計,就可以用于粗略估計。我們在距攝像機1米處渲染物體,并使用這種方法對T-less進行粗略估計。附錄中提供了更多詳細信息。
對象對稱性。
處理對象的對稱性是對象姿態估計的主要挑戰,因為對象的姿態只能估計到對稱。對于我們的對象候選姿勢估計,這一點尤其正確。因此,我們需要明確地考慮對稱性和姿態估計。每個3D模型l與一組對稱S(L)相關聯。遵循[43]中介紹的框架,我們將對稱集S(L)定義為保持對象l的外觀不變的變換集S:
其中R(l,X)是在姿勢X中捕獲的對象l的渲染圖像,S是與對稱關聯的剛體運動。請注意,對于具有對稱軸的對象(例如碗),S(L)是無窮大的。
在給定3D對象l的一組對稱性S(L)的情況下,我們定義了對稱距離DL,它度量由變換T1和T2表示的兩個6D姿勢之間的距離。給定與|XL|3D點x∈XL的集合XL相關聯的對象l,我們定義:
DL(T1,T2)測量通過T1和T2變換的點之間的平均誤差,以使對稱S最好地對齊(變換的)點。在實踐中,為了計算具有對稱軸的對象的這一距離,我們圍繞每個對稱軸使用64個旋轉角對S(L)進行離散化,類似于[9]。
3.3.階段2:對象候選匹配
如圖2所示,給定所有視圖的對象候選對象{Oa,α},我們的匹配模塊的目標是(I)移除不同視圖之間不一致的對象候選對象,以及(Ii)匹配對應于同一物理對象的對象候選對象。我們通過以下兩個步驟來解決這個問題:(A)選擇所有視點對中的候選對象對;(B)場景級匹配。
A.2-視圖候選對選擇。
我們首先關注場景的單個視圖對(Ia,Ib),并找到所有對象候選對(Oa,α,Ob,β),每個視圖中一個對象對對應于這兩個視圖中的同一物理對象。為此,我們使用RANSAC程序,其中我們假設兩個相機之間的相對姿勢,并計算內插點的數量,即兩個視圖中一致的候選對象對的數量。然后,我們選擇具有最多內置值的解決方案,這給出了兩個視圖中的候選對象之間的關聯。在這一節的其余部分,我們將更詳細地描述如何對相對相機姿勢進行采樣,以及如何定義內嵌候選對。
相對相機姿勢的采樣。
采樣有意義的相機姿勢是我們方法面臨的主要挑戰之一。事實上,直接隨機采樣可能的相機姿勢的空間將是低效的。取而代之的是,像在RANSAC中一樣,我們在兩個視圖中采樣候選對象對(與相同的對象標簽相關聯),假設它們對應于相同的物理對象,并使用它們來推斷相對相機姿勢假設。然而,由于對象可以具有對稱性,單個候選對象對不足以獲得沒有歧義的相對姿勢假設,因此我們采樣了兩對對象候選對象,這在大多數情況下足以消除對稱性的歧義。
具體地,我們對兩個具有成對一致性標簽的候選對象對(Oa,α,Ob,β)和(Oa,γ,Ob,δ)進行了采樣,并利用它們構建了一個相對相機姿勢假設TCaCb。我們通過(I)假設(Oa,α,Ob,β)對應于相同的物理對象,以及(Ii)通過假設(Oa,γ,Ob,δ)也對應于相同的物理對象來消除對稱性的歧義,從而選擇使它們的對稱距離最小的對稱,從而獲得相對相機姿勢假設
其中l=la,α=lb,β是與第一對對象關聯的對象標簽,S是與第二對對象(Oa,γ和Ob,δ)關聯的點云最佳對齊的對象對稱。如果兩個物理對象的并集是對稱的,例如兩個球體,則計算出的姿勢可能不正確,但不會被第三對對象驗證,并且該假設將被丟棄。
計算成對的Inlier候選者。
讓我們假設相機TCaCb之間有一個相對姿勢假設。對于第一視圖中的每個對象候選Oa,α,我們在第二視圖Ob,β中找到具有相同標簽l=1a,α=lb,β的對象候選,其最小化對稱距離DL(TCaOa,α,TCaCbTCbOb,β)。換句話說,在相機之間假設的相對姿勢下,Ob,β是第二視圖中最接近Oa,α的候選對象。如果關聯的對稱距離小于給定的閾值C,則這對(Oa,α,Ob,β)被認為是內插器。內插器的總數被用來對相對相機姿勢TCaCb進行評分。請注意,我們放棄了內嵌器少于3個的假設。
B.場景級匹配。
我們使用應用于每個圖像對的兩視圖候選對選擇的結果來定義所有候選對象之間的圖形。每個頂點對應于一個視圖中的一個候選對象,而邊對應于從兩視圖候選對選擇中選擇的對,即具有足夠內嵌支持的對。我們首先刪除孤立的頂點,這些頂點對應于尚未由其他視圖驗證的候選對象。然后,我們將唯一的物理對象與圖中的每個連接組件相關聯,該物理對象對應于來自不同視圖的一組初始候選對象。我們稱這些物理對象為P1,……PN,其中N是物理對象的總數,即圖中連通分量的數量。我們寫(a,α)∈Pn)表示對象候選Oa,α在對象Pn的連通分量中的事實。由于連接組件中的所有對象共享相同的對象標簽(否則它們不可能被連接),所以我們可以無歧義地將對象標簽ln關聯到每個物理對象Pn。
3.4階段3:場景細化
經過前一階段,知道了各個圖像中候選目標之間的對應關系,去除了不一致的候選目標。最后一個階段的目標是通過對物體和攝像機姿勢進行全局聯合細化來恢復唯一和一致的場景模型。
詳細地說,此階段的目標是估計由變換TP1表示的物理對象PN的姿勢。。。、TPN和攝影機CV,由變換TC1、.。。。,TCV,在一個共同的世界坐標框架中。這類似于標準的捆綁調整問題,其目標是恢復場景的3D點以及相機姿勢。這通常是通過最小化重建損失來解決的,該重建損失測量3D點的投影與它們在相機中的測量之間的2D差異。在我們的例子中,我們引入了在對象級別操作的重建損失,而不是像在捆綁平差設置中那樣在點級別進行操作。
更正式地說,對于場景中出現的每個對象,我們引入一個考慮了對稱性的對象候選重新投影損失。我們定義與物理對象PN相關聯的候選對象Oa、α(即,(a,α)∈Pn))的損失以及相對于CAA的估計候選對象姿勢TCaOa、α:
其中||·||是截斷的L2損失,l=ln是物理對象Pn的標簽,Tpn是對象Pn在世界坐標框架中的6D姿勢,TCa是相機在世界坐標框架中的姿勢,Xl是與對象l的3D模型相關聯的3D點集,S(L)是對象模型l的對稱性,并且運算符πa對應于相機Ca的固有校準矩陣在相機幀Ca中表達的3D點的2D投影。公式中的內部和。(5)是(I)對象模型l的3D點x與與物理對象相關聯的變換Tcaoα的單視圖估計(即,(a,α)∈Pn)(第一項,圖像測量))與(Ii)通過相機Ca的全局估計(第二項,全局估計)投影到圖像的對象Pnn上的3D點Tpnx之間的誤差。
恢復最能解釋測量的獨特場景的狀態包括解決以下共識優化問題:
其中第一和是所有物理對象Pn上的和,第二和是對應于物理對象Pn的所有對象候選Oa、α上的第二和。換句話說,我們希望找到對象姿勢Tpn和相機姿勢TCato的全局估計,以匹配在個體視圖中獲得的(Inlier)對象候選姿勢TCaOa,α。該優化問題采用Levenberg-MarQuart算法進行求解。我們在附錄中提供了更多詳細信息。
表1:單視圖6D姿態估計。在YCB-Video(A)和T-less數據集(B)上與最新方法的比較。
4結果
在本部分中,我們在YCB-Video[18]和T-less[19]數據集上對我們的方法進行了實驗評估,這兩個數據集都為包含多個對象的雜亂場景提供了多個視圖和基本真實的6D對象姿勢。在證券交易委員會。4.1,我們首先驗證和分析了我們的單視圖單目標六維位姿估計器。值得注意的是,我們的單視圖單對象6D姿態估計方法已經改善了這兩個數據集的最新結果。在證券交易委員會。4.2中,我們通過演示對單視圖基線的一致改進來驗證我們的多視圖多對象框架。
4.1單視單對象實驗
YCB-Video評估。
在[5,10,18] 之后,我們從12個測試場景的視頻中評估了2949個關鍵幀的子集。我們使用標準的Add-S和Add(-S)指標及其曲線下面積18。我們使用與PoseCNN[18]提供的DeepIM[10]相同的檢測和粗略估計來評估我們的精化方法。我們運行了兩次姿勢優化網絡迭代。結果列於表一a。我們的方法比目前最先進的DeepIM[10]在Add-S和Add(-S)度量的AUC上改進了大約2個點。
對T-less的評估。
如第3.2節所述,我們使用單視圖方法進行粗略姿勢估計和精細處理。我們將我們的方法與最近兩種僅支持RGB的方法Pix2Pose[7]和Implative[12]進行了比較。為了進行公平的比較,我們使用了與[7]中相同的RetinaNet模型中的檢測。我們報告了SISO任務的結果[44],并使用標準的視覺表面差異(VSD)回憶度量,其參數與[7,12]中的相同。結果載列於表1b。在evsd<0.3度量上,與現有最先進的方法相比,我們的{粗略+細化}解決方案獲得了顯著的34.2%的絕對改進。請注意,[10]沒有報告T-less的結果。我們還在此數據集上評估了與DeepIM[10]中使用的組件相比,我們的單視圖方法的關鍵組件的優勢。更準確地說,我們評估了基本網絡(我們的EfficientNet與FlowNet預先訓練的)、損失(對稱的、無糾纏的與L1范數的點匹配損失)、旋轉參數化(我們使用[41]與四元數)以及數據增強(我們的顏色增強,類似于[12]與無)的重要性。損失、網絡和旋轉參數帶來了微小但明顯的改善。在T-less數據集上使用數據增強是至關重要的,在T-less數據集上,訓練僅在暗背景下的合成數據和對象的真實圖像上執行。
4.2多視圖實驗
如上所示,我們的單視圖方法在兩個數據集上都獲得了最先進的結果。我們現在評估我們的多視圖方法在具有多個對象和多個視圖的場景中估計6D姿勢的性能。
實現詳情。在這兩個數據集上,我們使用相同的超參數。在階段1中,我們只考慮得分高于0.3的對象檢測,以限制檢測的數量。在第二階段,我們使用RANSAC 3D Inlier閾值C=2 cm。此低閾值確保在關聯候選對象時不會考慮離群值。對于每對視圖,我們使用的最大RANSAC迭代次數為2000次,但只有包含數十個檢測的T-less數據集的最復雜場景才能達到這一限制。例如,在兩個視圖的上下文中,每個視圖中有六個不同的6D候選對象,僅15次RANSAC迭代就足以探索所有相對相機姿勢假設。對于場景優化(階段3),我們使用100次Levenberg-MarQuart迭代(優化通常在不到10次迭代中收斂)。
評估詳情。在單視圖評估中,對象的姿勢是相對于相機幀來表達的。為了與SingleView基線進行公平的比較,我們還評估了攝像機幀中的對象姿勢,這是我們使用全局場景細化方法估計的絕對對象姿勢和攝像機位置來計算的。6D姿態估計的標準度量強烈地懲罰了檢測召回率低的方法。為了避免因刪除無法在多個視圖中驗證的對象而受到懲罰,我們因此將初始候選對象添加到預測集合中,但其置信度得分嚴格低于我們的全景重建的預測。
多視圖多對象定量結果。就我們所知,在由幾幅從未知視點拍攝的RGB圖像捕獲的場景中,恢復多個已知對象的6D對象姿勢的問題還沒有在YCBVideo和T-less數據集上的先前工作報告結果中得到解決。最近的工作是[20],它考慮了YCB-Video上的多視角場景,并使用地面真實相機姿勢來對齊視點。在[20]中,使用5個視圖提供預測結果。我們使用表2:多視圖多對象結果。(A)在單視圖和多視圖場景中,我們的方法在YCB-Video數據集上的性能都明顯優于[20],而且不需要已知的攝像機姿勢。(B)無人數據集上的結果。使用多個視圖明顯改善了我們的結果。
表3:場景優化階段的好處。我們報告全局場景細化前后Inlier候選對象的姿勢添加-S錯誤(以毫米為單位)。場景細化提高了6D位姿估計精度。
我們的方法使用相同數量的輸入圖像,但沒有使用地面真實校準和報告結果,如表2a所示。我們的方法在單視圖和多視圖場景中的性能都明顯優于[20]
我們還對T-less進行了多視角實驗,觀看次數可變。對于add-S<0.1d和evsd<0.3,我們遵循多實例BOP[44]協議。我們還分析了類似于目標檢測的標準做法的準確率和召回率之間的權衡。我們考慮滿足ADDS<0.1d和報表MAP@ADD-S<0.1d的正預測。表2b顯示了1000張圖像的活體任務的結果。據我們所知,還沒有其他方法報告這項任務的結果。正如預期的那樣,與單視圖基線相比,我們的多視圖方法帶來了顯著的改進。
場景優化的好處。為了證明全局場景細化(階段3)的好處,我們在表3中報告了在求解公式(6)的優化問題之前和之后Inlier候選的平均Add-S誤差。我們注意到明顯的相對改善,在兩個數據集上都有20%左右的改善。
相對相機位姿估計。該方法的一個重要特點是,它不需要知道攝像機的位置,而是從6D候選對象中穩健地估計出攝像機位置。我們研究了聯合相機姿態估計的替代方案。首先,我們使用了流行的基于特征的SfM軟件COLMAP[45,46]來恢復相機姿勢。在YCB-Video數據集中隨機抽樣的5個視圖組上,COLMAP只在67%的情況下輸出相機姿勢,而我們的方法有95%的情況下輸出相機姿勢。在比較困難的T-less數據集的8個視圖組上,COLMAP只在4%的情況下輸出相機姿勢,而我們的方法只有74%的情況下輸出相機姿勢。因此,與COLMAP相比,我們的方法表現出了很大的興趣,COLMAP使用特征來恢復相機姿勢,特別是對于像T-less數據集中這樣復雜的無紋理場景。其次,我們沒有使用我們的方法估計相機姿勢,而是使用兩個數據集可用的地面真實相機姿勢進行了調查。我們發現,與由我們的方法自動恢復的攝像機姿勢相比,使用地面真實攝像機姿勢的改進很小:T-less(4個視圖)和YCBVideo(5個視圖)在1%以內,T-less(8個視圖)在3%以內。這表明,即使對于只包含對稱對象的場景,我們的方法也可以恢復準確的相機姿勢,就像在T-less數據集中一樣。
定性結果。我們在圖3中提供了恢復的6D對象姿勢的例子,其中我們顯示了候選對象和最終估計的場景。有關其他結果,包括故障模式的詳細討論,請參閱附錄。YCB-Video的結果可以在項目網頁6上看到。
計算成本。對于每個視圖有4個視圖和6個2D檢測的常見情況,我們的方法大約需要320ms來預測場景的狀態。該定時包括:用于估計所有候選的6D姿勢的190ms(階段1,粗略和細化網絡的1次迭代),用于對象候選關聯的40ms(階段2)和用于場景細化的90ms(階段3)。例如,可以通過利用視頻序列中的時間連續性來實現對實時性能的進一步加速。
5結論
我們開發了一種名為CosyPose的方法,用于恢復由多個未校準相機查看的多個已知對象的6D姿勢。我們的主要貢獻是將可學習的6D姿態估計與穩健的多視角匹配和全局細化相結合,以重建單個一致的場景。我們的方法顯式地處理對象對稱性,不需要深度測量,對丟失和錯誤的對象假設具有很強的健壯性,并自動恢復攝像機姿勢和場景中的對象數量。這些結果向視覺驅動的機器人操作所需的健壯性和準確性邁進了一步,在具有移動攝像機的不受約束的場景中,并為將物體姿勢估計包括在主動視覺感知循環中打開了可能性。
總結
以上是生活随笔為你收集整理的CosyPose: Consistent multi-view multi-object 6D pose estimation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux inter开发板,研扬UP
- 下一篇: uniapp上传图片踩过的坑