當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【论文翻译】ADVIO: An Authentic Dataset for Visual-Inertial Odometry

發(fā)布時間：2023/12/14 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了【论文翻译】ADVIO: An Authentic Dataset for Visual-Inertial Odometry 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

ADVIO: An Authentic Dataset for Visual-Inertial Odometry

該數(shù)據(jù)集的特點(diǎn)：使用iPhone手機(jī)采集、真實(shí)復(fù)雜場景、對比現(xiàn)有商用和學(xué)術(shù)研究VIO系統(tǒng)性能

【摘要】對于行人場景的VIO的研究，由于缺少真實(shí)和公開的基準(zhǔn)數(shù)據(jù)集，很難準(zhǔn)確比較各公開算法的不同點(diǎn)。已有的數(shù)據(jù)集缺少六自由度的真值，或由于選用光學(xué)跟蹤系統(tǒng)構(gòu)建真值，因此受限于很小的空間。我們利用的純慣性導(dǎo)航的優(yōu)勢，針對VIO開發(fā)了一套多用途、有挑戰(zhàn)性的計算機(jī)視覺基準(zhǔn)數(shù)據(jù)集。為了實(shí)現(xiàn)這個目標(biāo)，我們建造了一個包括iPhone、Google Pixel、Android phone、 Google Tango等硬件的試驗平臺。提供范圍廣泛的傳感器原始數(shù)據(jù)，幾乎可以在任何智能手機(jī)上得到，并且具有高質(zhì)量的跟蹤真值（ground-truth）。我們還對Google Tango、ARCore、 Apple ARKit，以及兩個最近發(fā)布的學(xué)術(shù)方法進(jìn)行了視覺-慣導(dǎo)跟蹤結(jié)果對比。數(shù)據(jù)集包括室內(nèi)室外場景，包括樓梯、手扶梯、升降梯、辦公環(huán)境、商場和地鐵站。

【關(guān)鍵詞】VIO、導(dǎo)航、基準(zhǔn)數(shù)據(jù)集

數(shù)據(jù)集下載鏈接：https://github.com/AaltoVision/ADVIO

1、引言

? ? ? ?最近出現(xiàn)了各種系統(tǒng)和方法來跟蹤基于攝像機(jī)和慣性測量單元(IMUS)的手持或可穿戴移動設(shè)備的運(yùn)動。同時存在開源的方法和非公開的專用系統(tǒng)（Google的ARCore，Apple的ARKit在各自制造商的旗艦智能手機(jī)型號上運(yùn)行）。移動設(shè)備的其他例子包括谷歌Tango平板設(shè)備和微軟HoloLens增強(qiáng)現(xiàn)實(shí)眼鏡。開發(fā)智能移動設(shè)備的里程計算法的主要動機(jī)是支持需要精確實(shí)時跟蹤自我運(yùn)動的增強(qiáng)現(xiàn)實(shí)應(yīng)用。這些應(yīng)用在很多領(lǐng)域具有重要的價值，比如建筑和設(shè)計，游戲和娛樂，遠(yuǎn)程呈現(xiàn)，教育和培訓(xùn)。

? ? ? 雖然VIO有著重要的學(xué)術(shù)和商業(yè)價值，該領(lǐng)域的發(fā)展受限于缺少公開的數(shù)據(jù)集和基準(zhǔn)，并用來對提出的算法進(jìn)行公平的比較，推動現(xiàn)有最好系統(tǒng)的不斷提升和進(jìn)一步發(fā)展。例如，由于每個系統(tǒng)的性能取決于所使用的算法和傳感器，很難公平地比較方法的進(jìn)步和算法的貢獻(xiàn)，因為來自硬件和軟件的因素可能是混合的。此外，由于許多現(xiàn)有的數(shù)據(jù)集要么是在較小的空間中捕獲的，要么是利用了比低成本消費(fèi)設(shè)備更好的傳感器硬件，很難評估現(xiàn)有的方法在手機(jī)端上能否實(shí)現(xiàn)中遠(yuǎn)距測距或大尺度SLAM。

? ? ? ?此外，使用智能手機(jī)傳感器采集的真實(shí)感傳感器數(shù)據(jù)，再加上足夠精確的真值，將有助于加快學(xué)術(shù)研究的進(jìn)展，并降低新研究人員進(jìn)入該領(lǐng)域的門檻。許多計算機(jī)視覺問題清楚地證明了公共數(shù)據(jù)集和基準(zhǔn)作為推動快速發(fā)展的動力的重要性，如圖像分類[9,19]，目標(biāo)檢測[13]，立體重建[10]和語義分割[13,6]等等。然而，對于視覺慣性里程計（VIO），沒有公開可用的數(shù)據(jù)集或基準(zhǔn)，可以在典型的智能手機(jī)環(huán)境中評估最近的方法。此外，由于開源軟件文化在這一研究領(lǐng)域并不像在圖像分類和目標(biāo)檢測方面那樣普遍，因此研究環(huán)境對于促進(jìn)快速發(fā)展并不是最理想的。此外，由于上述原因，這一領(lǐng)域有一種危險，即只有大公司資助的大型研究小組才能進(jìn)入這一領(lǐng)域，這將減緩進(jìn)展，使開放的學(xué)術(shù)研究走向衰敗。

? ? ??在這項工作中，我們提出了一個數(shù)據(jù)集，旨在促進(jìn)智能手機(jī)或其他帶有低成本傳感器（卷簾相機(jī)、MEMS慣性器件）的移動終端上的VIO和SLAM方法的發(fā)展。我們的傳感器數(shù)據(jù)通過iPhone 6s手機(jī)采集，包括真值位姿軌跡和從傳感器采集的原始數(shù)據(jù)流（RGB視頻相機(jī)、加速度計、陀螺儀、磁力計、平臺提供的地理坐標(biāo)、氣壓計）。總共采集了4.5Km的序列，包括在室內(nèi)室外各種環(huán)境下的手持運(yùn)動。數(shù)據(jù)集是在公共場所收集的，符合當(dāng)?shù)仃P(guān)于拍攝和出版的法律規(guī)定。真值的計算方法是將最近的純慣性導(dǎo)航系統(tǒng)(INS)[24]與基于精密地面平面圖的頻繁手動定位相結(jié)合，驗證了地面真實(shí)值的質(zhì)量，并對其精度進(jìn)行了估計。除了基準(zhǔn)數(shù)據(jù)集外，我們還對視覺慣性進(jìn)行了比較。

? ? ? ?除了基準(zhǔn)數(shù)據(jù)集，我們比較了VIO算法，包括三個最近的專有平臺：ARCore on?a Google Pixel device, Apple ARKit on the iPhone, and Tango odometry on?a Google Tango tablet device，以及兩個最近發(fā)布的VIO算法：ROVIO和PIVO。比較數(shù)據(jù)由捕獲設(shè)備上的三個設(shè)備采集，圖1進(jìn)行了介紹說明。數(shù)據(jù)采集的常用應(yīng)用也應(yīng)用到每個設(shè)備中。

? ? ? 我們工作的主要貢獻(xiàn)概述如下：

? ? ? （1）一個帶有6自由度的iphone傳感器數(shù)據(jù)的公開數(shù)據(jù)集，可為現(xiàn)實(shí)生活應(yīng)用場景中的單目VIO提供基準(zhǔn)，這些場景包括各種環(huán)境中的運(yùn)動，還包括樓梯、電梯和自動扶梯；

? ? ? （2）比較最新的VIO平臺和算法；

? ? ? （3）提出一種在真實(shí)使用場景中，將純慣性導(dǎo)航與手動定位相結(jié)合的智能手機(jī)里程計的真值采集方法；

2、相關(guān)工作

? ? ? ?盡管視覺慣性里程計(VIO)是對手持設(shè)備和可穿戴設(shè)備進(jìn)行實(shí)時跟蹤的最有希望的方法之一，但目前還缺乏用于對不同方法進(jìn)行基準(zhǔn)測試的良好的公共數(shù)據(jù)集。相關(guān)基準(zhǔn)應(yīng)該包括帶有同步時間戳的視頻和慣性傳感器記錄，最好是用消費(fèi)類智能手機(jī)傳感器捕獲。此外，數(shù)據(jù)集應(yīng)該是真實(shí)的，并說明實(shí)際的應(yīng)用場景。也就是說，它應(yīng)該包含具有稀有視覺特征的具有挑戰(zhàn)性的環(huán)境，無論是室內(nèi)還是室外，以及各種不同的運(yùn)動，還包括快速旋轉(zhuǎn)而不進(jìn)行平移，因為它們對于單目視覺測量來說是有問題的。我們的工作是第一個解決這一需求的。

? ? ? ?關(guān)于純視覺測徑或SLAM，有幾個數(shù)據(jù)集和基準(zhǔn)可用[23,6,8,26]，但它們?nèi)鄙賾T性傳感器數(shù)據(jù)。此外，其中許多數(shù)據(jù)集是有限的，因為它們：

? ? ? ?（1）使用地面車輛記錄，因此沒有快速旋轉(zhuǎn)[23，6]；

? ? ? ?（2）不包含低紋理室內(nèi)場景[23，6]；

? ? ? ?（3）用定制硬件(如魚眼鏡頭或全球快門照相機(jī))拍攝[8]；

? ? ? ?（4）缺乏充分的6自由度真值[8]；

? ? ? ?（5）限制在較小的環(huán)境，因此是SLAM系統(tǒng)的理想場景，但不適用于中遠(yuǎn)距離導(dǎo)航基準(zhǔn)里程計[26]。

? ? ? ?然而，除了純視覺數(shù)據(jù)集外，還有一些含有慣性傳感器數(shù)據(jù)的公共數(shù)據(jù)集，例如[10、5、4、3、18]。大部分這些數(shù)據(jù)集都是用傳感器嚴(yán)格地連接到輪式地面車輛上記錄的。例如，廣泛使用的Kitti數(shù)據(jù)集[10]包含從一輛移動汽車上激光雷達(dá)掃描和多個攝像機(jī)錄制的視頻。真值使用一個非常精確的GPS/IMU定位單元與RTK校正信號。但是IMU采集頻率只有10Hz，這對于劇烈運(yùn)動的手持設(shè)備來說是不夠的。進(jìn)一步講，即便高頻率的IMU數(shù)據(jù)可用，KITTI數(shù)據(jù)集也受到上面提到的（1）（2）（3）限制，使得它對于智能手機(jī)里程計來說是沒有用的。

? ? ?與KITTI的另一個相似之處是，我們也使用帶有外部定位的純慣性導(dǎo)航來確定地面真值。在我們的例子中，由于GPS在室內(nèi)是不準(zhǔn)確或不可用的，所以GPS校正將被手動定位校正所取代。此外，與Kitti相反，通過利用最近慣性導(dǎo)航[24]的進(jìn)展，我們能夠使用iphone的慣性傳感器進(jìn)行真值計算，因此不依賴高級別的IMU，過去這對于手持式的設(shè)備來說很難達(dá)到。在我們的情況下，手動定位修復(fù)是從參考視頻確定的(圖3a)，通過查看視頻進(jìn)行視覺識別地標(biāo)，從精確的建筑平面圖或航空圖像中準(zhǔn)確地定位地標(biāo)。不使用光學(xué)方法建立真值的好處是，我們可以很容易地記錄長序列，并且記錄設(shè)備的相機(jī)可以收到暫時的遮擋。這使得我們的基準(zhǔn)也適用于評估VIO方法的遮擋魯棒性[25]。和KITTI一樣，Rawseeds[5]和NCLT[4]數(shù)據(jù)集也是用輪式地面車輛記錄的。它們都使用自定義傳感器(例如全向攝像機(jī)或工業(yè)級IMU)。這些數(shù)據(jù)集用于評估緩慢移動車輛的測向和自我定位，而不適合于手持設(shè)備和增強(qiáng)現(xiàn)實(shí)的VIO方法的基準(zhǔn)測試。

? ? ??與我們最相關(guān)的數(shù)據(jù)集是Euroc[3]和PennCOSYVIO[18]。Euroc提供用全域快門立體相機(jī)和戰(zhàn)術(shù)級IMU在微型飛行器(MAV)上捕獲的視覺和慣性數(shù)據(jù)[17]。這些序列記錄在兩個不同的房間，其中配備了運(yùn)動捕捉系統(tǒng)或激光跟蹤器，以獲得準(zhǔn)確的運(yùn)動真值。在 PennCOSYVIO中，數(shù)據(jù)采集是使用一個手持平臺進(jìn)行的，它包含兩個Google?Tango平板電腦、三個Gopro 4攝像頭和一個類似于Euroc的視覺慣性傳感器單元。這些數(shù)據(jù)是通過在大學(xué)校園幾次步行150米的路徑收集到的，真值是通過光學(xué)標(biāo)記獲取的。由于需要光學(xué)定位來確定真值，Euroc和 PennCOSYVIO都只包含少數(shù)幾個相對小規(guī)模的環(huán)境的數(shù)據(jù)。此外，這兩個數(shù)據(jù)集都使用相同的高質(zhì)量定制傳感器和寬視場立體相機(jī)[17]。相反，我們的數(shù)據(jù)集包含大約4.5公里的序列，這些序列是在幾個不同的建筑和不同的室外環(huán)境中，用普通智能手機(jī)傳感器記錄的。此外，我們的數(shù)據(jù)集包含樓梯、電梯和自動扶梯的運(yùn)動，如圖2所示，還包括臨時遮擋和缺乏視覺特征。我們不知道有任何類似的公共數(shù)據(jù)集。表1總結(jié)了不同數(shù)據(jù)集的性質(zhì)。我們靈活的數(shù)據(jù)收集過程的有利因素是利用純慣性導(dǎo)航的最新進(jìn)展和人工定位修正[24]。事實(shí)上，確定真值的方法是我們工作的貢獻(xiàn)之一。此外，作為第三個貢獻(xiàn)，基于我們的挑戰(zhàn)性數(shù)據(jù)集，比較了最近的VIO方法和專用的最先進(jìn)的平臺。

3、數(shù)據(jù)采集

? ? ? 數(shù)據(jù)是用三個設(shè)備(iPhone6s，Pixel，Tango)嚴(yán)格地連接到一個鋁架上記錄的（圖1）。此外，我們使用一個額外的相機(jī)視頻拍攝記錄人并記錄下采集過程（圖3）。

? ? ? ?對于2D地圖(即結(jié)構(gòu)平面圖或航空圖像/地圖)，手動定位是從外部攝像機(jī)的角度確定的。由于設(shè)備是手持的，在大多數(shù)固定位置，高度是以高于地面水平的恒定距離(具有合理的不確定性估計)給出的，這樣優(yōu)化后的軌跡才能最佳地平衡固定位置和IMU信號的信息（第4節(jié)詳細(xì)介紹）。

? ? ? ?使用網(wǎng)絡(luò)提供的時間同步來自所有四個設(shè)備的數(shù)據(jù)流。也就是說，在捕獲會話開始時，設(shè)備時鐘通過網(wǎng)絡(luò)時間協(xié)議(NTP)請求進(jìn)行同步。在記錄過程中，所有設(shè)備都連接到4G網(wǎng)絡(luò)上，并且為了能夠在同一坐標(biāo)系下對數(shù)據(jù)進(jìn)行分析，我們通過捕獲棋盤的多個視圖來校準(zhǔn)所有相機(jī)的內(nèi)外參數(shù)。這是在每次步驟之前進(jìn)行的，以解釋運(yùn)輸和儲存過程中的微小運(yùn)動。記錄的數(shù)據(jù)流列于表2中。

3.1?Raw iPhone Sensor Capture

? ? ? ?基于Swift 4開發(fā)了一個iOS數(shù)據(jù)采集應(yīng)用程序，它保存了與蘋果Arkit姿態(tài)估計同步的慣性和視覺數(shù)據(jù)。所有單個數(shù)據(jù)點(diǎn)都在內(nèi)部加蓋時間戳，然后同步到全局時間。全局時間是使用Kronos Swift NTP client獲取的。這些數(shù)據(jù)是用運(yùn)行iOS 11.0.3的iPhone6S采集的。同樣的軟件和相同的iPhone被用來收集參考視頻。之所以選擇這款手機(jī)，是因為iphone 6s(2015年發(fā)布)在硬件上更接近于普通智能手機(jī)，而不是最新的旗艦iPhone，而且與谷歌像素硬件也很匹配。

? ? ??在捕捉過程中，相機(jī)由ARKit服務(wù)控制，它執(zhí)行通常的自動曝光和白平衡，但焦距保持固定(ARkit返回的相機(jī)矩陣存儲在捕獲過程中)。分辨率也由ARKIT控制，為1280*720。幀被打包成一個H.264/MPEG-4視頻文件。全球?qū)Ш叫l(wèi)星系統(tǒng)/網(wǎng)絡(luò)定位數(shù)據(jù)是通過協(xié)同定位方案收集的，請求的位置精度為“kCLLocationAccuracyBest”。定位服務(wù)提供緯度和經(jīng)度、水平精度、高度、垂直精度和速度。加速度計、陀螺儀、磁強(qiáng)計和氣壓計數(shù)據(jù)通過CoeMotion API收集，并以最大速率記錄。表2給出了多個數(shù)據(jù)流的近似捕獲率。磁強(qiáng)計值沒有校準(zhǔn)，氣壓計采樣值既包含氣壓，又包含相關(guān)的相對高度讀數(shù)。

3.2?Apple ARKit Data

? ? ? ?捕獲原始數(shù)據(jù)的應(yīng)用程序運(yùn)行ARKit框架。它提供了與每個視頻幀相關(guān)聯(lián)的姿態(tài)估計。將姿態(tài)保存為平移向量和以歐拉角表示的旋轉(zhuǎn)。每個姿態(tài)相對于手機(jī)創(chuàng)建的全局坐標(biāo)幀。

3.3 Google ARCore Data

? ? ? ?我們根據(jù)谷歌的ARCore示例編寫了一個應(yīng)用程序，用于捕獲ARCore跟蹤結(jié)果。與ARKit一樣，姿態(tài)數(shù)據(jù)包含到捕獲的第一幀的轉(zhuǎn)換和到全局坐標(biāo)框架的旋轉(zhuǎn)。與ARKIT不同的是，方向被存儲為單位四元數(shù)。注意捕獲速率比ARKit慢。我們不保存視頻幀或傳感器數(shù)據(jù)在Pixel上。數(shù)據(jù)采集使用Google Pixel device?運(yùn)行ndroid 8.0.0，并使用Tango Core AR developer preview得到。

3.4 Google Tango Data

? ? ? ?基于Paraview?Project，[11]開發(fā)和發(fā)布了一個數(shù)據(jù)采集APP，在此基礎(chǔ)上進(jìn)行了修改以收集相關(guān)數(shù)據(jù)。捕獲數(shù)據(jù)包括設(shè)備相對于第一幀的位置、全局坐標(biāo)中的方位、魚眼灰度圖像和深度傳感器產(chǎn)生的點(diǎn)云。Tango service?運(yùn)行在基于Android?4.4.2 and?使用?Tango Core Argentine的Project Tango tablet?上。 Tango service輸出兩組位姿，Raw odometry（不帶回環(huán)）?和?Area learning（帶回環(huán)）。 Raw odometry是在沒有長期內(nèi)存的情況下建立幀的，而 Area learning使用正在進(jìn)行的地圖構(gòu)建來封閉回環(huán)和減少漂移。這兩個軌跡都被捕獲和保存。

3.5 Reference Video and Locations

? ? ? ?本文的一個重要貢獻(xiàn)是靈活的數(shù)據(jù)采集框架，它使我們能夠在大型環(huán)境中捕獲實(shí)際的場景。在這種情況下，使用視覺標(biāo)記、運(yùn)動捕捉或激光掃描器獲取真值是不可行的。相反，我們的工作利用了純慣性導(dǎo)航和手動定位修復(fù)，如4.1節(jié)所述。為了獲得定位修復(fù)，我們記錄了一個額外的參考視頻，這是由一個輔助人員在離實(shí)際采集人很短的距離處采集得到的。圖3a舉例說明了這類視頻的一個示例框架，參考視頻使我們能夠確定數(shù)據(jù)收集設(shè)備相對于環(huán)境的位置，并獲得純慣性導(dǎo)航方法的手動定位固定裝置(受測量噪聲影響)[24]。

? ? ??在實(shí)踐中，使用為本文開發(fā)的位置標(biāo)記工具作為后處理步驟，可以瀏覽視頻，并在相應(yīng)的平面圖圖像上標(biāo)記手動位置修復(fù)。在容易確定相對于平面圖圖像的設(shè)備位置的場合(例如，在自動扶梯的開始和結(jié)束、進(jìn)入和退出電梯、通過門或走過建筑物的拐角處)，插入位置校正（location fixes）。在我們所有的記錄數(shù)據(jù)中，很容易找到足夠的這樣的實(shí)例來建立一個準(zhǔn)確的真值。請注意，它足夠手動確定設(shè)備的位置，而不是定位。

? ? ? ?初始位置的確定必須從平面圖的像素坐標(biāo)進(jìn)一步轉(zhuǎn)換為公制的世界坐標(biāo)，這首先是通過使用人工測量的參考距離(例如柱子之間的距離)將像素轉(zhuǎn)換成米來完成的。然后，使用手動確定的地標(biāo)點(diǎn)(例如柱子或樓梯)和地面高度測量來相互注冊平面圖圖像。

4?方法

4.1 Ground-Truth

? ? ? ?真值是在[24 ]中提出的純慣性里程計算法的一種實(shí)現(xiàn)，其中使用外部參考視頻記錄了人工固定點(diǎn)（見3.5節(jié)）。用于獲取真值的純慣性導(dǎo)航系統(tǒng)中使用的IMU數(shù)據(jù)來自iphone，并且該部分?jǐn)?shù)據(jù)共享為數(shù)據(jù)集的一部分。此外，還為iPhone IMU獲取了額外的校準(zhǔn)數(shù)據(jù)，包括加性陀螺儀偏差、加性加速度計偏差和乘性加速度計比例尺偏差。

? ? ? ?iPhone姿態(tài)軌跡(位置和方向)的推斷如[24]所述，增加了狀態(tài)估計、附加校準(zhǔn)數(shù)據(jù)和手動定點(diǎn)的融合。姿態(tài)軌跡對應(yīng)的INS估計值與固定校正點(diǎn)和外部校準(zhǔn)有關(guān)。

? ? ? ?考慮到固定點(diǎn)位置的不確定性和不精確性，不強(qiáng)制要求手機(jī)的跟蹤與這些固定點(diǎn)完全匹配，而是在固定位置點(diǎn)包括一個高斯測量噪聲項，其標(biāo)準(zhǔn)偏差為25厘米(在所有方向)。這允許估計軌跡與固定點(diǎn)不同。在樓層間上下時，位置固定點(diǎn)被給定為未知高度的三維位置或2D點(diǎn)。

? ? ? ?推理問題最終用擴(kuò)展卡爾曼濾波器(前通)和擴(kuò)展的Ruch-Ton-Striebel平滑器(后傳，見[24]中的技術(shù)細(xì)節(jié))解決。由于這里不需要實(shí)時計算，我們也可以使用批處理優(yōu)化，但這不會導(dǎo)致結(jié)果發(fā)生明顯的變化。手工逐幀檢查計算出的軌跡，并通過額外的固定點(diǎn)對姿態(tài)軌跡進(jìn)行改進(jìn)，直到軌道與所有三個攝像機(jī)和平面圖圖像中所看到的運(yùn)動相匹配為止。圖2c顯示了估計的估計的真值軌跡的例子。垂直線是在乘坐電梯(停在每一層)。如果放大，可以看到人行走的周期性運(yùn)動，從補(bǔ)充材料中的示例視頻中也可以查看所獲得的精度。

4.2 Evaluation Metrics?評估方法

? ? ? ?對于在采集數(shù)據(jù)的過程中動態(tài)采集到的里程計結(jié)果，我們提出了以下評價方法：所有數(shù)據(jù)首先臨時對齊同一個全局時鐘(由NTP請求在捕獲數(shù)據(jù)時獲取)，使得時間對齊精確到1-2秒。通過最大限度地減小裝置偏航和橫滾角之間的中位誤差來確定一個恒定的時間偏移，從而進(jìn)一步改進(jìn)了時間對準(zhǔn)。這種對齊兼顧了設(shè)備間的時間配準(zhǔn)誤差和測向方法中的內(nèi)部延遲。

? ? ? ?在時間對齊之后，三個設(shè)備提供的軌跡被切成相同的長度，覆蓋相同的時間跨度，因為不同設(shè)備的錄音的啟動和停止時間可能有幾秒的差異。垂直方向已經(jīng)與重力對齊。考慮到設(shè)備、估計位姿和真值之間的相對姿態(tài)，我們估計了估計軌跡和地面之間的平面剛性變換(2d旋轉(zhuǎn)和平移)-基于每種方法中估計值的前60s的真值(使用整個路徑對結(jié)果沒有明顯的影響)。不使用校準(zhǔn)的相對姿態(tài)的原因是，特別是ARCore（ARKit偶爾）在軌道的開始處顯示了劇烈跳變，這將對該方法產(chǎn)生相當(dāng)大的影響并破壞了這些數(shù)據(jù)集。

? ? ? ?所有對齊軌跡都從原點(diǎn)開始，我們測量每一種方法給出的估計輸出與真值的絕對誤差，并將絕對位置誤差的經(jīng)驗累積分布函數(shù)定義為：

其中，1e是事件e的指示函數(shù)，e是相對于真值的絕對位置誤差的向量，n是位置的個數(shù)。

5 Data and Results 數(shù)據(jù)和結(jié)果

? ? ? ?該數(shù)據(jù)集包含在6個不同位置拍攝的23個單獨(dú)的序列，所有序列的總長度為4.47公里，總持續(xù)時間為1小時8分鐘。有19個室內(nèi)和4個室外序列。在室內(nèi)序列中，平均每3.7米（或3.8秒）有一個手動固定點(diǎn)，而在每14.7米（或10秒）室外有一個手動固定點(diǎn)。所有序列的三維軌跡真值在補(bǔ)充材料中得到了說明，并給出了更多的細(xì)節(jié)。此外，補(bǔ)充視頻還說明了其中一個序列及其真值，并簡要介紹了數(shù)據(jù)集序列和環(huán)境的主要特征。

? ? ? ?我們的數(shù)據(jù)集主要是針對中、長程里程計設(shè)計。最明顯的用例是在大空間內(nèi)的室內(nèi)導(dǎo)航，但我們也包含了戶外路徑以保證完整性。在一個7層高的購物中心(135,000平方米)、一個地鐵站和兩個不同的辦公大樓中獲得了室內(nèi)序列。購物中心和車站位于同一建筑綜合體中。地鐵和公交車站位于底層，采集到的視頻中有大量的移動人員和偶爾可以看到的大型車輛，這對于純視覺里程計具有挑戰(zhàn)性。此外，商場較低的樓層包含大量的移動人員。圖2顯示了購物中心的總體視圖，以及地面真相路徑示例和Tango點(diǎn)云(圖2B)。圖4b展示了商場和車站的實(shí)例框架。用例盡可能逼真，包括樓梯、電梯和自動扶梯上的動作，以及暫時遮擋和缺乏視覺特征的區(qū)域。購物中心有10個序列，車站有兩個序列。

? ? ? ?在大廳和兩棟辦公樓的走廊里進(jìn)行了數(shù)據(jù)采集。它們包含了一些靜止的人和幾個移動的人。順序包括樓梯攀登和乘坐電梯。有封閉和開放的(玻璃)電梯序列，示例框架如圖4a所示。

? ? ? ?室外序列記錄在市中心(城市，兩個序列)和大學(xué)校園(郊區(qū)，兩個序列)。圖4c和4d顯示了兩個地點(diǎn)的示例幀。城市戶外數(shù)據(jù)采集是城市街區(qū)進(jìn)行的，它們包括開放的空間、人和車輛。郊區(qū)的戶外數(shù)據(jù)采集是在人口稀少的地區(qū)進(jìn)行的。序列中有少數(shù)人步行和一些車輛。大部分空間是開放的。室外序列的平均長度為334.6米，從133米到514米不等。室外序列是在一天中不同的時間獲得的，說明了幾種日光條件。

? ? ? ?圖5a顯示從地面提取的不同運(yùn)動度量的直方圖。圖5a顯示速度直方圖，它有三個峰值，反映三個主要的運(yùn)動模式。

從慢到快，它們是自動扶梯、樓梯和步行。圖5b顯示了僅包含自動扶梯和正常步行的一個序列的速度直方圖。定位直方圖顯示，手機(jī)通常保持在與載體相同的位置(縱向方向，略微向下)。俯仰角反映了航向的均勻分布。

5.1 Benchmark Results

? ? ? ?我們使用原始的iPhone數(shù)據(jù)對兩個研究級別的VIO系統(tǒng)進(jìn)行評估，并在各自設(shè)備上運(yùn)行的三種專有解決方案(Pixel上的ARcore、iPhone上的ARKit和平板電腦上的Tango)。所使用的研究系統(tǒng)是ROVIO[2,1,20]和PIVO[25]。ROVIO是一種相當(dāng)新的方法，它已經(jīng)被證明在高質(zhì)量的IMU和大視場相機(jī)數(shù)據(jù)上能很好地工作。Pivo是最近的一種方法，與使用智能手機(jī)數(shù)據(jù)的Google探戈[25]相比，它顯示出了有希望的結(jié)果。對于這兩種方法，都使用了原始作者的實(shí)現(xiàn)(ROVIO作為maplab 7的一部分)(在僅限里程計模式下，沒有地圖構(gòu)建或循環(huán)閉包)。我們使用了精確的攝像機(jī)參數(shù)和從攝像機(jī)到imu的剛性變換，并對過程和測量噪聲尺度參數(shù)進(jìn)行了預(yù)估計。

? ? ? ?為了測試目的，我們還對原始數(shù)據(jù)(dso[7]和orb-slam 2[15])進(jìn)行了兩種僅用視覺測量的方法，這兩種方法都能夠跟蹤路徑的子集，但小視場、旋轉(zhuǎn)的快速運(yùn)動和具有挑戰(zhàn)性的環(huán)境使它們在所有路徑上都無法成功。

? ? ? ?一般來說，專有系統(tǒng)比研究方法工作得更好，如圖7所示。在室內(nèi)序列中，所有專有系統(tǒng)一般都工作得很好(如圖7a所示)。Tango有最好的性能，ARKit表現(xiàn)良好和強(qiáng)勁，只有少數(shù)明確的失敗案例(95th percentile _10 meters)，而Arcore偶爾失敗，顯然由于不正確的視覺回環(huán)檢測。包括室外序列稍微改變了度量(圖7b)。ARKit在室外序列有嚴(yán)重的漂移問題。在方位誤差方面，所有系統(tǒng)都是精確的，平均誤差小于2度，這是由于陀螺儀在校準(zhǔn)良好的情況下，通過對陀螺進(jìn)行積分跟蹤而實(shí)現(xiàn)的。如圖7所示，我們的iPhone數(shù)據(jù)具有窄視場和低成本的IMU，基于研究的方法面臨挑戰(zhàn)。有許多序列，這兩種方法完全發(fā)散(例如圖6)。另一方面，也有一些序列可以很好地工作。這可能部分是因為ROVIO和PIVO在內(nèi)部動態(tài)估計IMU的校準(zhǔn)參數(shù)(例如加速度計和陀螺儀偏差)，而且兩個系統(tǒng)都沒有直接支持提供預(yù)先校準(zhǔn)的IMU參數(shù)作為輸入。ROVIO只考慮加性加速度計的偏差，它在許多序列中顯示為指數(shù)爬行，我們用我們的數(shù)據(jù)提供真值的IMU校準(zhǔn)參數(shù)，因此也可以用預(yù)先校準(zhǔn)的值來評估它們的性能。或者，部分序列可用于自校準(zhǔn)，其他用于測試。專有系統(tǒng)可能從工廠校準(zhǔn)的參數(shù)中受益。圖5e和圖6顯示了結(jié)果的示例。在這些情況下，所有商業(yè)解決方案都運(yùn)行良好。盡管如此，ARCore在戶外路徑開始時仍然存在一些問題。此外，在多層樓的情況下，漂移通常更為嚴(yán)重，而且有一些序列顯示，專有系統(tǒng)也有明顯的故障。

? ? ? ?一般來說，ROVIO在處理視覺數(shù)據(jù)和慣性數(shù)據(jù)之間的存在的長期遮擋和不一致方面存在問題。此外，在圖5e中，它的標(biāo)度很明顯不準(zhǔn)確，這很可能是由于加速度中沒有建模的尺度偏差（scale bias），而這種偏差顯然不足以滿足消費(fèi)者級傳感器的要求，這些傳感器也表現(xiàn)出乘性的偏差（multiplicative?biases）[22]。另一方面，PIVO采用了加性和乘性加速度計偏差的模型。然而，使用PIVO，主要的挑戰(zhàn)似乎是，如果沒有適當(dāng)?shù)倪\(yùn)動，從零開始在線校準(zhǔn)各種IMU參數(shù)需要相當(dāng)長的時間，從而減緩收斂到正確的軌道上。

6 Discussion and Conclusion?討論和總結(jié)

? ? ? ?我們提出了第一個使用標(biāo)準(zhǔn)智能手機(jī)傳感器的手持設(shè)備遠(yuǎn)距離視覺慣性里程計的公共基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集包含23條記錄在不同真實(shí)環(huán)境中多層樓內(nèi)的23個序列。序列的總長度為4.5km。此外，我們還提供了三種專用VIO平臺和兩種最新的學(xué)術(shù)VIO方法的定量比較，其中我們使用了原始的傳感器數(shù)據(jù)。據(jù)我們所知，這是第一次背靠背比較ARKit, ARCore, and Tango。

? ? ??蘋果的ARKit在大多數(shù)場景中表現(xiàn)很好。只有在一個較難的室外序列中，ARKit出現(xiàn)了典型的慣性推算失敗，估計的位置失去控制完全錯誤。與ARKit相比，Google的ARCore表現(xiàn)出更積極的視覺回環(huán)功能，而ARKit則出現(xiàn)在假陽性的“跳躍”，散落在軌道上(在視覺上相似的區(qū)域之間)。Tango中的專用硬件給了它優(yōu)勢，這也可以在圖7中看到。區(qū)域?qū)W習(xí)（帶回環(huán)）是測試的最魯棒和準(zhǔn)確的系統(tǒng)。然而，所有的系統(tǒng)在開放的電梯中都表現(xiàn)得比較好，玻璃墻讓攝像機(jī)看到電梯運(yùn)動時打開的大廳。在關(guān)閉電梯的情況下，沒有一個系統(tǒng)能夠?qū)T性運(yùn)動與靜態(tài)視覺場景相協(xié)調(diào)。從ROVIO和PIVO的結(jié)果來看，這種數(shù)據(jù)集的需求是顯而易見的。該研究領(lǐng)域需要挑戰(zhàn)狹隘的視野和低性能IMU的數(shù)據(jù)，以開發(fā)和測試新的VIO方法，這些方法可以推廣到消費(fèi)級硬件。

? ? ? 數(shù)據(jù)采集過程可以很好地擴(kuò)展到新的環(huán)境。因此，將來可以用相當(dāng)小的努力來擴(kuò)展數(shù)據(jù)集。數(shù)據(jù)集的目的是使視覺慣性測定儀的方法能夠進(jìn)行公平的比較，并加快這一研究領(lǐng)域的發(fā)展。這是相關(guān)的，因為VIO是用于增強(qiáng)現(xiàn)實(shí)中對移動設(shè)備的實(shí)時跟蹤，目前最常用的方法。

? ? ??有關(guān)數(shù)據(jù)集和下載鏈接的更多細(xì)節(jié)可以在網(wǎng)頁上找到：https：/github.com/aaltovision/advio。

References

1. Bloesch, M., Burri, M., Omari, S., Hutter, M., Siegwart, R.: Iterated extended?Kalman filter based visual-inertial odometry using direct photometric feedback.?International Journal of Robotics Research 36(10), 1053–1072 (2017) 3, 12

2. Bl?sch, M., Omari, S., Hutter, M., Siegwart, R.: Robust visual inertial odometry?using a direct EKF-based approach. In: Proceedings of the International Conference?on Intelligent Robots and Systems (IROS). pp. 298–304. Hamburg, Germany?(2015) 1, 3, 12

3. Burri, M., Nikolic, J., Gohl, P., Schneider, T., Rehder, J., Omari, S., Achtelik,?M.W., Siegwart, R.: The EuRoC micro aerial vehicle datasets. International Journal?of Robotics Research 35, 1157–1163 (2016) 4, 5

4. Carlevaris-Bianco, N., Ushani, A.K., Eustice, R.M.: University of Michigan North?Campus long-term vision and LIDAR dataset. International Journal of Robotics?Research 35, 1023–1035 (2015) 4, 5

5. Ceriani, S., Fontana, G., Giusti, A., Marzorati, D., Matteucci, M., Migliore, D.,?Rizzi, D., Sorrenti, D.G., Taddei, P.: Rawseeds ground truth collection systems for?indoor self-localization and mapping. Autonomous Robot 27(4), 353–371 (2009)?4, 5

6. Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R.,?Franke, U., Roth, S., Schiele, B.: The Cityscapes dataset for semantic urban scene?understanding. In: Proceedings of the IEEE Conference on Computer Vision and?Pattern Recognition (CVPR). pp. 3213–3223. Las Vegas, USA (2016) 2, 4

7. Engel, J., Koltun, V., Cremers, D.: Direct sparse odometry. IEEE Transactions on?Pattern Analysis and Machine Intelligence 40(3), 611–625 (2018) 12

8. Engel, J., Usenko, V.C., Cremers, D.: A photometrically calibrated benchmark for?monocular visual odometry. arXiv preprint arXiv:1607.02555 (2016) 4

9. Everingham, M., Eslami, A., Van Gool, L., Williams, I., Winn, J., Zisserman, A.:?The PASCAL visual object classes challenge: A retrospective. International Journal?of Computer Vision (IJCV) 111(1), 98–136 (2015) 2

10. Geiger, A., Lenz, P., Urtasun, R.: Are we ready for autonomous driving? The?KITTI vision benchmark suite. In: Proceedings of the IEEE Conference on Computer?Vision and Pattern Recognition (CVPR). pp. 3354–3361. Providence, Rhode?Island (2012) 2, 4

11. Laskar, Z., Huttunen, S., Herrera, D., Rahtu, E., Kannala, J.: Robust loop closures?for scene reconstruction by combining odometry and visual correspondences. In:?Proceedings of the International Conference on Image Processing (ICIP). pp. 2603–?2607. Phoenix, AZ, USA (2016) 8

12. Li, M., Kim, B.H., Mourikis, A.I.: Real-time motion tracking on a cellphone using?inertial sensing and a rolling-shutter camera. In: Proceedings of the International?Conference on Robotics and Automation (ICRA). pp. 4712–4719 (2013) 1

13. Lin, T., Maire, M., Belongie, S.J., Hays, J., Perona, P., Ramanan, D., Dollár,?P., Zitnick, C.L.: Microsoft COCO: Common objects in context. In: Proceedings?of the European Conference on Computer Vision (ECCV). pp. 740–755. Zurich,?Switzerland (2014) 2

14. Mourikis, A.I., Roumeliotis, S.I.: A multi-state constraint Kalman filter for visionaided?inertial navigation. In: Proceedings of the International Conference on?Robotics and Automation (ICRA). pp. 3565–3572. Rome, Italy (2007) 1

15. Mur-Artal, R., Tardós, J.D.: ORB-SLAM2: An open-source SLAM system for?monocular, stereo and RGB-D cameras. IEEE Transactions on Robotics 33(5),?1255–1262 (2017) 12

16. Mur-Artal, R., Tardós, J.D.: Visual-inertial monocular SLAM with map reuse.?Robotics and Automation Letters 2(2), 796–803 (2017) 1

17. Nikolic, J., Rehder, J., Burri, M., Gohl, P., Leutenegger, S., Furgale, P.T., Siegwart,R.: A synchronized visual-inertial sensor system with FPGA pre-processing for?accurate real-time SLAM. In: Proceedings of the IEEE International Conference?on Robotics and Automation (ICRA). pp. 431–437. Hong-Kong, China (2014) 5

18. Pfrommer, B., Sanket, N., Daniilidis, K., Cleveland, J.: PennCOSYVIO: A challenging?visual inertial odometry benchmark. In: Proceedings of the IEEE International?Conference on Robotics and Automation (ICRA). pp. 3847–3854. Singapore?(2017) 4, 5

19. Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z.,?Karpathy, A., Khosla, A., Bernstein, M., Berg, A., Fei-Fei, L.: ImageNet Large?Scale Visual Recognition Challenge. International Journal of Computer Vision?(IJCV) 115(3), 211–252 (2015) 2

20. Schneider, T., Dymczyk, M.T., Fehr, M., Egger, K., Lynen, S., Gilitschenski, I.,Siegwart, R.: Maplab: An open framework for research in visual-inertial mapping?and localization. IEEE Robotics and Automation Letters 3(3), 1418–1425 (2018)?12

21. Sch?ps, T., Engel, J., Cremers, D.: Semi-dense visual odometry for AR on a smartphone.?In: Proceedings of the International Symposium on Mixed and Augmented?Reality (ISMAR). pp. 145–150 (2014) 1

22. Shelley, M.A.: Monocular Visual Inertial Odometry on a Mobile Device. Master’s?thesis, Technical University of Munich, Germany (2014) 13

23. Smith, M., Baldwin, I., Churchill, W., Paul, R., Newman, P.: The New College?vision and laser data set. International Journal of Robotics Research 28(5), 595–?599 (2009) 4

24. Solin, A., Cortes, S., Rahtu, E., Kannala, J.: Inertial odometry on handheld smartphones.?In: Proceedings of the International Conference on Information Fusion?(FUSION). Cambridge, UK (2018) 3, 5, 8, 9

25. Solin, A., Cortes, S., Rahtu, E., Kannala, J.: PIVO: Probabilistic inertial-visual?odometry for occlusion-robust navigation. In: Proceeding of the IEEE Winter?Conference on Applications of Computer Vision (WACV). Lake Tahoe, NV, USA?(2018) 3, 5, 12

26. Sturm, J., Engelhard, N., Endres, F., Burgard, W., Cremers, D.: A benchmark?for the evaluation of RGB-D SLAM systems. In: Proceedings of the International?Conference on Intelligent Robot Systems (IROS). pp. 573–580 (2012) 4

補(bǔ)充材料

A Description of supplementary video

所附的補(bǔ)充視頻顯示了數(shù)據(jù)集序列16的真值軌跡(在這兩幢辦公樓中的一幢采集)。可視化軌跡是從整個IMU數(shù)據(jù)序列中計算出的真值軌跡。用于軌跡計算的固定點(diǎn)由dots可視化。當(dāng)前地板上的軌道顯示為紅色。視頻已被加速。

B Details on collected data

B.1 Ground-truth

Ground-truth poses:根據(jù)原始的IMU數(shù)據(jù)和一組已知的固定點(diǎn)計算相機(jī)的姿態(tài)(平移和方位)。在100 Hz處采樣真值軌跡。

Fix points:一組以視覺編輯為標(biāo)志的真值點(diǎn)。這些要點(diǎn)是基于系統(tǒng)存儲的三個視頻(主要是iphone和第二部iphone，其中記錄了記錄捕獲者的參考軌跡)和平面圖布局。

B.2 iPhone

Camera frames:相機(jī)幀在60fps(1280*720，縱向)時被捕獲。平臺獲取的準(zhǔn)確幀采集時間被存儲。這些幀被打包到一個H.264/MPEG-4視頻文件中。

Platform location:?通過核心定位收集的數(shù)據(jù)。更新速度取決于設(shè)備及其功能。所要求的位置具有所需的kCLLocationAccuracyBest。將時間戳轉(zhuǎn)換為與其他傳感器相同的時鐘(自設(shè)備啟動以來的時間間隔)。

Accelerometer:?通過CoreMotion/CMMotionManager采集，100Hz（最大采集速率）

Gyroscope:?通過CoreMotion/CMMotionManager采集，100Hz（最大采集速率），請注意，讀數(shù)在蘋果設(shè)備坐標(biāo)系中(這里沒有任何改變)。

Magnetometer:?通過CoreMotion/CMMotionManager采集，100Hz（最大采集速率），值是三軸磁強(qiáng)計的讀數(shù)。所有的數(shù)值都是未校準(zhǔn)的。

Barometric altimeter:?CoreMotion/CMAltimeter采集，以不均勻的采樣率(1Hz)獲取的。采樣數(shù)據(jù)回調(diào)到達(dá)時被存儲。實(shí)際氣壓值為0，推斷的相對高度(用蘋果magic計算)儲存在Value 1中。

ARKit poses:?蘋果ARKit的位姿(平移和旋轉(zhuǎn))是在60Hz采集的。ARKit在iPhone上報告的相機(jī)參數(shù)也被存儲在iPhone上。

B.3 Tango

Tango poses (raw):?谷歌Tango原始姿態(tài)（平移和旋轉(zhuǎn)）在60Hz捕獲。

Tango poses (area learning):? 60Hz。

Camera frames:?視頻從Tango廣角(魚眼)攝像機(jī)上在5 fps/640*480捕獲。這些幀被打包成一個MPEG-4視頻文件。

Tango point clouds:?Tango裝置采集的 Tango點(diǎn)云數(shù)據(jù)，與設(shè)備的當(dāng)前姿態(tài)對齊。采樣率不均勻。

B.4 Pixel

ARCore poses: The Google ARCore poses (translation and orientation) are?captured at 30 Hz.

C Dataset structure

為了最大限度地兼容，所有數(shù)據(jù)都以開放和簡單的文件格式發(fā)布。逗號分隔值（CSV）文件在第一列中保存時間戳，并在后面的列中保存相應(yīng)的數(shù)據(jù)。所有時間戳在傳感器類型和設(shè)備之間同步。

攝像機(jī)幀存儲為H.264/MPEG視頻，相關(guān)的幀時間戳可在單獨(dú)的CSV文件中使用。一個數(shù)據(jù)集的文件夾結(jié)構(gòu)如下所示：

E Data set paths

下表列出了每個路徑形狀(頂部/側(cè)面視圖)和匯總信息。

總結(jié)

以上是生活随笔為你收集整理的【论文翻译】ADVIO: An Authentic Dataset for Visual-Inertial Odometry的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：什么是格式化？
下一篇：【数据结构与算法基础】AOE网络与关键路