當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

边界化难题终结者！将自监督学习应用到自动驾驶上 | CVPR 2021

發(fā)布時(shí)間：2024/10/8 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了边界化难题终结者！将自监督学习应用到自动驾驶上 | CVPR 2021 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

有人說，自動駕駛已經(jīng)解決了 90% 的問題，但剩下 10% 的問題卻是最難解決的，這 10% 包括很多邊界化難題，經(jīng)常被稱為 Corner Case。邊界化難題一般是指從未遇到過的問題，因?yàn)槿鄙贁?shù)據(jù)，自動駕駛車輛無法應(yīng)對這些問題，比如下圖這個(gè)披著恐龍服的小孩。

也有人說，人工智能這東西，有多少智能，就有多少人工。因?yàn)槟壳吧疃葘W(xué)習(xí)技術(shù)常運(yùn)用監(jiān)督式學(xué)習(xí)，這種方式過于依賴大規(guī)模標(biāo)注數(shù)據(jù)集，需要耗費(fèi)大量的人力來完成數(shù)據(jù)集的收集和人工標(biāo)注。對于自動駕駛而言，通過實(shí)際路測獲得足夠多的有意義的數(shù)據(jù)更不是一件容易的事。

這些老大難的問題，在自監(jiān)督學(xué)習(xí)這一概念的支撐下似乎都有解了。

近日，國內(nèi)自動駕駛公司輕舟智航聯(lián)手約翰霍普金斯大學(xué)的學(xué)者，借助自監(jiān)督學(xué)習(xí)，從未標(biāo)注的激光雷達(dá)點(diǎn)云和配對的相機(jī)圖像中獲得了點(diǎn)云運(yùn)動信息，在不需要標(biāo)注數(shù)據(jù)的情況下，就可以較好地理解交通參與者的運(yùn)動。

目前，這一研究成果已被 CVPR 2021 收錄。CVPR 是一年一度的學(xué)術(shù)性會議，也是世界頂級的計(jì)算機(jī)視覺會議之一。

自監(jiān)督學(xué)習(xí)是人工智能蛋糕里最大的一塊

在介紹這一成果之前，我們先來看下究竟什么是自監(jiān)督學(xué)習(xí)。

監(jiān)督學(xué)習(xí)需要有大量的標(biāo)注數(shù)據(jù)，被學(xué)術(shù)界詬病已久，加州大學(xué)伯克利分校教授 Jitendra Malik 就曾經(jīng)說過：“監(jiān)督學(xué)習(xí)是人工智能研究人員的鴉片”。而在卡耐基梅隆大學(xué)教授 Alyosha Efros 看來，“屬于人工智能的革命是不會受到監(jiān)督的”（ The AI revolution will not be supervised）。

自監(jiān)督學(xué)習(xí)解決的是監(jiān)督學(xué)習(xí)過于依賴大規(guī)模標(biāo)注數(shù)據(jù)集的難題，能從大規(guī)模未標(biāo)記數(shù)據(jù)中學(xué)習(xí)特征，無需使用任何人工標(biāo)注數(shù)據(jù)。目前已被應(yīng)用在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域。

典型的自監(jiān)督任務(wù)包括給照片上色：

把模糊的照片變高清：

自監(jiān)督學(xué)習(xí)已經(jīng)是 AI 領(lǐng)域里最令人興奮的方向，深度學(xué)習(xí)三巨頭之一、圖靈獎得主、Facebook 首席 AI 科學(xué)家 Yann Lecun 是這么比喻自監(jiān)督學(xué)習(xí)的：“如果人工智能是一塊蛋糕，那么蛋糕的最大一部分是自監(jiān)督學(xué)習(xí)，蛋糕上的糖衣是監(jiān)督學(xué)習(xí)，蛋糕上的櫻桃是強(qiáng)化學(xué)習(xí)。”

為什么會想把自監(jiān)督學(xué)習(xí)應(yīng)用到車載激光雷達(dá)點(diǎn)云上

當(dāng)自動駕駛汽車在行駛過程中，需要實(shí)時(shí)理解各種交通參與者的運(yùn)動，這些運(yùn)動狀態(tài)信息對于各個(gè)技術(shù)模塊來說都非常重要，涉及檢測、跟蹤、預(yù)測、規(guī)劃等等。

自動駕駛汽車通常配有多個(gè)傳感器，其中最常用的是激光雷達(dá)。因此，如何從點(diǎn)云中獲得其他交通參與者的運(yùn)動信息是一個(gè)重要課題，并且存在如下挑戰(zhàn)：

交通參與者的類別不一樣，每個(gè)類別都表現(xiàn)出特定的運(yùn)動行為；
激光雷達(dá)點(diǎn)云的稀疏性導(dǎo)致兩次激光雷達(dá)掃描的情況不能精確地被對應(yīng)起來；
需要在很短的時(shí)間內(nèi)和有限的車載算力下完成計(jì)算。

傳統(tǒng)的做法，是通過識別場景中其它交通參與者，根據(jù)所觀測到的歷史信息，來預(yù)測交通場景會如何變化，從而實(shí)現(xiàn)預(yù)測。

但是，大多數(shù)識別模型都是為檢測若干已知類別的物體而訓(xùn)練的。在實(shí)際情況中，經(jīng)常會遇上從未出現(xiàn)過的物體類，因此這肯定不是長久之計(jì)。

另一種做法是通過估計(jì)激光雷達(dá)點(diǎn)云每個(gè)點(diǎn)的 3D 運(yùn)動來從點(diǎn)云中估計(jì)場景流，但這樣做對計(jì)算的要求太高了，自動駕駛車又特別需要滿足實(shí)時(shí)性，所以根本無法進(jìn)行實(shí)際應(yīng)用。

第三種做法是基于 BEV（Bird’s Eye View）的方式，把激光雷達(dá)的點(diǎn)云畫成一個(gè)個(gè)小網(wǎng)格，每個(gè)網(wǎng)格單元被稱為體柱，點(diǎn)云的運(yùn)動信息可以通過所有體柱的位移向量來描述，該位移向量描述了每個(gè)體柱在地面上的移動大小和方向。

這種表征方法成功簡化了運(yùn)動場景，反正只需要考慮在水平方向上的運(yùn)動情況，而不用特別考慮垂直方向上的運(yùn)動。這種方式的所有關(guān)鍵操作都可以通過 2D 卷積進(jìn)行，計(jì)算速度非常快。但是，這種方式需要依靠大量帶有標(biāo)注的點(diǎn)云數(shù)據(jù)，但點(diǎn)云數(shù)據(jù)的標(biāo)注成本比普通圖像更高。

據(jù)統(tǒng)計(jì)，這些現(xiàn)狀，激發(fā)了輕舟智航和約翰霍普金斯大學(xué)學(xué)者的研究興趣。一輛自動駕駛汽車每天會產(chǎn)生超過 1TB 的數(shù)據(jù)，但僅有不到 5% 的數(shù)據(jù)被利用，若能把其他數(shù)據(jù)也充分利用起來，在沒有手工標(biāo)注的數(shù)據(jù)上來進(jìn)行學(xué)習(xí)，效率必將大幅提升。

用于自動駕駛的自監(jiān)督“點(diǎn)云運(yùn)動學(xué)習(xí)”

如圖 1 所示，為了充分利用 BEV 中運(yùn)動表征的優(yōu)點(diǎn)，研究團(tuán)隊(duì)將點(diǎn)云組織成體柱（Pillar），并將與每個(gè)體柱相關(guān)的運(yùn)動信息稱為體柱運(yùn)動（Pillar Motion）。

▲ 圖1.?該研究提出的自監(jiān)督體柱運(yùn)動學(xué)習(xí)概覽

研究團(tuán)隊(duì)先引入了一種基于點(diǎn)云的自監(jiān)督學(xué)習(xí)方法，假設(shè)連續(xù)兩次掃描之間的體柱或物體的結(jié)構(gòu)形狀是不變的。然而，這在大多數(shù)情況下是不成立的，因?yàn)榧す饫走_(dá)的稀疏掃描，連續(xù)的兩個(gè)點(diǎn)云缺乏精確的點(diǎn)與點(diǎn)的對應(yīng)。

解決方案是利用從相機(jī)圖像中提取的光流來提供跨傳感器的自監(jiān)督和正則化。如圖 2 所示，這種設(shè)計(jì)形成了一個(gè)統(tǒng)一的學(xué)習(xí)框架，包括激光雷達(dá)和配對相機(jī)之間的交互：

(1) 點(diǎn)云有助于將自車運(yùn)動（Ego-motion）導(dǎo)致的圖像運(yùn)動從光流中分解出來；

(2) 光流為點(diǎn)云中的體柱運(yùn)動學(xué)習(xí)提供了輔助正則化；

(3) 反投影（Back-projected）光流形成的概率運(yùn)動掩膜（Probabilistic Motion Masking）提升了點(diǎn)云結(jié)構(gòu)的一致性。

注意，與相機(jī)相關(guān)的模塊僅用于訓(xùn)練，在推理階段不會被使用，因此，在運(yùn)行時(shí)不會對相機(jī)相關(guān)的模塊引入額外的計(jì)算。

▲?圖2：用于點(diǎn)云體柱運(yùn)動估計(jì)的自監(jiān)督學(xué)習(xí)框架

如圖 2 所示，該研究提出的運(yùn)動學(xué)習(xí)方法將點(diǎn)云的結(jié)構(gòu)一致性自監(jiān)督與跨傳感器的運(yùn)動正則化緊密耦合。

正則化包括從光流中分解出自我運(yùn)動，并在傳感器之間執(zhí)行運(yùn)動一致性（motion agreement）。該研究還引入了一種基于反投影（back-projected）光流的概率運(yùn)動掩膜（probabilistic motion masking）來增強(qiáng)點(diǎn)云的結(jié)構(gòu)相似性匹配。

▲ 圖3.?概率運(yùn)動掩膜說明，左：投影點(diǎn)在前向相機(jī)圖像上的光流（已將自我運(yùn)動分解）。右：點(diǎn)云的一部分，顏色表示非空體柱的靜態(tài)概率

首個(gè)能夠在完全自監(jiān)督框架下進(jìn)行點(diǎn)云體柱運(yùn)動預(yù)測的學(xué)習(xí)范式

研究成果的表現(xiàn)究竟如何，還是要靠事實(shí)來證明。

研究人員首先進(jìn)行了各種組合實(shí)驗(yàn)，以評估設(shè)計(jì)中每個(gè)單獨(dú)組件的貢獻(xiàn)。如表 1 所示：

▲?表1.?每個(gè)單獨(dú)組件的貢獻(xiàn)，結(jié)果包括均值和中位誤差

研究團(tuán)隊(duì)將他們所采用的方法與表 3 中的各種監(jiān)督算法進(jìn)行了比較。

實(shí)驗(yàn)首先將提出的自監(jiān)督模型與 FlowNet3D、HPLFlowNet 進(jìn)行了比較，這些模型都在 FlyingThings3D 以及 KITTI Scene Flow 進(jìn)行了預(yù)訓(xùn)練。

在表 3 中可以看到，該研究提出的模型在很大程度上優(yōu)于這兩種有監(jiān)督的預(yù)訓(xùn)練模型。

值得注意的是，這一成果甚至優(yōu)于或接近一些在基準(zhǔn)數(shù)據(jù)集上全監(jiān)督訓(xùn)練的方法，如 FlowNet3D、HPLFlowNet、PointRCNN。

當(dāng)使用真值標(biāo)簽進(jìn)一步微調(diào)該研究提出的自監(jiān)督模型時(shí)，該模型實(shí)現(xiàn) SOTA 性能。如表 3 所示，對于快速運(yùn)動的目標(biāo)，微調(diào)模型明顯優(yōu)于 MotionNet。

這說明研究團(tuán)隊(duì)提出的自監(jiān)督模型為有效的監(jiān)督訓(xùn)練提供了更好的基礎(chǔ)，并且自監(jiān)督學(xué)習(xí)的增益不會隨著復(fù)雜的監(jiān)督訓(xùn)練而減少。

▲?表3.?與SOTA結(jié)果對比。實(shí)驗(yàn)分為三個(gè)速度組，表中記錄了平均誤差和中位誤差

最后，實(shí)驗(yàn)展示了利用不同的自監(jiān)督組合進(jìn)行體柱運(yùn)動估計(jì)的定性結(jié)果。

如圖 5 所示，這些示例呈現(xiàn)了不同的交通場景。與該研究的完整模型相比，僅使用結(jié)構(gòu)一致性損失的基本模型傾向于在背景區(qū)域（第 1 列和第 5 列）和靜態(tài)前景目標(biāo)（第 2 列和第 3 列）中生成假陽性運(yùn)動預(yù)測。

與基本模型相比，完整模型還能夠在移動目標(biāo)上產(chǎn)生更平滑的運(yùn)動（第 5 列和第 6 列）。此外，如第 4 列所示，基本模型中缺少場景右上角的移動卡車，但完全可以通過完整模型進(jìn)行合理的估計(jì)。這再次驗(yàn)證了從相機(jī)圖像中提取的運(yùn)動信息的有效性。

▲?圖5.?點(diǎn)云柱運(yùn)動預(yù)測對比。第一行顯示真值運(yùn)動場，第二行顯示的是該研究全模型的評估結(jié)果，而只使用結(jié)構(gòu)一致性的基礎(chǔ)模型的預(yù)測結(jié)果在第三行。每一列都演示了一個(gè)場景

研究團(tuán)隊(duì)正是這樣通過緊密整合激光雷達(dá)點(diǎn)云和配對相機(jī)圖像來實(shí)現(xiàn)所需的自監(jiān)督，這一成果也是全球首個(gè)能夠在完全自監(jiān)督框架下進(jìn)行點(diǎn)云體柱運(yùn)動預(yù)測的學(xué)習(xí)范式。

研究團(tuán)隊(duì)

研究團(tuán)隊(duì)中的兩位主要成員都是來自輕舟智航：楊曉東是輕舟智航研發(fā)總監(jiān)，曾任英偉達(dá)（NVIDIA Research）高級科學(xué)家；羅晨旭則是輕舟智航實(shí)習(xí)生，也是約翰霍普金斯大學(xué)（Johns Hopkins University）計(jì)算機(jī)科學(xué)系博士研究生；Alan Yuille 是約翰霍普金斯大學(xué)計(jì)算機(jī)科學(xué)系的彭博杰出教授。

論文題目：

Self-Supervised Pillar Motion Learning for Autonomous Driving

收錄會議：

CVPR 2021

論文鏈接：

https://arxiv.org/abs/2104.08683

輕舟智航 QCraft 火熱招聘中

輕舟智航「QCraft」是一支始創(chuàng)于硅谷的全華人團(tuán)隊(duì)，致力于打造適應(yīng)城市復(fù)雜交通環(huán)境的「老司機(jī)」，團(tuán)隊(duì)成員來自 Waymo、特斯拉、Uber ATG、福特、Facebook、英偉達(dá)等世界頂級自動駕駛公司和科技公司。?

作為國內(nèi) Robobus 的領(lǐng)跑者，輕舟智航的首款無人駕駛小巴龍舟 ONE 已在蘇州、深圳、武漢等多個(gè)城市落地，并在蘇州啟動「全國首個(gè)常態(tài)化運(yùn)營的 5G 無人公交」項(xiàng)目，在深圳推出全國首張無人公交月卡。如果你曾經(jīng)也想過從乘客變?yōu)闊o人駕駛的締造者，就快來加入 QCraft 吧！

輕舟智航現(xiàn)正面向全球開啟招聘，有眾多崗位開放招聘，歡迎識別二維碼，或者點(diǎn)擊「閱讀原文」，查看熱招職位。

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

與50位技術(shù)專家面對面20年技術(shù)見證，附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的边界化难题终结者！将自监督学习应用到自动驾驶上 | CVPR 2021的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：直播 | WWW 2021：用先验知识指
下一篇： Learning to Learn：图神