边界化难题终结者!将自监督学习应用到自动驾驶上 | CVPR 2021
有人說,自動駕駛已經(jīng)解決了 90% 的問題,但剩下 10% 的問題卻是最難解決的,這 10% 包括很多邊界化難題,經(jīng)常被稱為 Corner Case。邊界化難題一般是指從未遇到過的問題,因?yàn)槿鄙贁?shù)據(jù),自動駕駛車輛無法應(yīng)對這些問題,比如下圖這個(gè)披著恐龍服的小孩。
也有人說,人工智能這東西,有多少智能,就有多少人工。因?yàn)槟壳吧疃葘W(xué)習(xí)技術(shù)常運(yùn)用監(jiān)督式學(xué)習(xí),這種方式過于依賴大規(guī)模標(biāo)注數(shù)據(jù)集,需要耗費(fèi)大量的人力來完成數(shù)據(jù)集的收集和人工標(biāo)注。對于自動駕駛而言,通過實(shí)際路測獲得足夠多的有意義的數(shù)據(jù)更不是一件容易的事。
這些老大難的問題,在自監(jiān)督學(xué)習(xí)這一概念的支撐下似乎都有解了。
近日,國內(nèi)自動駕駛公司輕舟智航聯(lián)手約翰霍普金斯大學(xué)的學(xué)者,借助自監(jiān)督學(xué)習(xí),從未標(biāo)注的激光雷達(dá)點(diǎn)云和配對的相機(jī)圖像中獲得了點(diǎn)云運(yùn)動信息,在不需要標(biāo)注數(shù)據(jù)的情況下,就可以較好地理解交通參與者的運(yùn)動。
目前,這一研究成果已被 CVPR 2021 收錄。CVPR 是一年一度的學(xué)術(shù)性會議,也是世界頂級的計(jì)算機(jī)視覺會議之一。
自監(jiān)督學(xué)習(xí)是人工智能蛋糕里最大的一塊
在介紹這一成果之前,我們先來看下究竟什么是自監(jiān)督學(xué)習(xí)。
監(jiān)督學(xué)習(xí)需要有大量的標(biāo)注數(shù)據(jù),被學(xué)術(shù)界詬病已久,加州大學(xué)伯克利分校教授 Jitendra Malik 就曾經(jīng)說過:“監(jiān)督學(xué)習(xí)是人工智能研究人員的鴉片”。而在卡耐基梅隆大學(xué)教授 Alyosha Efros 看來,“屬于人工智能的革命是不會受到監(jiān)督的”( The AI revolution will not be supervised)。
自監(jiān)督學(xué)習(xí)解決的是監(jiān)督學(xué)習(xí)過于依賴大規(guī)模標(biāo)注數(shù)據(jù)集的難題,能從大規(guī)模未標(biāo)記數(shù)據(jù)中學(xué)習(xí)特征,無需使用任何人工標(biāo)注數(shù)據(jù)。目前已被應(yīng)用在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域。
典型的自監(jiān)督任務(wù)包括給照片上色:
把模糊的照片變高清:
自監(jiān)督學(xué)習(xí)已經(jīng)是 AI 領(lǐng)域里最令人興奮的方向,深度學(xué)習(xí)三巨頭之一、圖靈獎得主、Facebook 首席 AI 科學(xué)家 Yann Lecun 是這么比喻自監(jiān)督學(xué)習(xí)的:“如果人工智能是一塊蛋糕,那么蛋糕的最大一部分是自監(jiān)督學(xué)習(xí),蛋糕上的糖衣是監(jiān)督學(xué)習(xí),蛋糕上的櫻桃是強(qiáng)化學(xué)習(xí)。”
?
為什么會想把自監(jiān)督學(xué)習(xí)應(yīng)用到車載激光雷達(dá)點(diǎn)云上
當(dāng)自動駕駛汽車在行駛過程中,需要實(shí)時(shí)理解各種交通參與者的運(yùn)動,這些運(yùn)動狀態(tài)信息對于各個(gè)技術(shù)模塊來說都非常重要,涉及檢測、跟蹤、預(yù)測、規(guī)劃等等。
自動駕駛汽車通常配有多個(gè)傳感器,其中最常用的是激光雷達(dá)。因此,如何從點(diǎn)云中獲得其他交通參與者的運(yùn)動信息是一個(gè)重要課題,并且存在如下挑戰(zhàn):
交通參與者的類別不一樣,每個(gè)類別都表現(xiàn)出特定的運(yùn)動行為;
激光雷達(dá)點(diǎn)云的稀疏性導(dǎo)致兩次激光雷達(dá)掃描的情況不能精確地被對應(yīng)起來;
需要在很短的時(shí)間內(nèi)和有限的車載算力下完成計(jì)算。
傳統(tǒng)的做法,是通過識別場景中其它交通參與者,根據(jù)所觀測到的歷史信息,來預(yù)測交通場景會如何變化,從而實(shí)現(xiàn)預(yù)測。
但是,大多數(shù)識別模型都是為檢測若干已知類別的物體而訓(xùn)練的。在實(shí)際情況中,經(jīng)常會遇上從未出現(xiàn)過的物體類,因此這肯定不是長久之計(jì)。
另一種做法是通過估計(jì)激光雷達(dá)點(diǎn)云每個(gè)點(diǎn)的 3D 運(yùn)動來從點(diǎn)云中估計(jì)場景流,但這樣做對計(jì)算的要求太高了,自動駕駛車又特別需要滿足實(shí)時(shí)性,所以根本無法進(jìn)行實(shí)際應(yīng)用。
第三種做法是基于 BEV(Bird’s Eye View)的方式,把激光雷達(dá)的點(diǎn)云畫成一個(gè)個(gè)小網(wǎng)格,每個(gè)網(wǎng)格單元被稱為體柱,點(diǎn)云的運(yùn)動信息可以通過所有體柱的位移向量來描述,該位移向量描述了每個(gè)體柱在地面上的移動大小和方向。
這種表征方法成功簡化了運(yùn)動場景,反正只需要考慮在水平方向上的運(yùn)動情況,而不用特別考慮垂直方向上的運(yùn)動。這種方式的所有關(guān)鍵操作都可以通過 2D 卷積進(jìn)行,計(jì)算速度非常快。但是,這種方式需要依靠大量帶有標(biāo)注的點(diǎn)云數(shù)據(jù),但點(diǎn)云數(shù)據(jù)的標(biāo)注成本比普通圖像更高。
據(jù)統(tǒng)計(jì),這些現(xiàn)狀,激發(fā)了輕舟智航和約翰霍普金斯大學(xué)學(xué)者的研究興趣。一輛自動駕駛汽車每天會產(chǎn)生超過 1TB 的數(shù)據(jù),但僅有不到 5% 的數(shù)據(jù)被利用,若能把其他數(shù)據(jù)也充分利用起來,在沒有手工標(biāo)注的數(shù)據(jù)上來進(jìn)行學(xué)習(xí),效率必將大幅提升。
?
用于自動駕駛的自監(jiān)督“點(diǎn)云運(yùn)動學(xué)習(xí)”
如圖 1 所示,為了充分利用 BEV 中運(yùn)動表征的優(yōu)點(diǎn),研究團(tuán)隊(duì)將點(diǎn)云組織成體柱(Pillar),并將與每個(gè)體柱相關(guān)的運(yùn)動信息稱為體柱運(yùn)動(Pillar Motion)。
?
▲ 圖1.?該研究提出的自監(jiān)督體柱運(yùn)動學(xué)習(xí)概覽
研究團(tuán)隊(duì)先引入了一種基于點(diǎn)云的自監(jiān)督學(xué)習(xí)方法,假設(shè)連續(xù)兩次掃描之間的體柱或物體的結(jié)構(gòu)形狀是不變的。然而,這在大多數(shù)情況下是不成立的,因?yàn)榧す饫走_(dá)的稀疏掃描,連續(xù)的兩個(gè)點(diǎn)云缺乏精確的點(diǎn)與點(diǎn)的對應(yīng)。
解決方案是利用從相機(jī)圖像中提取的光流來提供跨傳感器的自監(jiān)督和正則化。如圖 2 所示,這種設(shè)計(jì)形成了一個(gè)統(tǒng)一的學(xué)習(xí)框架,包括激光雷達(dá)和配對相機(jī)之間的交互:
(1) 點(diǎn)云有助于將自車運(yùn)動(Ego-motion)導(dǎo)致的圖像運(yùn)動從光流中分解出來;
(2) 光流為點(diǎn)云中的體柱運(yùn)動學(xué)習(xí)提供了輔助正則化;
(3) 反投影(Back-projected)光流形成的概率運(yùn)動掩膜(Probabilistic Motion Masking)提升了點(diǎn)云結(jié)構(gòu)的一致性。
注意,與相機(jī)相關(guān)的模塊僅用于訓(xùn)練,在推理階段不會被使用,因此,在運(yùn)行時(shí)不會對相機(jī)相關(guān)的模塊引入額外的計(jì)算。
▲?圖2:用于點(diǎn)云體柱運(yùn)動估計(jì)的自監(jiān)督學(xué)習(xí)框架
如圖 2 所示,該研究提出的運(yùn)動學(xué)習(xí)方法將點(diǎn)云的結(jié)構(gòu)一致性自監(jiān)督與跨傳感器的運(yùn)動正則化緊密耦合。
正則化包括從光流中分解出自我運(yùn)動,并在傳感器之間執(zhí)行運(yùn)動一致性(motion agreement)。該研究還引入了一種基于反投影(back-projected)光流的概率運(yùn)動掩膜(probabilistic motion masking)來增強(qiáng)點(diǎn)云的結(jié)構(gòu)相似性匹配。
▲ 圖3.?概率運(yùn)動掩膜說明,左:投影點(diǎn)在前向相機(jī)圖像上的光流(已將自我運(yùn)動分解)。右:點(diǎn)云的一部分,顏色表示非空體柱的靜態(tài)概率
首個(gè)能夠在完全自監(jiān)督框架下進(jìn)行點(diǎn)云體柱運(yùn)動預(yù)測的學(xué)習(xí)范式
研究成果的表現(xiàn)究竟如何,還是要靠事實(shí)來證明。
研究人員首先進(jìn)行了各種組合實(shí)驗(yàn),以評估設(shè)計(jì)中每個(gè)單獨(dú)組件的貢獻(xiàn)。如表 1 所示:
▲?表1.?每個(gè)單獨(dú)組件的貢獻(xiàn),結(jié)果包括均值和中位誤差
研究團(tuán)隊(duì)將他們所采用的方法與表 3 中的各種監(jiān)督算法進(jìn)行了比較。
實(shí)驗(yàn)首先將提出的自監(jiān)督模型與 FlowNet3D、HPLFlowNet 進(jìn)行了比較,這些模型都在 FlyingThings3D 以及 KITTI Scene Flow 進(jìn)行了預(yù)訓(xùn)練。
在表 3 中可以看到,該研究提出的模型在很大程度上優(yōu)于這兩種有監(jiān)督的預(yù)訓(xùn)練模型。
值得注意的是,這一成果甚至優(yōu)于或接近一些在基準(zhǔn)數(shù)據(jù)集上全監(jiān)督訓(xùn)練的方法,如 FlowNet3D、HPLFlowNet、PointRCNN。
當(dāng)使用真值標(biāo)簽進(jìn)一步微調(diào)該研究提出的自監(jiān)督模型時(shí),該模型實(shí)現(xiàn) SOTA 性能。如表 3 所示,對于快速運(yùn)動的目標(biāo),微調(diào)模型明顯優(yōu)于 MotionNet。
這說明研究團(tuán)隊(duì)提出的自監(jiān)督模型為有效的監(jiān)督訓(xùn)練提供了更好的基礎(chǔ),并且自監(jiān)督學(xué)習(xí)的增益不會隨著復(fù)雜的監(jiān)督訓(xùn)練而減少。
▲?表3.?與SOTA結(jié)果對比。實(shí)驗(yàn)分為三個(gè)速度組,表中記錄了平均誤差和中位誤差
最后,實(shí)驗(yàn)展示了利用不同的自監(jiān)督組合進(jìn)行體柱運(yùn)動估計(jì)的定性結(jié)果。
如圖 5 所示,這些示例呈現(xiàn)了不同的交通場景。與該研究的完整模型相比,僅使用結(jié)構(gòu)一致性損失的基本模型傾向于在背景區(qū)域(第 1 列和第 5 列)和靜態(tài)前景目標(biāo)(第 2 列和第 3 列)中生成假陽性運(yùn)動預(yù)測。
與基本模型相比,完整模型還能夠在移動目標(biāo)上產(chǎn)生更平滑的運(yùn)動(第 5 列和第 6 列)。此外,如第 4 列所示,基本模型中缺少場景右上角的移動卡車,但完全可以通過完整模型進(jìn)行合理的估計(jì)。這再次驗(yàn)證了從相機(jī)圖像中提取的運(yùn)動信息的有效性。
▲?圖5.?點(diǎn)云柱運(yùn)動預(yù)測對比。第一行顯示真值運(yùn)動場,第二行顯示的是該研究全模型的評估結(jié)果,而只使用結(jié)構(gòu)一致性的基礎(chǔ)模型的預(yù)測結(jié)果在第三行。每一列都演示了一個(gè)場景
研究團(tuán)隊(duì)正是這樣通過緊密整合激光雷達(dá)點(diǎn)云和配對相機(jī)圖像來實(shí)現(xiàn)所需的自監(jiān)督,這一成果也是全球首個(gè)能夠在完全自監(jiān)督框架下進(jìn)行點(diǎn)云體柱運(yùn)動預(yù)測的學(xué)習(xí)范式。
研究團(tuán)隊(duì)
研究團(tuán)隊(duì)中的兩位主要成員都是來自輕舟智航:楊曉東是輕舟智航研發(fā)總監(jiān),曾任英偉達(dá)(NVIDIA Research)高級科學(xué)家;羅晨旭則是輕舟智航實(shí)習(xí)生,也是約翰霍普金斯大學(xué)(Johns Hopkins University)計(jì)算機(jī)科學(xué)系博士研究生;Alan Yuille 是約翰霍普金斯大學(xué)計(jì)算機(jī)科學(xué)系的彭博杰出教授。
論文題目:
Self-Supervised Pillar Motion Learning for Autonomous Driving
收錄會議:
CVPR 2021
論文鏈接:
https://arxiv.org/abs/2104.08683
輕舟智航 QCraft 火熱招聘中
輕舟智航「QCraft」是一支始創(chuàng)于硅谷的全華人團(tuán)隊(duì),致力于打造適應(yīng)城市復(fù)雜交通環(huán)境的「老司機(jī)」,團(tuán)隊(duì)成員來自 Waymo、特斯拉、Uber ATG、福特、Facebook、英偉達(dá)等世界頂級自動駕駛公司和科技公司。?
作為國內(nèi) Robobus 的領(lǐng)跑者,輕舟智航的首款無人駕駛小巴龍舟 ONE 已在蘇州、深圳、武漢等多個(gè)城市落地,并在蘇州啟動「全國首個(gè)常態(tài)化運(yùn)營的 5G 無人公交」項(xiàng)目,在深圳推出全國首張無人公交月卡。如果你曾經(jīng)也想過從乘客變?yōu)闊o人駕駛的締造者,就快來加入 QCraft 吧!
輕舟智航現(xiàn)正面向全球開啟招聘,有眾多崗位開放招聘,歡迎識別二維碼,或者點(diǎn)擊「閱讀原文」,查看熱招職位。
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的边界化难题终结者!将自监督学习应用到自动驾驶上 | CVPR 2021的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 直播 | WWW 2021:用先验知识指
- 下一篇: Learning to Learn:图神