日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自动驾驶前沿综述:基于深度强化学习的自动驾驶算法

發(fā)布時間:2024/10/8 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 自动驾驶前沿综述:基于深度强化学习的自动驾驶算法 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


?作者 | 陳道明

學(xué)校 | 布里斯托爾大學(xué)

研究方向 | 自動駕駛方向

這是 21 年的一篇綜述文章,可以算得上是最前沿的自動駕駛技術(shù)綜述。這幾年隨著深度表征學(xué)習(xí)的發(fā)展,強(qiáng)化學(xué)習(xí)領(lǐng)域也得到了加強(qiáng)。本文會對目前最先進(jìn)的自動駕駛 DRL 算法進(jìn)行匯總和分類。

論文標(biāo)題:

Deep Reinforcement Learning for Autonomous Driving: A Survey

論文鏈接:

https://arxiv.org/abs/2002.00444


簡介

自動駕駛系統(tǒng)(AD system),由多個級別的感知和控制任務(wù)組成,目前在感知方面,已經(jīng)可以通過深度學(xué)習(xí)架構(gòu)來實(shí)現(xiàn)。但在控制層面,經(jīng)典的監(jiān)督學(xué)習(xí)已經(jīng)不再使用,因?yàn)榇硇枰诿恳粋€瞬間做出動作決策,這些決策可能會改變場景條件。

▲ 自動駕駛各級別的任務(wù)


AD system 的組成

2.1 感知模塊(Preception Module)

感知模塊的目標(biāo)是創(chuàng)建環(huán)境狀態(tài)的中間級別表示(例如所有障礙物和代理的鳥瞰圖),稍后將由最終產(chǎn)生駕駛策略的決策系統(tǒng)使用。該狀態(tài)將包括車道位置、可行駛區(qū)域、代理(例如汽車和行人)的位置、交通信號燈的狀態(tài)等。感知中的不確定性傳播到信息鏈的其余部分。強(qiáng)大的傳感對于安全至關(guān)重要,因此使用冗余源可以提高檢測的信心。這是通過語義分割、運(yùn)動估計、深度估計、污點(diǎn)檢測等幾種感知任務(wù)的組合來實(shí)現(xiàn)的,這些任務(wù)可以有效地統(tǒng)一成一個多任務(wù)模型。

▲ 多視角相機(jī)融合的鳥瞰圖

2.2 場景理解(Scene Understanding)

該模塊的作用是將感知模塊獲得的信息映射到高級動作或決策層。該模塊旨在提供對場景的更高層次的理解,通過融合異構(gòu)傳感器源(如激光雷達(dá)、相機(jī)、雷達(dá)、超聲波),抽象和概括場景信息,為決策制定提供簡化的信息。

2.3 定位和建圖(Localization and Mapping)

定位和建圖技術(shù),又稱 SLAM 是自動駕駛的關(guān)鍵技術(shù)之一。由于問題的規(guī)模,傳統(tǒng)的 SLAM 技術(shù)通過語義對象檢測得到增強(qiáng),以實(shí)現(xiàn)可靠的消歧。此外,局部高清地圖(HD maps)可以用作物體檢測的先驗(yàn)。

2.4 規(guī)劃和推動策略(Planning and Driving Policy)

軌跡規(guī)劃是自動駕駛中的關(guān)鍵模塊,在高清地圖或基于 GPS 的地圖上計劃路線,并引導(dǎo)代理生成運(yùn)動層的命令。經(jīng)典運(yùn)動計劃會忽略環(huán)境動態(tài)和差分約束,因此類似于 A* 算法之類的基于 Djisktra 的算法在此問題中并不適用。而快速探索隨機(jī)樹(RRT)通過隨機(jī)采樣和無障礙路徑生成來探索配置空間。目前有多種版本的 RRT 被用于自動駕駛管道中的運(yùn)動規(guī)劃。

2.5 控制(Control)

這是最底層的運(yùn)動控制,即汽車的加速加速,方向盤的轉(zhuǎn)動角度,以及剎車。目前的車輛控制通常是基于經(jīng)典的最優(yōu)控制理論,通過狀態(tài)空間方程 中的汽車當(dāng)前狀態(tài) 和 控制輸入量 來控制汽車。此方法通常使用 MPC 模型和 PID 控制器使車輛跟隨軌跡。但是目前自動駕駛車輛通常使用的是強(qiáng)化學(xué)習(xí),該方法的好處是可以處理隨機(jī)控制問題以及具有未知獎勵和狀態(tài)轉(zhuǎn)移概率的不適定問題。更多此方面的內(nèi)容推薦閱讀綜述文 [1]。


強(qiáng)化學(xué)習(xí)(reinforcement Learning)

強(qiáng)化學(xué)習(xí)(RL)是于 監(jiān)督學(xué)習(xí)(Sueprvised Learning)和非監(jiān)督學(xué)習(xí)(Unsupervised Learning)之外的第三種機(jī)器學(xué)習(xí)(Machine Learning)方式。RL 通過一個代理來完成行動策略。代理的目標(biāo)是最大化在其生命周期內(nèi)收到的累積獎勵。代理可以通過利用了解不同狀態(tài)-動作對的預(yù)期效用(即預(yù)期未來獎勵的折扣和)的知識來逐漸增加其長期獎勵。

在形式化涉及單個 RL 代理的順序決策問題時,馬爾可夫決策過程 (MDP) 是最流行的解決方法。MDP 由一個狀態(tài)集合 、一個動作集合 、一個轉(zhuǎn)移函數(shù) 和一個獎勵函數(shù) 組成。通過目標(biāo)是找到最優(yōu)策略 ,從而產(chǎn)生最高的折扣獎勵總和期望值:

其中, 是遵循策略 的狀態(tài)值方程, 是折扣系數(shù),, 用于控制代理如何看待未來的獎勵,低 值鼓勵代理人的短視行為,其中代理人旨在最大化短期獎勵,而高 值導(dǎo)致代理人更具前瞻性并在更長的時間范圍內(nèi)最大化獎勵。 為時間步數(shù),它可以是有限的也可以是無限的。

另一個與狀態(tài)函數(shù)方程相關(guān)的是狀態(tài)-動作方程,又稱為“Q值”:

▲ MDP 決策的組成部分和關(guān)系圖

在許多現(xiàn)實(shí)世界的應(yīng)用領(lǐng)域中,智能體不可能觀察到環(huán)境狀態(tài)的所有特征;在這種情況下,決策問題被表述為部分可觀察的馬爾可夫決策過程(POMDP)。解決強(qiáng)化學(xué)習(xí)任務(wù)意味著找到一個策略 ,該策略使?fàn)顟B(tài)空間中軌跡上的期望折扣總和最大化。

RL 代理可以直接學(xué)習(xí)價值函數(shù)估計、策略和/或環(huán)境模型。動態(tài)規(guī)劃(DP)算法可用于在給定環(huán)境模型的獎勵和轉(zhuǎn)移函數(shù)方面計算最優(yōu)策略。與 DP 不同,在 MonteCarlo 方法中沒有完整環(huán)境知識的假設(shè)。蒙特卡洛方法在逐集意義上是增量的。情節(jié)完成后,價值估計和政策被更新。

另一方面,時間差(TD)方法在逐步意義上是增量的,使其適用于非情節(jié)場景。與蒙特卡羅方法一樣,TD 方法可以直接從原始經(jīng)驗(yàn)中學(xué)習(xí),而無需環(huán)境動態(tài)模型。與 DP 一樣,TD 方法基于其他估計來學(xué)習(xí)它們的估計。

文章對于 RL 和 DRL 的算法進(jìn)行了綜合性的概述,這里不做詳細(xì)的解釋,建議系統(tǒng)性的學(xué)習(xí)這些算法。



自動駕駛?cè)蝿?wù)中的強(qiáng)化學(xué)習(xí)

在自動駕駛中,RL 可以完成的任務(wù)有:控制器優(yōu)化、路徑規(guī)劃和軌跡優(yōu)化、運(yùn)動規(guī)劃和動態(tài)路徑規(guī)劃、為復(fù)雜導(dǎo)航任務(wù)開發(fā)高級駕駛策略、高速公路、交叉路口、合并和拆分的基于場景的策略學(xué)習(xí),預(yù)測行人、車輛等交通參與者的意圖,并最終找到確保安全和執(zhí)行風(fēng)險估計的策略。

4.1 狀態(tài)空間、動作空間和獎勵

為了成功地將 DRL 應(yīng)用于自動駕駛?cè)蝿?wù),設(shè)計適當(dāng)?shù)臓顟B(tài)空間、動作空間和獎勵函數(shù)非常重要。

4.1.2 狀態(tài)空間

自動駕駛汽車常用的狀態(tài)空間特征包括:本車的位置、航向和速度,以及本車的傳感器視野范圍內(nèi)的其他障礙物。此外,我們通常使用一個以自主車輛為中心的坐標(biāo)系,并在其中增強(qiáng)車道信息,路徑曲率、自主的過去和未來軌跡、縱向信息等。我們通常會使用一個鳥瞰圖來展示這些信息。

▲ 鳥瞰圖

4.1.3 動作空間

自主車輛的控制策略需要操縱一系列執(zhí)行器,比如方向盤,油門和剎車(暫時不考慮其他的執(zhí)行器)。有一點(diǎn)需要注意的是,這些控制器都是在連續(xù)空間中運(yùn)行的,而大多數(shù) DRL 控制器屬于離散空間。因此我們需要選擇合適的時間步長。

獎勵

為自動駕駛的 DRL 代理設(shè)計獎勵函數(shù)仍然是一個懸而未決的問題。AD 任務(wù)的標(biāo)準(zhǔn)示例包括:向目的地行駛的距離 、本車的速度、使本車保持靜止、與其他道路使用者或場景對象的碰撞,人行道上的違規(guī)行為,保持在車道上,保持舒適和穩(wěn)定性,同時避免極端加速、制動或轉(zhuǎn)向,并遵守交通規(guī)則。

4.2 運(yùn)動規(guī)劃和軌跡優(yōu)化

運(yùn)動規(guī)劃是確保目標(biāo)點(diǎn)和目的地點(diǎn)之間存在路徑的任務(wù)。但是動態(tài)環(huán)境和變化的車輛動力學(xué)中的路徑規(guī)劃是自動駕駛中的一個難題,比如通過十字路口,或者并入高速公路。有許多文章在這方面做了嘗試,并獲得了不錯的效果,比如論文 [4] [5] [6] [7]。

4.3 模擬器和場景生成工具

自動駕駛數(shù)據(jù)集使用包含圖像、標(biāo)簽對的訓(xùn)練集來處理監(jiān)督學(xué)習(xí)設(shè)置,用于各種模式。強(qiáng)化學(xué)習(xí)需要一個可以恢復(fù)狀態(tài)-動作對的環(huán)境,同時分別對車輛狀態(tài)、環(huán)境以及環(huán)境和代理的運(yùn)動和動作的隨機(jī)性進(jìn)行建模。各種模擬器被積極用于訓(xùn)練和驗(yàn)證強(qiáng)化學(xué)習(xí)算法。具體信息如下:

自動駕駛在現(xiàn)實(shí)世界的挑戰(zhàn)

此部分內(nèi)容我目前不會接觸到,因此先留個坑,等以后再填。


參考文獻(xiàn)

[1] A Survey of Deep Learning Applications to Autonomous Vehicle Control:

https://ieeexplore.ieee.org/abstract/document/8951131?casa_token=fwUZxwU0Eo8AAAAA:B

[2] End-to-End Deep Reinforcement Learning for Lane Keeping Assist:https://arxiv.org/abs/1612.04340

[3] Deep Reinforcement Learning framework for Autonomous Driving:https://www.ingentaconnect.com/content/ist/ei/2017/00002017/00000019/art00012

[4] A Reinforcement Learning Based Approach for Automated Lane Change Maneuvers:https://ieeexplore.ieee.org/abstract/document/8500556?casa_token=OcyB7gHOxcAAAAAA:JrwO6

[5] Formulation of deep reinforcement learning architecture toward autonomous driving for on-ramp merge:https://ieeexplore.ieee.org/abstract/document/8317735?casa_token=HaEyBLwaSU0AAAAA:5

[6] A Multiple-Goal Reinforcement Learning Method for Complex Vehicle Overtaking Maneuvers:https://ieeexplore.ieee.org/abstract/document/5710424?casa_token=Y-bJbe3K9r0AAAAA:ZNo

[7] Navigating Occluded Intersections with Autonomous Vehicles Using Deep Reinforcement Learning:https://ieeexplore.ieee.org/abstract/document/8461233?casa_token=uuC5uVdLp60AAAAA:6fr7

[8] Reinforcement Learning with A* and a Deep Heuristic:https://arxiv.org/abs/1811.07745

[9] CARLA: An Open Urban Driving Simulator:https://proceedings.mlr.press/v78/dosovitskiy17a.html

[10] TORCS - The Open Racing Car Simulator:https://sourceforge.net/projects/torcs/

[11] MADRaS Multi-Agent DRiving Simulato:https://www.opensourceagenda.com/projects/madras

[12] Microscopic Traffic Simulation using SUMO:https://ieeexplore.ieee.org/abstract/document/8569938?casa_token=1z4z-bT6kTsAAAAA:BdTO6tJB4xEgr_EO0CPveWlForEQHJWyprok3uyy3DssqzT-7Eh-pr7H__3DOJPDdpuIVUr7Lw

[13] Flow: Architecture and Benchmarking for Reinforcement Learning in Traffic Control:https://www.researchgate.net/profile/Abdul-Rahman-Kreidieh/publication/320441979_Flow_Archite

[14] A Collection of Environments for Autonomous Driving and Tactical Decision-Making Tasks:https://github.com/eleurent/highway-env

更多閱讀

#投 稿?通 道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。

總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析科研心得競賽經(jīng)驗(yàn)講解等。我們的目的只有一個,讓知識真正流動起來。

📝?稿件基本要求:

? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題

? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道:

? 投稿郵箱:hr@paperweekly.site?

? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者

? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿

△長按添加PaperWeekly小編

🔍

現(xiàn)在,在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

·

總結(jié)

以上是生活随笔為你收集整理的自动驾驶前沿综述:基于深度强化学习的自动驾驶算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。