當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】

發布時間：2025/4/5 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章脈絡【Dueling DQN+Prioritized Memory ，2019年TVT】

1、貢獻
- 1）首次將dueling network，target network，double DQN 和prioritized experience replay結合在一起。
- 2）提出了一種在整個周期內確定相位持續時間的控制系統，而不是將時間分段。
- 3）在SUMO上進行實驗。
2、問題定義
- 1）狀態
- 2）動作
- 3）獎勵
3、網絡結構
- A、CNN
- B、Dueling DQN
- C、Target network
- D、Double DQN
- E、具有優先級的經驗回放
- F、優化
- 算法整體偽代碼
4、實驗

1、貢獻

1）首次將dueling network，target network，double DQN 和prioritized experience replay結合在一起。

2）提出了一種在整個周期內確定相位持續時間的控制系統，而不是將時間分段。

3）在SUMO上進行實驗。

2、問題定義

1）狀態

將路口分割成大小相同的小正方形，每個網格是車輛的狀態值**<位置，速度>**。
位置是0或1【有車輛和沒有車輛】，當該位置有車輛時對應顯示其速度值[實數]。

2）動作

改變的是相位的持續時間，每次加5s。最大持續時間是60s，最小是0s。
例如下圖，當前位于t1時刻，下一時刻有以下8種變化方案。

交通信號按照順序循環變化，兩個相鄰相位之間需要一個黃燈來作為過渡，黃燈時間計算公式為：道路允許最大速度/車輛減速的加速度

3）獎勵

將獎勵定義為兩個相鄰周期之間的累計等待時間的變化

3、網絡結構

A、CNN

由三個卷積層和幾個全連接層構成，激活函數使用Leacky ReLU。

B、Dueling DQN

將Q網絡分割成兩部分：價值函數與優勢函數。在實際使用中使用“當前選擇動作的優勢值減去平均值”，能夠提高穩定性。

C、Target network

采用目標網絡幫助指導更新過程，解耦目標值與實際值估計，通過凍結目標值的方式，使神經網絡的更新更加穩定。
目標網絡參數的更新采取下式：

加入目標網絡后，整個神經網絡的損失值表達式為：

D、Double DQN

為了緩解DQN算法過度估計問題，有學者提出采取當前Q網絡的最大動作，而不是選擇target網絡中Q值最大的對應的動作。
因此，目標Q值的計算公式變為：

E、具有優先級的經驗回放

DQN中最重要的一部分就是經驗回放，通過經驗回放可以調整抽取樣本的分布，使其符合獨立同分布，同時可以降低抽取的樣本之間的相關性。
樣本的優先級【采樣概率】常采用兩種方式計算：基于比例和基于等級。本文中采用的是基于等級方法，即將轉移序列的時間差分誤差項作為評價優先級的標準。
TD-error的計算公式如下：

轉移序列i的采樣概率：
對轉移序列根據TD-error進行排序，優先級就是其排序的倒數。

F、優化

采用Adam方式？？？

算法整體偽代碼

4、實驗

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： IntelliLight: a Rein
下一篇： CCF 202104-4 校门外的树 P