日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】

發布時間:2025/4/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章脈絡【Dueling DQN+Prioritized Memory ,2019年TVT】

  • 1、貢獻
    • 1)首次將dueling network,target network,double DQN 和prioritized experience replay結合在一起。
    • 2)提出了一種在整個周期內確定相位持續時間的控制系統,而不是將時間分段。
    • 3)在SUMO上進行實驗。
  • 2、問題定義
    • 1)狀態
    • 2)動作
    • 3)獎勵
  • 3、網絡結構
    • A、CNN
    • B、Dueling DQN
    • C、Target network
    • D、Double DQN
    • E、具有優先級的經驗回放
    • F、優化
    • 算法整體偽代碼
  • 4、實驗

1、貢獻

1)首次將dueling network,target network,double DQN 和prioritized experience replay結合在一起。

2)提出了一種在整個周期內確定相位持續時間的控制系統,而不是將時間分段。

3)在SUMO上進行實驗。

2、問題定義

1)狀態

將路口分割成大小相同的小正方形,每個網格是車輛的狀態值**<位置,速度>**。
位置是0或1【有車輛和沒有車輛】 ,當該位置有車輛時對應顯示其速度值[實數]。

2)動作

改變的是相位的持續時間,每次加5s。最大持續時間是60s,最小是0s。
例如下圖,當前位于t1時刻,下一時刻有以下8種變化方案。

交通信號按照順序循環變化,兩個相鄰相位之間需要一個黃燈來作為過渡,黃燈時間計算公式為:道路允許最大速度/車輛減速的加速度

3)獎勵

將獎勵定義為兩個相鄰周期之間的累計等待時間的變化

3、網絡結構

A、CNN

由三個卷積層和幾個全連接層構成,激活函數使用Leacky ReLU。

B、Dueling DQN

將Q網絡分割成兩部分:價值函數與優勢函數。在實際使用中使用“當前選擇動作的優勢值減去平均值”,能夠提高穩定性。

C、Target network

采用目標網絡幫助指導更新過程,解耦目標值與實際值估計,通過凍結目標值的方式,使神經網絡的更新更加穩定。
目標網絡參數的更新采取下式:

加入目標網絡后,整個神經網絡的損失值表達式為:

D、Double DQN

為了緩解DQN算法過度估計問題,有學者提出采取當前Q網絡的最大動作,而不是選擇target網絡中Q值最大的對應的動作。
因此,目標Q值的計算公式變為:

E、具有優先級的經驗回放

DQN中最重要的一部分就是經驗回放,通過經驗回放可以調整抽取樣本的分布,使其符合獨立同分布,同時可以降低抽取的樣本之間的相關性。
樣本的優先級【采樣概率】常采用兩種方式計算:基于比例和基于等級。本文中采用的是基于等級方法,即將轉移序列的時間差分誤差項作為評價優先級的標準。
TD-error的計算公式如下:

轉移序列i的采樣概率:
對轉移序列根據TD-error進行排序,優先級就是其排序的倒數。

F、優化

采用Adam方式???

算法整體偽代碼

4、實驗

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的A Deep Reinforcement Learning Network for Traffic Light Cycle Control 【论文阅读】的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。