當前位置：首頁 >

IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读

發布時間：2025/4/5 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

IntelliLight 全文脈絡

概述
- 1、本文貢獻
- - 1）Experiments with real traffic data.
  - 2）Interpretations of the policy.
  - 3）A phase-gated model learning.
- 2、問題定義
- - 1）State
  - 2）Action
  - 3）Reward
- 3、網絡結構
- - （1）off-line階段
  - （2）on-line階段
- 4、phase-sensitive
- - （1）phase gate 相位門
  - （2）Memory Palace 記憶宮殿
- 5、實驗結果說明
- - 1）仿真數據
  - 2）真實數據

概述

1、本文貢獻

1）Experiments with real traffic data.

使用了真實的數據集。

2）Interpretations of the policy.

對選擇的政策進行了解釋。

3）A phase-gated model learning.

以往的研究都是將phase作為一個特征，還包含有其他的特征如不同車道的車輛數，車輛位置等等。很有可能phase這一特征并沒有產生什么作用。例如下圖這種情況，兩個場景除了交通燈不一致之外，其余完全相同，很有可能模型對這兩種情況作出了相同的決策。但實際情況是A希望保持現在的phase，但B希望改變現在的phase。因此，提出了一種new phase-sensitive【新的相位敏感機制--自譯】，包含了記憶宮殿和相位門，兩種改進措施。

2、問題定義

1）State

（1）Traffic light phase
綠燈階段包含后續的黃燈階段(3s)，且只能按照指定的順序變化（1->2->1->2->…）
- Green-WE：WE方向為綠燈，NS方向為紅燈
- Red-WE：WE方向為紅燈，NS方向為綠燈
（2）Traffic condition
針對每一個車道的，如果路口有多條車道，那么就有多個值
- L ：車道i上的隊列長度 Li
- V ：車道i上的車輛數量 Vi
- W ：車道i上的平均等待時間 Wi
- M ：車輛位置的圖像表示

2）Action

a = 0：改變相位
a = 1：保持相位

3）Reward

多種因素的加權和
計算公式及系數：

解釋：
（1）車道排隊長度L之和
其中L計算為給定車道上最后一個時間步長的停車車輛總數。低于0.1米/秒的速度被認為是停止。
（2）車道平均等待時間之和W
其中W定義為車輛自上次速度超過0.1m/s以來，以低于0.1m/s的速度行駛的時間(分鐘)?；旧?#xff0c;車輛每次行駛的等待時間都重置為0。
（3）信號燈切換次數C

（4）車輛延遲之和D
（5）在動作a后的時間間隔內通過交叉口的車輛總數N
（6）在行動a后的時間間隔內通過交叉口的車輛行駛時間總和，定義為車輛在接近車道上花費的總時間(以分鐘為單位) T

3、網絡結構

（1）off-line階段

使用log來訓練系統

（2）on-line階段

每個時間t系統會得到一些state(例如我們想每5s確定一下是否要改變信號燈的狀態), 接著模型根據這些state給出action, 并得到reward. 我們將這些存入memory. 在一些步驟后, 更新模型.

4、phase-sensitive

（1）phase gate 相位門

針對不同的phase，選擇不同的模型，突出了特征phase的重要性。
如上圖所示，當phase=0時，左側的模型被激活；
當phase=1時，右側的模型被激活。

（2）Memory Palace 記憶宮殿

DQN使用經驗回放機制，解決樣本不是獨立同分布和具有強相關性的兩個問題。
但對于數據不平衡，抽樣的結果也可能是不平衡的。因此，作者使用記憶宮殿方式，將不同的phase-action組合的樣本存儲在不同的memory庫中，然后從不同的宮殿中抽取相同數量的樣本，如下圖所示。

5、實驗結果說明

1）仿真數據

2）真實數據

總結

以上是生活随笔為你收集整理的IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CCF 2015年题目题解 - Pyth
下一篇： A Deep Reinforcement