IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读
IntelliLight 全文脈絡
- 概述
- 1、本文貢獻
- 1)Experiments with real traffic data.
- 2)Interpretations of the policy.
- 3)A phase-gated model learning.
- 2、問題定義
- 1)State
- 2)Action
- 3)Reward
- 3、網絡結構
- (1)off-line階段
- (2)on-line階段
- 4、phase-sensitive
- (1)phase gate 相位門
- (2)Memory Palace 記憶宮殿
- 5、實驗結果說明
- 1)仿真數據
- 2)真實數據
概述
1、本文貢獻
1)Experiments with real traffic data.
使用了真實的數據集。
2)Interpretations of the policy.
對選擇的政策進行了解釋。
3)A phase-gated model learning.
以往的研究都是將phase作為一個特征,還包含有其他的特征如不同車道的車輛數,車輛位置等等。很有可能phase這一特征并沒有產生什么作用。例如下圖這種情況,兩個場景除了交通燈不一致之外,其余完全相同,很有可能模型對這兩種情況作出了相同的決策。但實際情況是A希望保持現在的phase,但B希望改變現在的phase。 因此,提出了一種new phase-sensitive【新的相位敏感機制--自譯】,包含了記憶宮殿和相位門,兩種改進措施。
2、問題定義
1)State
(1)Traffic light phase
綠燈階段包含后續的黃燈階段(3s),且只能按照指定的順序變化(1->2->1->2->…)
- Green-WE:WE方向為綠燈,NS方向為紅燈
- Red-WE:WE方向為紅燈,NS方向為綠燈
(2)Traffic condition
針對每一個車道的,如果路口有多條車道,那么就有多個值
- L :車道i上的隊列長度 Li
- V :車道i上的車輛數量 Vi
- W :車道i上的平均等待時間 Wi
- M :車輛位置的圖像表示
2)Action
a = 0:改變相位
a = 1:保持相位
3)Reward
多種因素的加權和
計算公式及系數:
解釋:
(1)車道排隊長度L之和
其中L計算為給定車道上最后一個時間步長的停車車輛總數。低于0.1米/秒的速度被認為是停止。
(2)車道平均等待時間之和W
其中W定義為車輛自上次速度超過0.1m/s以來,以低于0.1m/s的速度行駛的時間(分鐘)?;旧?#xff0c;車輛每次行駛的等待時間都重置為0。
(3)信號燈切換次數C
(4)車輛延遲之和D
(5)在動作a后的時間間隔內通過交叉口的車輛總數N
(6)在行動a后的時間間隔內通過交叉口的車輛行駛時間總和,定義為車輛在接近車道上花費的總時間(以分鐘為單位) T
3、網絡結構
(1)off-line階段
使用log來訓練系統
(2)on-line階段
每個時間t系統會得到一些state(例如我們想每5s確定一下是否要改變信號燈的狀態), 接著模型根據這些state給出action, 并得到reward. 我們將這些存入memory. 在一些步驟后, 更新模型.
4、phase-sensitive
(1)phase gate 相位門
針對不同的phase,選擇不同的模型,突出了特征phase的重要性。
如上圖所示,當phase=0時,左側的模型被激活;
當phase=1時,右側的模型被激活。
(2)Memory Palace 記憶宮殿
DQN使用經驗回放機制,解決樣本不是獨立同分布和具有強相關性的兩個問題。
但對于數據不平衡,抽樣的結果也可能是不平衡的。因此,作者使用記憶宮殿方式,將不同的phase-action組合的樣本存儲在不同的memory庫中,然后從不同的宮殿中抽取相同數量的樣本,如下圖所示。
5、實驗結果說明
1)仿真數據
2)真實數據
總結
以上是生活随笔為你收集整理的IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CCF 2015年题目题解 - Pyth
- 下一篇: A Deep Reinforcement