日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读

發(fā)布時(shí)間:2025/4/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

IntelliLight 全文脈絡(luò)

  • 概述
    • 1、本文貢獻(xiàn)
      • 1)Experiments with real traffic data.
      • 2)Interpretations of the policy.
      • 3)A phase-gated model learning.
    • 2、問(wèn)題定義
      • 1)State
      • 2)Action
      • 3)Reward
    • 3、網(wǎng)絡(luò)結(jié)構(gòu)
      • (1)off-line階段
      • (2)on-line階段
    • 4、phase-sensitive
      • (1)phase gate 相位門(mén)
      • (2)Memory Palace 記憶宮殿
    • 5、實(shí)驗(yàn)結(jié)果說(shuō)明
      • 1)仿真數(shù)據(jù)
      • 2)真實(shí)數(shù)據(jù)

概述

1、本文貢獻(xiàn)

1)Experiments with real traffic data.

使用了真實(shí)的數(shù)據(jù)集。

2)Interpretations of the policy.

對(duì)選擇的政策進(jìn)行了解釋。

3)A phase-gated model learning.

以往的研究都是將phase作為一個(gè)特征,還包含有其他的特征如不同車(chē)道的車(chē)輛數(shù),車(chē)輛位置等等。很有可能phase這一特征并沒(méi)有產(chǎn)生什么作用。例如下圖這種情況,兩個(gè)場(chǎng)景除了交通燈不一致之外,其余完全相同,很有可能模型對(duì)這兩種情況作出了相同的決策。但實(shí)際情況是A希望保持現(xiàn)在的phase,但B希望改變現(xiàn)在的phase。 因此,提出了一種new phase-sensitive【新的相位敏感機(jī)制--自譯】,包含了記憶宮殿和相位門(mén),兩種改進(jìn)措施。

2、問(wèn)題定義

1)State

(1)Traffic light phase
綠燈階段包含后續(xù)的黃燈階段(3s),且只能按照指定的順序變化(1->2->1->2->…)
- Green-WE:WE方向?yàn)榫G燈,NS方向?yàn)榧t燈
- Red-WE:WE方向?yàn)榧t燈,NS方向?yàn)榫G燈
(2)Traffic condition
針對(duì)每一個(gè)車(chē)道的,如果路口有多條車(chē)道,那么就有多個(gè)值
- L :車(chē)道i上的隊(duì)列長(zhǎng)度 Li
- V :車(chē)道i上的車(chē)輛數(shù)量 Vi
- W :車(chē)道i上的平均等待時(shí)間 Wi
- M :車(chē)輛位置的圖像表示

2)Action

a = 0:改變相位
a = 1:保持相位

3)Reward

多種因素的加權(quán)和
計(jì)算公式及系數(shù):

解釋:
(1)車(chē)道排隊(duì)長(zhǎng)度L之和
其中L計(jì)算為給定車(chē)道上最后一個(gè)時(shí)間步長(zhǎng)的停車(chē)車(chē)輛總數(shù)。低于0.1米/秒的速度被認(rèn)為是停止。
(2)車(chē)道平均等待時(shí)間之和W
其中W定義為車(chē)輛自上次速度超過(guò)0.1m/s以來(lái),以低于0.1m/s的速度行駛的時(shí)間(分鐘)。基本上,車(chē)輛每次行駛的等待時(shí)間都重置為0。
(3)信號(hào)燈切換次數(shù)C

(4)車(chē)輛延遲之和D
(5)在動(dòng)作a后的時(shí)間間隔內(nèi)通過(guò)交叉口的車(chē)輛總數(shù)N
(6)在行動(dòng)a后的時(shí)間間隔內(nèi)通過(guò)交叉口的車(chē)輛行駛時(shí)間總和,定義為車(chē)輛在接近車(chē)道上花費(fèi)的總時(shí)間(以分鐘為單位) T

3、網(wǎng)絡(luò)結(jié)構(gòu)

(1)off-line階段

使用log來(lái)訓(xùn)練系統(tǒng)

(2)on-line階段

每個(gè)時(shí)間t系統(tǒng)會(huì)得到一些state(例如我們想每5s確定一下是否要改變信號(hào)燈的狀態(tài)), 接著模型根據(jù)這些state給出action, 并得到reward. 我們將這些存入memory. 在一些步驟后, 更新模型.

4、phase-sensitive

(1)phase gate 相位門(mén)

針對(duì)不同的phase,選擇不同的模型,突出了特征phase的重要性。
如上圖所示,當(dāng)phase=0時(shí),左側(cè)的模型被激活;
當(dāng)phase=1時(shí),右側(cè)的模型被激活。

(2)Memory Palace 記憶宮殿

DQN使用經(jīng)驗(yàn)回放機(jī)制,解決樣本不是獨(dú)立同分布和具有強(qiáng)相關(guān)性的兩個(gè)問(wèn)題。
但對(duì)于數(shù)據(jù)不平衡,抽樣的結(jié)果也可能是不平衡的。因此,作者使用記憶宮殿方式,將不同的phase-action組合的樣本存儲(chǔ)在不同的memory庫(kù)中,然后從不同的宮殿中抽取相同數(shù)量的樣本,如下圖所示。

5、實(shí)驗(yàn)結(jié)果說(shuō)明

1)仿真數(shù)據(jù)

2)真實(shí)數(shù)據(jù)

總結(jié)

以上是生活随笔為你收集整理的IntelliLight: a Reinforcement Learning Approach for Intelligent Traffic Light Control 论文阅读的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。