交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》
AAAI2019
0 摘要
交通流數(shù)據(jù)通常有很高的非線性和很復(fù)雜的特征。目前很多交通預(yù)測(cè)的方法缺乏對(duì)交通數(shù)據(jù)時(shí)空相關(guān)性的動(dòng)態(tài)建模。
本文提出了一種基于注意力的時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)(ASTGCN)來(lái)解決交通預(yù)測(cè)問(wèn)題
ASTGCN包括三個(gè)獨(dú)立的部分,分別對(duì)交通流的三種時(shí)間屬性進(jìn)行建模:
1)當(dāng)前相關(guān)性(recent dependencies)
2)每天的周期性(daily-periodic dependencies)
3)每周的周期性(weekly-periodic dependencies)
每個(gè)獨(dú)立的部分都包含了以下兩塊:
1)時(shí)空注意力機(jī)制,可以捕捉交通數(shù)據(jù)中動(dòng)態(tài)的時(shí)空相關(guān)性
2)時(shí)空卷積,可以同時(shí)將圖卷積應(yīng)用于交通數(shù)據(jù)中,來(lái)捕獲時(shí)間和空間特征
單個(gè)獨(dú)立部分的結(jié)果將被加以權(quán)重地結(jié)合起來(lái),來(lái)生成最終的預(yù)測(cè)結(jié)果
1 introduction
圖1體現(xiàn)了交通數(shù)據(jù)的時(shí)空相關(guān)性,不同的位置,不同的時(shí)間,各點(diǎn)交通流量之間的影響是不一樣的——》交通數(shù)據(jù)在空間和時(shí)間維度都展現(xiàn)出了強(qiáng)大的動(dòng)態(tài)特征
早期模型的缺點(diǎn)
| 時(shí)間序列分析模型 | 難以解決數(shù)據(jù)的不穩(wěn)定行和非線性 |
| 傳統(tǒng)機(jī)器學(xué)習(xí) | 1)難以同時(shí)考慮高維交通數(shù)據(jù)集中時(shí)空相關(guān)性 2)十分依賴特征的選擇和建立 |
| 一些深度學(xué)習(xí)模型 | 仍然難以同時(shí)建模交通數(shù)據(jù)中時(shí)間和空間特征的相關(guān)性 |
ASTGCN:
1)使用空間注意力機(jī)制來(lái)建??臻g層面復(fù)雜的相關(guān)性
2)使用時(shí)間注意力機(jī)制來(lái)捕獲不同時(shí)間之間的動(dòng)態(tài)時(shí)間相關(guān)性
3)使用圖卷積來(lái)捕獲交通圖中的空間特征;以及不同時(shí)間篇之間的依賴關(guān)系?
?
2 相關(guān)工作
2.1 交通預(yù)測(cè)
| 統(tǒng)計(jì)模型 | HA、ARIMA、VAR | 這些模型需要數(shù)據(jù)滿足一些假設(shè),但是交通數(shù)據(jù)過(guò)于復(fù)雜,無(wú)法滿足這些假設(shè),所以這些模型在交通預(yù)測(cè)領(lǐng)域的表現(xiàn)不盡人意 |
| 機(jī)器學(xué)習(xí)模型 | KNN,SVM | 這些模型需要進(jìn)行自己的特征工程 |
| 深度學(xué)習(xí)模型 | ST-ResNet、CNN+LSTM | 數(shù)據(jù)必須是標(biāo)準(zhǔn)的2D,3D表格數(shù)據(jù) |
2.2 GNN
| spatial methods | 直接在圖上進(jìn)行卷積計(jì)算 |
| spectral methods | 使用圖拉普拉斯矩陣(切比雪夫多項(xiàng)式進(jìn)行優(yōu)化) |
3 Preliminaries
3.1 交通網(wǎng)絡(luò)
?
| G=(V,E,A) | 無(wú)向交通圖 |
| V | 點(diǎn)集 |
| E | 邊集 |
| F | 每個(gè)點(diǎn)的觀測(cè)特征維度 |
3.2 交通流預(yù)測(cè)
問(wèn)題描述
4 ASTGCN
4.1 整體框架
ASTGCN由三個(gè)部分組成(前面在abstract說(shuō)的recent、daily-periodic和weekly-periodic),三個(gè)部分的結(jié)構(gòu)幾乎是一樣的。
為了優(yōu)化訓(xùn)練的效率,我們?cè)诿總€(gè)ST模塊上添加了一個(gè)殘差連接
4.2 recent、daily-periodic和weekly-periodic數(shù)據(jù)集劃分
?我們分別設(shè)置提取數(shù)據(jù)集的時(shí)間片段長(zhǎng)度Th,Td和Tw,表示recent、daily-periodic和weekly-periodic的數(shù)據(jù)集劃分間隔,Th,Td,Tw都是原始數(shù)據(jù)集時(shí)間間隔的整數(shù)倍
4.2.1 recent 臨近時(shí)間片段
預(yù)測(cè)時(shí)間段之前的一小段時(shí)間片段
?4.2.2 daily?日周期片段
預(yù)測(cè)時(shí)間片段之前幾天相同的時(shí)間片段
4.2.3 weekly 周時(shí)間片段
預(yù)測(cè)時(shí)間片段之前幾周相同的時(shí)間片段
4.3 時(shí)空注意力機(jī)制
- 在空間維度,不同區(qū)域的交通狀況相互影響,這種相互影響有很強(qiáng)的動(dòng)態(tài)性
- 在時(shí)間維度,不同的時(shí)間片段的交通流量存在相關(guān)性
4.3.1 空間注意力機(jī)制
通過(guò)注意力機(jī)制捕獲以上兩種關(guān)系,此處以recent 模塊為例:
這里??是第r層ST-塊的輸入
是第r層每個(gè)點(diǎn)每一時(shí)刻特征的維度(當(dāng)r=1時(shí),也就是原始輸入,等于F)
是第r層時(shí)間維度的長(zhǎng)度(當(dāng)r=1的時(shí)候,對(duì)于recent來(lái)說(shuō),就是;對(duì)于daily來(lái)說(shuō),就是;對(duì)于weekly來(lái)說(shuō),就是)
和都是N×N的矩陣,是對(duì)attention結(jié)果的加權(quán)/bias
對(duì)應(yīng)的是attention里面Q,K,V的權(quán)重,其中
機(jī)器學(xué)習(xí)筆記:Transformer_UQI-LIUWJ的博客-CSDN博客_機(jī)器學(xué)習(xí)transformer
、?、都是可學(xué)習(xí)的參數(shù)
σ是激活函數(shù)
由此我們便動(dòng)態(tài)地算出了本層ST模塊的空間注意力矩陣,這個(gè)矩陣根據(jù)當(dāng)前層ST模塊的數(shù)據(jù)計(jì)算而得。
表明了點(diǎn)i和點(diǎn)j之間的相關(guān)聯(lián)程度,使用softmax使得相關(guān)聯(lián)程度之和為1
之后的圖卷積模塊中,我們會(huì)將這個(gè)空間注意力矩陣S和鄰接矩陣A一起考慮,來(lái)動(dòng)態(tài)調(diào)整點(diǎn)與點(diǎn)之間的影響權(quán)重
4.3.2 時(shí)間注意力機(jī)制
和空間注意力機(jī)制類似,我們有:
?
其中,這五個(gè)矩陣都是可學(xué)習(xí)的
?表明了時(shí)間i和時(shí)間j之間的相關(guān)聯(lián)程度,使用softmax使得相關(guān)聯(lián)程度之和為1
之后的圖卷積中,我們直接將標(biāo)準(zhǔn)化的時(shí)間注意力矩陣應(yīng)用到數(shù)據(jù)集上
?
來(lái)動(dòng)態(tài)調(diào)整輸入數(shù)據(jù)
?4.4 時(shí)空卷積
之前時(shí)空注意力模組讓網(wǎng)絡(luò)更關(guān)注一些更有用的信息。調(diào)整后的輸入被喂入時(shí)空卷積中
時(shí)空卷積網(wǎng)絡(luò)由一個(gè)空間維度的圖卷積(來(lái)捕獲鄰居節(jié)點(diǎn)之間的依靠關(guān)系)和一個(gè)時(shí)間維度的卷積(來(lái)捕獲相鄰時(shí)間片之間的依靠關(guān)系)?
4.4.1 空間維度的圖卷積
?這里使用譜圖卷積(spectral graph convolution)。圖結(jié)構(gòu)的屬性可以通過(guò)分析圖拉普拉斯矩陣及其特征值來(lái)獲得
拉普拉斯矩陣L=D-A,D是度矩陣(對(duì)角矩陣),A是鄰接矩陣
標(biāo)準(zhǔn)拉普拉斯矩陣
對(duì)拉普拉斯矩陣進(jìn)行特征值分解,我們有:
(這里因?yàn)槭菬o(wú)向圖,所以拉普拉斯矩陣一定對(duì)稱,所以后面一項(xiàng)可以是U的轉(zhuǎn)置)
其中:?是特征值組成的對(duì)角矩陣
U是傅里葉基
我們記圖上的一個(gè)點(diǎn)的信號(hào)為x,那么這個(gè)信號(hào)x經(jīng)過(guò)圖傅里葉變化之后,變?yōu)?#xff1a;
因?yàn)槔绽咕仃囀菍?duì)稱矩陣,所以U是一個(gè)正交矩陣,所以信號(hào)x的逆拉普拉斯矩陣為?
基于上面的部分,信號(hào)x和圖上的filter?圖卷積后的結(jié)果為:
*G表示了一個(gè)圖卷積計(jì)算
我們可以把上述方程看成:先把信號(hào)x和經(jīng)過(guò)傅里葉變化變換到譜圖域中,然后將他們進(jìn)行乘法操作,最后在通過(guò)你傅里葉變化得到最州的譜圖卷積結(jié)果
?然而,當(dāng)圖很大的時(shí)候,計(jì)算拉普拉斯矩陣的特征值開(kāi)銷是很大的,于是,我們可以使用切比雪夫多項(xiàng)式來(lái)進(jìn)行近似:
這時(shí)候的參數(shù)θ就是切比雪夫多項(xiàng)式的系數(shù)了。
,是拉普拉斯矩陣最大的特征值。
切比雪夫多項(xiàng)式為?
?我們進(jìn)行0~k-1的切比雪夫多項(xiàng)式的相加,相當(dāng)于計(jì)算0階~k-1階鄰居節(jié)點(diǎn)對(duì)于中心節(jié)點(diǎn)的影響(影響的大小由卷積核決定)
圖卷積的覺(jué)果使用RELU進(jìn)行激活,即
而我們?cè)?.3.1引入了空間注意力機(jī)制,得到了一個(gè)空間注意力矩陣S‘,怎么使用那個(gè)矩陣呢?
對(duì)于切比雪夫多項(xiàng)式中的,我們讓他和S’做哈達(dá)瑪積(對(duì)應(yīng)位置元素相乘),即:
?
那么“有價(jià)值”的點(diǎn),獲得的權(quán)重更多;“沒(méi)有價(jià)值”的點(diǎn),獲得的權(quán)重就少?
因此,在引入了空間注意力機(jī)制后,用切比雪夫多項(xiàng)式近似的譜圖卷積可以寫為:
?4.4.2 時(shí)間維度的卷積
在圖卷積之后,我們使用時(shí)間卷積來(lái)更新點(diǎn)的信號(hào)
4.4.3 ST卷積模塊總結(jié)
時(shí)空注意力模塊+時(shí)空卷積模塊,組合成了一個(gè)ST卷積模塊
我們可以疊加多個(gè)ST卷積模塊,以進(jìn)一步提取更大“感受野”的關(guān)聯(lián)信息。
最后,添加一個(gè)全連接層,以保證輸出與目標(biāo)有相同的維度和形狀,最后的全連接層使用 ReLU 作為激活函數(shù)。
4.5 Mult-component fusion:將recent、daily-periodic和weekly-periodic模塊結(jié)果結(jié)合
這一個(gè)部分很簡(jiǎn)單
即三組可學(xué)習(xí)的參數(shù)分別與recent、daily-periodic和weekly-periodic模塊的結(jié)果及逆行哈達(dá)瑪積。
5 實(shí)驗(yàn)部分
5.1 數(shù)據(jù)預(yù)處理:
1)去除了冗余的觀測(cè)點(diǎn),使得相鄰觀測(cè)點(diǎn)之間的距離大于等于3.5英里(不知道為什么。。。)
2)缺失的點(diǎn)使用線性插值填充
3)數(shù)據(jù)用zero-mean來(lái)進(jìn)行標(biāo)準(zhǔn)化
5.2 實(shí)驗(yàn)結(jié)論
1)傳統(tǒng)的時(shí)間序列分析方法(HA、ARIMA)通常并不理想
——>這些方法在建模交通數(shù)據(jù)的非線性和復(fù)雜性上是欠佳的
2)相比于傳統(tǒng)的時(shí)間序列方法,有些深度學(xué)習(xí)的方法得到的結(jié)果會(huì)好很多
3)在深度學(xué)習(xí)方法中,同時(shí)考慮了時(shí)間和空間屬性的模型(STGCN、GLU-STGCN、GeoMAN、我們的模型)效果比LSTM和GRU(只考慮了空間屬性的模型)好
4)GeoMAN模型效果比STGCN和GLU-STGCN效果好
——>注意力機(jī)制是有效的
5)對(duì)我們的模型MSTGCN(沒(méi)有注意力機(jī)制的模型)已經(jīng)比原有的模型要好了;加了注意力機(jī)制之后的模型ASTGCN效果更好
?
隨著我們的預(yù)測(cè)間距的增大,預(yù)測(cè)的難度也在增加,預(yù)測(cè)誤差也隨之增加
只考慮時(shí)間屬性的模型,在短期預(yù)測(cè)任務(wù)中通常有不粗的表現(xiàn)(HA、ARIMA、LSTM、GRU等),但是,隨著預(yù)測(cè)區(qū)間的增發(fā),這些模型不適用于預(yù)測(cè)長(zhǎng)期的內(nèi)容
相比而言,同類型模型的VAR準(zhǔn)確率下降得就慢了很多。(因?yàn)閂AR同時(shí)考慮了時(shí)間和空間的相關(guān)性,這個(gè)在長(zhǎng)期預(yù)測(cè)任務(wù)中是很關(guān)鍵的),但是隨著交通網(wǎng)絡(luò)規(guī)模的增大,我們需要考慮更多的交通時(shí)序信息,,VAR的預(yù)測(cè)誤差就上去了(如圖6所示,VAR在PeMSD4的準(zhǔn)確度小于其在PeMSD8的準(zhǔn)確度)
我們的模型在任何時(shí)候都比其他的模型效果好,尤其是在長(zhǎng)期預(yù)測(cè)問(wèn)題中。這說(shuō)明了使用注意力機(jī)制+圖卷積操作可以更好地挖掘交通數(shù)據(jù)中動(dòng)態(tài)的時(shí)空特征
?
圖7在說(shuō)明注意力機(jī)制有什么用處,論文選取了PeMSD8中的10個(gè)點(diǎn),對(duì)他們之間的attention矩陣進(jìn)行了可視化。
以點(diǎn)9為例,權(quán)重大的是點(diǎn)3和點(diǎn)8,這是很合理的
6 展望
未來(lái)可以考慮一些外部影響因素,例如天氣因素和大型事件,進(jìn)一步提高預(yù)測(cè)精度。
總結(jié)
以上是生活随笔為你收集整理的交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 文巾解题 206. 反转链表
- 下一篇: 论文笔记目录