WWW 2021 | Radflow: 可进行数十万节点的多变量时序预测模型
?作者?|?方雨晨
學(xué)校?|?北京郵電大學(xué)
研究方向?|?時(shí)空數(shù)據(jù)挖掘
此文使用與 N-BEATS 一樣的層級(jí)循環(huán)神經(jīng)網(wǎng)絡(luò)捕捉不同的時(shí)間趨勢(shì)。然后將循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出做空間消息傳遞。在超大的網(wǎng)絡(luò)時(shí)序數(shù)據(jù)集上取得 SOTA 的結(jié)果。
論文標(biāo)題:
Radflow: A Recurrent, Aggregated, and Decomposable Model for Networks of Time Series
論文代碼:
https://github.com/alasdairtran/radflow
論文鏈接:
https://arxiv.org/abs/2102.07289
Preliminary
給出時(shí)序圖 ,且圖中有 個(gè)節(jié)點(diǎn),所以 ,且有 條邊。每個(gè)節(jié)點(diǎn) 在時(shí)間 內(nèi)的觀測(cè)值為:
表示節(jié)點(diǎn) 在 時(shí)刻被觀測(cè)到 個(gè)特征,當(dāng)只有一個(gè)值時(shí) 。 表示節(jié)點(diǎn) 在時(shí)間? 到時(shí)間 的子序列。
如果節(jié)點(diǎn) 與節(jié)點(diǎn) 在時(shí)間 有關(guān)聯(lián),就添加一條從 的邊 。 表示節(jié)點(diǎn) 在 時(shí)刻的鄰居集合,因?yàn)檫吋菚?huì)隨時(shí)間邊而變化的,所以圖 是動(dòng)態(tài)圖。因此 時(shí)間內(nèi)的鄰接矩陣表示維 , 表示在時(shí)間 存在節(jié)點(diǎn) 到節(jié)點(diǎn) 的邊。
現(xiàn)在定義時(shí)序預(yù)測(cè)問題,也即給出一段長(zhǎng)為 的歷史觀測(cè)值預(yù)測(cè)未來 時(shí)刻的值。假設(shè)未來與歷史的分割線為 ,那么關(guān)于節(jié)點(diǎn) 未來 到 時(shí)間的預(yù)測(cè)可以表示為:
也即使用過去 B 時(shí)刻的觀測(cè)值與其鄰居節(jié)點(diǎn)信息對(duì)未來做出預(yù)測(cè)。對(duì)未來鄰居節(jié)點(diǎn)有兩種設(shè)置,一種為 IMPUTATION,也即已經(jīng)知道未來鄰居節(jié)點(diǎn)的值,表示為:
當(dāng)我們要填補(bǔ)序列中的缺失值或者解釋節(jié)點(diǎn)受鄰居影響時(shí)通常使用這種設(shè)置。另一種為 FORECAST,也即使用我們時(shí)間序列的觀測(cè)值對(duì)所有節(jié)點(diǎn)的未來值做出預(yù)測(cè),然后使用預(yù)測(cè)的鄰居節(jié)點(diǎn)信息對(duì)當(dāng)前節(jié)點(diǎn)做出預(yù)測(cè)。
在兩者設(shè)置下,最后預(yù)測(cè)的輸出都可以表示為:
表示節(jié)點(diǎn) 在 時(shí)刻 的預(yù)測(cè)值。
Challenge
作者指出目前時(shí)序預(yù)測(cè)還存在以下三個(gè)缺陷:
Expressiveness:目前的模型過于簡(jiǎn)單,沒有考慮到多個(gè)時(shí)序變量之間的關(guān)系,N-BEATS 雖然對(duì)時(shí)間序列進(jìn)行分解但是也沒有對(duì)時(shí)序圖進(jìn)行建模。
Scale:本文的目標(biāo)是對(duì)含有幾十萬(wàn)個(gè)節(jié)點(diǎn)的時(shí)序圖進(jìn)行建模,不僅要考慮到時(shí)間序列內(nèi)容與空間內(nèi)容,更要考慮到時(shí)空內(nèi)容的交互。T-GCN 模型雖然集成了 GNN 與 RNN,但是受限于其復(fù)雜度難以處理大規(guī)模數(shù)據(jù)集。
Dynamic:多個(gè)變量間的關(guān)系是隨著時(shí)間變化而變化的。動(dòng)態(tài)網(wǎng)絡(luò)雖然已經(jīng)是 GNN 的研究熱點(diǎn),但是卻只被用在了鏈接預(yù)測(cè)與節(jié)點(diǎn)分類等任務(wù),并沒有被用于時(shí)間序列預(yù)測(cè)中。
Contribution
此文提出了一個(gè)基于分解原則的循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu),并將循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出作為網(wǎng)絡(luò)流匯聚的輸入,模型名為 Radflow。它可以生成節(jié)點(diǎn)嵌入作為圖模型的輸入優(yōu)于 N-BEATS,也可以通過注意力機(jī)制采樣重要節(jié)點(diǎn)處理大規(guī)模節(jié)點(diǎn)數(shù)據(jù)集,而且 Radflow 的結(jié)構(gòu)可以處理動(dòng)態(tài)變化的節(jié)點(diǎn)關(guān)系。此外,注意力與層分解策略為網(wǎng)絡(luò)與時(shí)間的影響提供了可解釋性。具體如下:
Radflow 是一個(gè)可以進(jìn)行數(shù)十萬(wàn)節(jié)點(diǎn)的多變量時(shí)序預(yù)測(cè)的端到端預(yù)測(cè)模型。
通過層分解與多頭注意力為時(shí)序模式和網(wǎng)絡(luò)鄰居提供了可解釋的預(yù)測(cè)。
在現(xiàn)實(shí)數(shù)據(jù)集的不同任務(wù)上的表現(xiàn)超過了時(shí)序模型與網(wǎng)絡(luò)模型。
此文公開了一個(gè)含有 366K 節(jié)點(diǎn)和 22M 邊的多變量時(shí)序預(yù)測(cè)數(shù)據(jù)集,名為 WIKITRAFFIC。
Method
4.1 Overview
如下圖所示,模型主要由 Recurrent 與 Flow Aggregation 兩個(gè)模塊組成。其中 Recurrent 模塊遵循層級(jí)分解機(jī)制對(duì)每個(gè)變量進(jìn)行時(shí)序建模,Flow Aggregation 模塊根據(jù)節(jié)點(diǎn)間的消息匯聚對(duì)輸出結(jié)果進(jìn)行調(diào)整。節(jié)點(diǎn)在 時(shí)刻的預(yù)測(cè)值可以表示為:
其中 表示 Recurrent 模塊的預(yù)測(cè)值, 表示 Flow Aggregation 的預(yù)測(cè)值。另外 Flow Aggregation 模塊以 Recurrent 模塊輸出為輸入。
4.2 Recurrent component
Recurrent 模塊由 L 個(gè)堆疊的 LSTM 組成,具體結(jié)構(gòu)如上圖所示,首先對(duì)節(jié)點(diǎn)觀測(cè)值使用線性變換將其轉(zhuǎn)到高維空間作為第一層 LSTM 的輸入:
其中 表示可學(xué)習(xí)的參數(shù)。作者表示假設(shè) 并且 是全 向量,那么相當(dāng)于是有了 個(gè)并行的 的觀測(cè)值。
對(duì)于 個(gè)堆疊的 LSTM 模塊, 表示節(jié)點(diǎn) 在 時(shí)刻的第 個(gè)模塊的輸入,且式 7 表示第一個(gè)模塊的輸入。每個(gè)模塊將有三個(gè)輸出值 backcast vector 、forecast vector 和 node vector :
上式中 FeedForward 層有兩個(gè)線性層夾一個(gè) GELU 激活函數(shù)組成:
backcast vector 是當(dāng)前層對(duì)于殘差時(shí)間模式的預(yù)測(cè)并且將作為下一層 LSTM 的輸入組成之一:
forecast vector 是第 個(gè) LSTM 模塊對(duì)于下一個(gè)時(shí)間的預(yù)測(cè)值,下一個(gè)時(shí)間的 Recurrent 模塊預(yù)測(cè)值為所有當(dāng)前時(shí)間所有 LSTM 的 forecast vector 之和:
其中 ,最后再使用一個(gè)線性函數(shù)將維度降低為觀測(cè)維度 作為式 6 的第一項(xiàng):
4.3 Flow aggregation component
層首先將 Recurrent 層每個(gè)模塊輸出的 node vector 相加作為流匯聚層的輸入:
在 IMPUTATION 設(shè)置中, 節(jié)點(diǎn)在 時(shí)刻的鄰居節(jié)點(diǎn)集合表示為:
在 FORECAST 設(shè)置中,將使用真值得到的 替換為預(yù)測(cè)值得到的 。然后將 節(jié)點(diǎn)在 t 時(shí)刻的嵌入映射為 query:
然后將 t+1 時(shí)刻鄰居的嵌入映射為 key 和 value:
時(shí)刻 節(jié)點(diǎn)從鄰居節(jié)點(diǎn)得到的帶權(quán)和信息可以表示為:
注意力權(quán)重 通過 query 與 key 的點(diǎn)積接 softmax 得到。上式中并不包括 節(jié)點(diǎn)自身的信息,作者通過參數(shù)融合 時(shí)刻節(jié)點(diǎn)的自身信息與 時(shí)刻鄰居信息:
然后再使用一個(gè)線性映射將其轉(zhuǎn)換為觀測(cè)維度 作為式 6 的第二項(xiàng):
此外作者還提出了另外兩者消息匯聚方式。第一種是將式 18 替換為下式,稱為 Radflow-GraphSage:
第二種采用更簡(jiǎn)單的方式去掉式 19 中的線性映射簡(jiǎn)單相加稱為 Radflow-MeanPooling。
Experiments
5.1 Datasets
此文使用了四個(gè)數(shù)據(jù)集。分別是根據(jù)靜態(tài)路網(wǎng)結(jié)構(gòu)得到靜態(tài)圖的交通數(shù)據(jù)集 Los-LOOP 和 SZ-TAXI,以及根據(jù)每天的 Youtube 訪問順序變化的 VEVOMUSIC 數(shù)據(jù)集和根據(jù) WIKI 頁(yè)面訪問順序變化的 WIKITRAFFIC 數(shù)據(jù)集。
其中 WIKITRAFFIC 是此文收集的新的數(shù)據(jù)集。VEVOMUSIC 數(shù)據(jù)集和 WIKITRAFFIC 數(shù)據(jù)集都是節(jié)點(diǎn)數(shù)量上萬(wàn)的大型多變量時(shí)序預(yù)測(cè)數(shù)據(jù)集,如下圖所示。
此外此文還展示了兩個(gè)動(dòng)態(tài)圖數(shù)據(jù)集的邊生存時(shí)間,可以看出 WIKITRAFFIC 的邊存在時(shí)間更長(zhǎng)。
5.2 Results
此文首先展示了 Radflow 在不使用圖信息的情況下與單變量時(shí)序模型的比較,如下圖所示 Radflow-NoNetwork 的表現(xiàn)優(yōu)于 sota 模型 N-BEATS。
然后此文展示了在使用靜態(tài)圖數(shù)據(jù)集上的表現(xiàn),優(yōu)于 sota 模型 T-GCN。Copying Previous Step 表示直接使用歷史的最后一個(gè)值作為預(yù)測(cè)值,SMAPE 很低不太懂為什么。
最后此文展示了 Radflow 在基于動(dòng)態(tài)圖的大型多變量時(shí)序預(yù)測(cè)數(shù)據(jù)集上的表現(xiàn)。Radflow-GAT 表示 Aggregation 模塊使用 GAT 進(jìn)行消息匯聚。
5.3 Ablation
作者對(duì) Aggregation 使用的 node vector 做消融實(shí)驗(yàn)分別為下圖中的 16-20。然后也進(jìn)行了去除式 19 中的線性變換 no final projection 以及單頭注意力 one attention head 實(shí)驗(yàn)。
5.4 Visulization
作者可視化了 Recurrent 模塊中每一層的預(yù)測(cè)結(jié)果,可以看到每一層預(yù)測(cè)了不同的時(shí)間模式。
然后作者隨機(jī)去除數(shù)據(jù)集中的節(jié)點(diǎn)與邊時(shí)模型的表現(xiàn)。可以看出缺失節(jié)點(diǎn)時(shí)使用圖信息的模型魯棒性更強(qiáng)。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的WWW 2021 | Radflow: 可进行数十万节点的多变量时序预测模型的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 招聘一周 | 腾讯、华为、微软、中科院自
- 下一篇: 丰田奕泽电子手刹线头在哪?