论文笔记 Traffic Data Reconstruction via Adaptive Spatial-Temporal Correlations
0 摘要
????????數(shù)據(jù)缺失仍然是交通信息系統(tǒng)中的一個難點(diǎn)和重要問題,嚴(yán)重制約了智能交通系統(tǒng)(ITS)在交通監(jiān)控方面的應(yīng)用,如交通數(shù)據(jù)采集、交通狀態(tài)估計和交通控制。在過去十年中提出了許多交通數(shù)據(jù)插補(bǔ)方法。然而,缺乏足夠的時間變化特征分析和空間相關(guān)性測量導(dǎo)致完井精度有限,給智能交通系統(tǒng)帶來了重大挑戰(zhàn)。
????????利用交通網(wǎng)絡(luò)數(shù)據(jù)的低秩性質(zhì)和時空相關(guān)性,本文提出了一種基于低秩矩陣分解重構(gòu)缺失交通數(shù)據(jù)的新方法,通過分解因子矩陣闡述了交通矩陣的潛在含義。 .
????????為了進(jìn)一步利用道路鏈接的時間演化特征和空間相似性,我們設(shè)計了時間序列約束和自適應(yīng)拉普拉斯正則化空間約束來探索與道路鏈接的局部關(guān)系。在六個真實(shí)世界交通數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法優(yōu)于其他方法,并且可以針對各種結(jié)構(gòu)損失模式成功準(zhǔn)確地重建道路交通數(shù)據(jù)。
1 introduction
????????目前有許多插補(bǔ)方法來解決缺失數(shù)據(jù)問題。 傳統(tǒng)方法涉及諸如歷史插補(bǔ) [3] 和樣回歸插補(bǔ) [4] 方法等技術(shù)。
? ? ? ? [3]:Nearest neighbor imputation for survey data,” 2000
? ? ? ? [4]:“PPCA-based missing data imputation? for traffific flflow volume: A systematical approach,” 2009
????????最近也有一些基于低秩的研究工作來提高缺失交通數(shù)據(jù)插補(bǔ)的性能。 然而,將這些方法應(yīng)用于交通數(shù)據(jù)重建只能獲得有限的精度,因?yàn)椴荒芸紤]或充分利用交通網(wǎng)絡(luò)特征,如道路網(wǎng)絡(luò)拓?fù)洹⑿蛄袝r間特征。 具體來說,當(dāng)大量數(shù)據(jù)丟失時,它們的恢復(fù)精度仍然很低。
????????事實(shí)上,交通數(shù)據(jù)中有很多相關(guān)性。
????????交通數(shù)據(jù)時間相關(guān)性需要考慮小時與小時、間隔與間隔的關(guān)系,具有變化特征,即平滑或突變。
????????至于空間相關(guān)性,它不僅存在于相鄰鏈路中,而且存在于具有相同道路物理屬性特征、信號控制設(shè)置和位置功能屬性的非相鄰空間鏈路中。
????????然而,在以前的插補(bǔ)方法中并沒有完全探索這些相關(guān)性。
????????如圖 1(a)所示,速度數(shù)據(jù)和車流量數(shù)據(jù)的曲線都具有連續(xù)平滑的趨勢,并且在幾個時間間隔內(nèi)急劇減少或增加。
????????????????我們認(rèn)為這種現(xiàn)象的出現(xiàn)是由于數(shù)據(jù)采集的頻率、道路交通事故、城市交通網(wǎng)絡(luò)的特征(如紅綠燈和頻繁的狀態(tài)轉(zhuǎn)換)、數(shù)據(jù)采集的噪聲等多種因素造成的。
????????大多數(shù)數(shù)據(jù)重建方法都考慮了連續(xù)可變性,而沒有考慮突變的實(shí)際存在。
????????????????
????????此外,如圖1(b)所示,道路A的道路交通與直接相連的路段B1、B2、B3、B4、B5、B6以及非相鄰路段C1、C2,C3密切相關(guān)。
????????這種相似性不僅體現(xiàn)在路網(wǎng)拓?fù)浣Y(jié)構(gòu)上,還體現(xiàn)在真實(shí)數(shù)據(jù)的相關(guān)性上,僅僅利用固定的拓?fù)潢P(guān)系來挖掘交通數(shù)據(jù)的內(nèi)在原理是不夠的。
?????????為了解決上述缺點(diǎn),本文提出了一種創(chuàng)新的交通數(shù)據(jù)重建方法,稱為時間和自適應(yīng)空間約束低秩(TAS-LR?Temporal and? Adaptive Spatial Constrained Low Rank?)。
???????? 所提出的方法通過使用低秩表示模型來利用交通數(shù)據(jù)的全局特征,以及自適應(yīng)的時空約束來利用交通數(shù)據(jù)的局部特征。
????????與現(xiàn)有的矩陣補(bǔ)全(MC)方法相比,TAS-LR 的適應(yīng)性更強(qiáng),因?yàn)樗?dú)立于特定的交通網(wǎng)絡(luò),并且在實(shí)際交通數(shù)據(jù)上表現(xiàn)出令人滿意的補(bǔ)全精度。 此外,為了達(dá)到相同的精度水平,TAS-LR 在相同的精度水平下需要更少的交通數(shù)據(jù)。 本文的主要貢獻(xiàn)包括:
- TAS-LR 將交通數(shù)據(jù)分解為兩個潛在特征矩陣:
- 一個矩陣代表潛在空間特征 描述道路鏈接的靜態(tài)特性
- 另一個矩陣表示描述時間變化特征的全局環(huán)境特征。
- TAS-LR 通過對潛在時間特征矩陣施加稀疏約束,根據(jù)交通數(shù)據(jù)的平滑變化精確而穩(wěn)健地表征突然變化。
- ?TAS-LR 利用空間鄰居選擇機(jī)制作為輔助約束來提高交通數(shù)據(jù)重建的適應(yīng)性。
2 related work
????????常用的交通數(shù)據(jù)補(bǔ)全方法有歷史插值法和鄰域插值法[3]。
“Nearest neighbor imputation for survey data,” 2000????????歷史插值法通過已知數(shù)據(jù)點(diǎn) 不同時間的多個觀測值的平均值來預(yù)測缺失值。
????????對于鄰域插值方法,缺失點(diǎn)是通過同一時間相鄰點(diǎn)的值來推斷的。使用 k 最近鄰 (KNN) [8] 進(jìn)行加權(quán)、插值是合理的。但是對于交通數(shù)據(jù)矩陣,很難直接應(yīng)用 KNN,因?yàn)樾?#xff08;或列)是任意排序的(例如基于道路名稱)。所以矩陣中最近的元素可能幾乎沒有對應(yīng)關(guān)系。此外,這種方法也不適用于鄰域內(nèi)數(shù)據(jù)點(diǎn)缺失的情況。
“Nearest neighbor pattern classifification,” 1967
????????回歸插補(bǔ)方法根據(jù)同一時間收集的周圍已知數(shù)據(jù)/同一位置收集的過去時刻觀測值,應(yīng)用數(shù)學(xué)插值算法來重構(gòu)缺失值[4]。
PPCA-based missing data imputation?for traffific flflow volume: A systematical approach 2009????????一般采用線性回歸方法[9]構(gòu)建缺失數(shù)據(jù),計算實(shí)時速度數(shù)據(jù)與其對應(yīng)的時間/空間數(shù)據(jù)之間的線性相關(guān)系數(shù)。
“Real-time traffific data screening and reconstruction, 2003???????? 這些方法的插補(bǔ)性能很大程度上取決于缺失點(diǎn)的周圍數(shù)據(jù)。 也就是說,這些方法只利用了交通量數(shù)據(jù)的一部分相關(guān)性,無法考慮全局特征。 因此,它們的性能并不令人滿意,尤其是當(dāng)缺失數(shù)據(jù)的比例很高時。 ?
????????壓縮感知 (CS) 是一種技術(shù),它可以在向量稀疏的情況下從樣本子集中準(zhǔn)確地恢復(fù)向量 [7]。它考慮了某些域中信號的稀疏性或可壓縮性,這允許從相對較少的測量中確定整個信號。? ? ? ??
“Compressed sensing, 2003????????因此,CS 可以應(yīng)用于補(bǔ)全缺失值的基于矩陣的問題。基于矩陣的方法利用二維全局信息來估計丟失的數(shù)據(jù)。
????????例如,在存在缺失條目的情況下,非負(fù)矩陣分解 (NMF) [10]、[11] 可以用于恢復(fù)缺失值,通過交替非負(fù)最小二乘。這種方法雖然與SVD非常相似,但這種方法堅持非負(fù)因子矩陣,缺乏可擴(kuò)展性,無法面對大量缺失數(shù)據(jù)。
Algorithms for non-negative matrix factorization, 2001 Near-optimal signal recovery from random?projections: Universal encoding strategies? 2006????????稀疏正則化 SVD (SRSVD) [5] 創(chuàng)建了一個類似于 SVD 的矩陣分解,并應(yīng)用正則化方法來優(yōu)化對缺失數(shù)據(jù)的估計。
????????稀疏正則化矩陣分解 (SRMF) [5] 是一種用于交通矩陣插值、交通預(yù)測和異常檢測的新型時空壓縮感知框架,它利用交通數(shù)據(jù)的低秩性質(zhì)及其時空特性來估計丟失的交通數(shù)據(jù)。
Spatio-temporal? compressive sensing and Internet traffific matrices 2012????????此外,提出了一種基于冪律的壓縮感知方法 [12] 來重建端到端的網(wǎng)絡(luò)流量。 ?
“A power laws-based reconstruction? approach to end-to-end network traffific, 2013????????由于交通數(shù)據(jù)具有鏈路間周期性變化和空間相似性的特點(diǎn),交通數(shù)據(jù)通常具有低秩性質(zhì)。 因此,低秩矩陣補(bǔ)全方法非常適合其重構(gòu)。 ?
????????低秩矩陣完成 (MC) [13] 利用矩陣的低秩結(jié)構(gòu)來恢復(fù)丟失的條目。它已被用于各種研究領(lǐng)域,例如協(xié)同過濾、計算機(jī)視覺和無線傳感器網(wǎng)絡(luò)等。
“Exact matrix completion via convex? optimization,” 2009????????最近,研究人員提出了解決低秩矩陣補(bǔ)全問題的有效算法,這些算法分為三類:
1)基于范數(shù)的方法,例如奇異值閾值算法(SVT)[14],它是一種迭代算法用于求解近似矩陣補(bǔ)全問題的凸松弛;
“A singular value thresholding algorithm for matrix completion,” 20102) 基于子空間投影的方法,例如 Grassman Manifold 上的梯度下降算法 (OPTSPACE) [15],它基于奇異值分解和局部流形優(yōu)化;
“Matrix completion from a? few entries,” 20103)基于矩陣分解的方法,例如Low-rank Matrix Fitting algorithm (LMaFit) [16],它是一種低秩分解模型
“Solving a low-rank factorization? model for matrix completion by a nonlinear successive over-relaxation algorithm,” 2012????????然而,上述方法沒有完全或同時利用交通數(shù)據(jù)中的時間和空間關(guān)系。 數(shù)據(jù)丟失率高時,補(bǔ)全精度有提升空間 ?
????????還有其他研究將數(shù)據(jù)制定為張量形式來估計缺失值。
???????? 張量是一個多維數(shù)組,它可以保留數(shù)據(jù)的多維性質(zhì),并在張量的每一維中提取潛在的因素。
????????首先提出了一種高精度低秩張量完成算法(HaLRTC)[17],以估計張量形式的視覺數(shù)據(jù)的缺失值。
????????然后提出了一種基于張量分解的插補(bǔ)方法(TDI)[18]來估計交通運(yùn)輸中的缺失值。
???????? 然而,當(dāng)數(shù)據(jù)丟失率高時,其重建性能顯著下降。 此外,它的求解問題是一個 NP-hard 問題 [19]。
????????因此,基于低秩張量分解的補(bǔ)全方法一般不能達(dá)到滿意的精度。
????????實(shí)際上,由于不確定噪聲的因素,實(shí)際交通矩陣通常不是嚴(yán)格的低秩矩陣。
????????因此,現(xiàn)有的基于 CS 和 MC 的方法不能直接應(yīng)用于交通數(shù)據(jù)完成。
????????在本文中,受NMF理論的啟發(fā),我們提出了一種以時間序列變化特征為特征的方法,并采用自適應(yīng)空間鄰域選擇機(jī)制來優(yōu)化完成問題。 ?
3 preliminary?
3.1 問題定義
我們記為交通數(shù)據(jù)矩陣,其中行和列分別表示空間和時間
?
????????由于一般來說收集到的交通數(shù)據(jù)矩陣不可能是一個完整的矩陣,所以我們使用一個掩蓋操作符P來表示這個不完整矩陣的過程?
????????
? ? ? ? 此時矩陣M就是一個不完整矩陣,只有一部分位置有數(shù)值
? ? ? ??P操作符也可以表述成逐元素矩陣乘積(哈達(dá)瑪積)的形式
?????????
? ? ? ? ?這時矩陣P可以被定義為:
?????????
? ? ? ? ?我們的目標(biāo)是重構(gòu)出一個完整的交通矩陣。一個直觀方法是解決秩最小化問題:
????????
? ? ? ? ?由于最小化秩是一個NP-難的問題,我們用rank(X)的凸包,核范數(shù)來代替,得到一個凸的和更易于計算的近似值。核范數(shù)被定義為其奇異值的總和。
? ? ? ? 于是(4)中的目標(biāo)函數(shù)可以被替換為:
?????????
????????但是,由于基本的低秩模型沒有考慮內(nèi)部數(shù)據(jù)元素的空間和時間關(guān)系,因此在交通數(shù)據(jù)丟失率較高時表現(xiàn)不佳。
3.2 矩陣分解和時空限制
????????這里引入了交通矩陣的時空分解,并在因子矩陣上添加了約束,以改進(jìn)矩陣重構(gòu)。
????????令 ,我們有兩個因子矩陣 U 和 V,其中 U ∈ R^{r×m} ,V ∈ R^{r×n}。
????????我們將U視為對象的潛在空間特征矩陣,其每一列對應(yīng)某一空間位置的靜態(tài)描述屬性。
? ? ? ? 我們將V視為潛在的全局環(huán)境特征矩陣,其每一列對應(yīng)某一空間位置在不同時間間隔的狀態(tài)描述。
????????因此,交通矩陣X 可以看作是對象的靜態(tài)特性和動態(tài)特性相互作用的結(jié)果。
????????具體來說,這里的路段特征可以是土地利用屬性、道路程度、車道數(shù)和路面粗糙度等因素,這些路段的特征描述構(gòu)成了空間特征矩陣U。
????????同理,同一個城市的所有路段 共享同一個動態(tài)的外部環(huán)境,如天氣條件、城市人口生活和工作的規(guī)律等。
????????矩陣分解方法不僅可以避免核范數(shù)的多次高開銷計算(矩陣奇異值分解是O(n^3)的復(fù)雜度),而且有助于直接對因子矩陣施加時空約束。 ?
? ? ? ? 于是,我們的目標(biāo)函數(shù)從可以變成
????????
? ? ? ? 使用拉格朗日算子,(5)式的約束條件也寫入目標(biāo)函數(shù)中,于是有:
????????
????????????????這是數(shù)據(jù)完成的基本低秩模型,它僅利用全局低秩屬性
????????結(jié)合X的行和列的局部關(guān)系,(這個局部關(guān)系可以反映交通數(shù)據(jù)的內(nèi)在屬性)。 通常,時空約束模型被公式化為
????????
? ? ? ? 其中S1和S2分別代表先驗(yàn)空間約束矩陣和時間約束矩陣,α和β是平衡參數(shù)。
???????? 在本文中,我們將直接對潛在特征矩陣施加約束以增強(qiáng)時空數(shù)據(jù)結(jié)構(gòu)。
4?時間和自適應(yīng)空間約束低秩模型 TAS-LR
????????在這里正式定制了我們的模型 TAS-LR。 ?
????????給定一個動態(tài)路網(wǎng)交通矩陣 X ∈ Rm×n,行數(shù)和列數(shù)分別對應(yīng)于路段和時間間隔,。 我們希望實(shí)現(xiàn)以下目標(biāo)函數(shù):
????????
????????其中 f (·) 和 g(·) 分別是作用于因子矩陣的空間和時間約束函數(shù)。
????????該模型通過考慮時間突變特征引入時間魯棒約束,并結(jié)合自適應(yīng)空間相似性尋找算子解決交通矩陣完成問題。
? ? ? ? 為了后文方便起見,列出了所有的符號:
????????
4.1?Temporal Variation Characteristics?時間變化特征
????????交通狀態(tài)的變化是一個漸進(jìn)、連續(xù)的過程,但實(shí)際中交通數(shù)據(jù)的時間序列通常既有連續(xù)變化又有突變。
???????? 原因之一可能是數(shù)據(jù)采集的時間頻率,即數(shù)據(jù)采集的頻率越高,相鄰時間間隔變化的連續(xù)性越強(qiáng),序列的變異越弱。
???????? 在真實(shí)的交通網(wǎng)絡(luò)中,一些交通事故或交通管制措施也會引起交通狀態(tài)的突然變化。此外,傳感器引起的噪音也會導(dǎo)致這種情況
????????交通數(shù)據(jù)在時間維度上具有連續(xù)性的特點(diǎn)。
????????因此,對于足夠封閉的V的成對相鄰列和(2≤j≤n),假設(shè)j?1和j時間點(diǎn)的原始數(shù)據(jù) 相似。 即,成立,那么或者趨近于0
? ? ? ? 推導(dǎo)過程如下:
????????圖 2 顯示了速度數(shù)據(jù)的時間差分矩陣的分布。 結(jié)果表明,大部分?jǐn)?shù)據(jù)點(diǎn)在0附近浮動,只有少數(shù)數(shù)據(jù)點(diǎn)的幅度較大,這表明時差矩陣具有稀疏性。
????????
????????由于 l1 范數(shù)比 l2 范數(shù) [20] 對噪聲更穩(wěn)健,我們通過 l1 范數(shù)計算 V 中每個條目的差異,即,重新表述目標(biāo)問題 (8) 如下: ?
????????
????????正則化項(xiàng)表示數(shù)據(jù)時間變化約束(也就是每一項(xiàng)的絕對值之和)
????????T 是時間約束矩陣?T = Toeplitz(0, 1, ?1)
????????
????????這種時間約束直觀地表達(dá)了這樣一個事實(shí),即相鄰時間點(diǎn)的流量數(shù)據(jù)在存在突變時通常也是相似的。
?
? ? ? ? 比如此時V是一個m×n的矩陣
? ? ? ? 那么,也就是相鄰時間點(diǎn)各觀測值之間的差距
????????就相當(dāng)于式相鄰時間點(diǎn)各觀測值之間的差距的絕對值之和
? ? ? ? 4.2?自適應(yīng)空間鄰域相似度
????????如前所述,因子矩陣U反映了路段的局部靜態(tài)特征, 不同的空間點(diǎn)通過路網(wǎng)拓?fù)溥B接在一起。 大規(guī)模路網(wǎng)拓?fù)涞母叨葟?fù)雜性以及原始矩陣的數(shù)據(jù)丟失使我們無法直觀地找到空間約束關(guān)系,即類似于上述形式的簡單矩陣是不合適的。
????????盡管低秩方法通過利用局部空間相似性為數(shù)據(jù)補(bǔ)全提供了一種有效的方法,但由于它沒有利用原始數(shù)據(jù)中存在的各種不確定噪聲干擾,因此對于現(xiàn)實(shí)世界的交通通常無法獲得令人滿意的補(bǔ)全結(jié)果。 因此,我們尋求一種通過自適應(yīng)地定位具有相似模式的局部鄰域來重建丟失對象的方法。 然后使用鄰域來表示目標(biāo)道路鏈接數(shù)據(jù)。 這樣可以同時滿足全局低秩特征。
????????最近,在無監(jiān)督聚類領(lǐng)域,許多研究人員開發(fā)了基于拉普拉斯正則化的子空間聚類方法[21]、[22]。
????????Laplacian 正則化器的思想來源于圖論 [23],其中為數(shù)據(jù) 構(gòu)建無向局部 k 連通圖,并由對稱親和矩陣編碼,其中 0 ≤ aij ≤ 1 反映了數(shù)據(jù)點(diǎn) yi 和 yj 連通的概率,即如果 aij > 0,則 yi 和 yj 在局部鄰域中。
????????因此,這些數(shù)據(jù)點(diǎn)的局部幾何可以相應(yīng)地反映在數(shù)據(jù)表示矩陣 X 中 以下:
????????
TAS-LR 論文輔助筆記 & 圖拉普拉斯正則項(xiàng)推導(dǎo)_UQI-LIUWJ的博客-CSDN博客
?是拉普拉斯矩陣
D是度矩陣
?????????Laplacian 正則化器旨在通過基于局部連通性為數(shù)據(jù)點(diǎn)自適應(yīng)地分配鄰居來學(xué)習(xí)親和矩陣,其中即使存在噪聲和缺失數(shù)據(jù),親和矩陣也是基于原始數(shù)據(jù)構(gòu)建的 [24]-[26] .
????????受其數(shù)據(jù)表示機(jī)制的啟發(fā),我們擴(kuò)展了親和力矩陣以找到道路網(wǎng)絡(luò)子空間。
???????? 因此,我們可以這么假設(shè):如果空間點(diǎn)數(shù)據(jù)與其最優(yōu)空間鄰域空間點(diǎn)數(shù)據(jù)有較小的距離,那么它們有較高的相似性。(越近的越像)我們基于這個假設(shè),構(gòu)建一個有意義的親和度矩陣A。
? ? ? ? 在我們的模型中,親和度矩陣 A 可以直接從數(shù)據(jù)樣本的幾何結(jié)構(gòu)中計算出來。
????????例如,可以使用 KNN 方法為每個樣本選擇 k 個最近鄰,A 的元素 aij 可以通過 yi 與其近鄰 y j 之間的歐幾里德距離來設(shè)置。
???????? 然而,這種構(gòu)建親和度矩陣的方法可能會被數(shù)據(jù)中的噪聲或異常值破壞。
???????? 如前所述,用固定拓?fù)錅y量數(shù)據(jù)相似性是片面的。
????????U 反映了空間鏈接的靜態(tài)特征,對于一組列,U = (u1, u2,..., um),為了揭示道路數(shù)據(jù)之間的局部幾何結(jié)構(gòu),我們采用了類似[ 26]的方法構(gòu)建自適應(yīng)親和度矩陣如下:
????????
????????表示全1的m維向量。
?????????是為了 約束概率
????????然而,簡單地解決問題(11)會導(dǎo)致只有最近的aij(或同樣最近的數(shù)據(jù))被分配為概率?1 ,而所有其他表示的概率為 0。
????????為了避免這種平凡解 ,我們選擇 l2 范數(shù) 來解決這個問題
????????將關(guān)注點(diǎn)與輕微的代數(shù)變換放在一起,f (·) 給出了以下約束:
????????
????????結(jié)合上述時間約束,最終優(yōu)化問題轉(zhuǎn)化為以下公式:
????????
????????我們將模型稱為時間和自適應(yīng)空間約束低秩 (TAS-LR) 方法。 通過上述約束,我們可以自適應(yīng)地選擇與目標(biāo)鏈路最相似且具有相同道路等級、車道數(shù)或容量特征的 k 個鏈路。
????????這克服了傳統(tǒng)方法通過預(yù)先粗略解釋缺失數(shù)據(jù)來計算相似度的缺點(diǎn)。
4.2.1 A的更新方式
在論文的附錄里有這個親和力矩陣A的更新方式
首先我們在得到一組U之后,可以用此時得到的U來計算兩個點(diǎn)之間的兩兩距離
??
?表示第t+1 次迭代得到的U 的第i列
然后我們就可以用d來更新我們的A矩陣
這個是?,是把d矩陣逐列從小到大排序
?表示如果元素為負(fù)數(shù),那么我們就將其設(shè)置為0
?但此時算出來的矩陣不是對稱矩陣,所以我們:
?
4.3?模型匯總
?匯總一下
?然后使用拉格朗日算子:
其中
其中G1,G2,G3是拉格朗日乘子
于是算法有:?
?
?
5 實(shí)驗(yàn)部分
5.1 數(shù)據(jù)集
????????六種不同類型的實(shí)際交通數(shù)據(jù)用于評估我們方法的完井性能,這些數(shù)據(jù)的特性總結(jié)在表 II 中。
????????1) Abilene :Abilene 數(shù)據(jù)以前用于各種研究 [28]、[29],并根據(jù) Abilene 網(wǎng)絡(luò)上的起點(diǎn)-終點(diǎn)流量的測量記錄匯總流量數(shù)據(jù),該網(wǎng)絡(luò)涵蓋 121 個起點(diǎn)-終點(diǎn)對。
?????????2)portal數(shù)據(jù):portal數(shù)據(jù)[30]記錄了波特蘭-溫哥華大都市區(qū)高速公路的5分鐘粒度速度數(shù)據(jù)和體積數(shù)據(jù),環(huán)路線圈檢測器覆蓋了743條道路連接。
????????3) traffic condtion數(shù)據(jù):路況數(shù)據(jù)記錄了北京三環(huán)高速路段內(nèi)裝有GPS的浮動車采集的平均通行速度數(shù)據(jù)。
????????4) Loop Detector Data:環(huán)路線圈檢測器采集的一種交通狀況數(shù)據(jù),涵蓋北京五環(huán)高速公路內(nèi)的道路平均車速和流量數(shù)據(jù)。
????????為了分析這些數(shù)據(jù)集在時間軸上的變化特征,給出了增量率(簡稱roi)的定義。?
????????
?????????
????????根據(jù)(16)計算相鄰時間片上每個交通數(shù)據(jù)集對的roi,然后擬合這些roi的累積密度分布(cdf)。
?
????????圖3為六個數(shù)據(jù)集的cdf曲線結(jié)果,roi的cdf隨著roi的增加而上升到1,超過90%的數(shù)據(jù),它們的rois在0到2之間波動。
????????當(dāng)roi等于0.1時,Portal-speed數(shù)據(jù)roi的cdf比例大于0.8的比例最高,而traffic-condition數(shù)據(jù)的比例最低,小于0.3,這說明Portal速度數(shù)據(jù)的變化率低于交通狀況數(shù)據(jù)。顯然,高速公路速度數(shù)據(jù)的連續(xù)性由于其可訪問性低而相對較好,而城市網(wǎng)絡(luò)數(shù)據(jù)由于更復(fù)雜的干擾而發(fā)生變異的概率較高。
???????? 而且,注意到Portal速度數(shù)據(jù)rois的cdf高于Portal 流量的數(shù)據(jù),loop 速度數(shù)據(jù)rois的cdf高于loop 流量的數(shù)據(jù)。因此我們推測流量數(shù)據(jù)相對于速度數(shù)據(jù)的變化特征更不穩(wěn)定 . 上述分析符合我們模型的時間假設(shè)。
?5.2 實(shí)驗(yàn)配置
5.2.1 準(zhǔn)確度衡量? ? ??
? 準(zhǔn)確度衡量:我們使用歸一化平均絕對誤差 (NMAE) 來衡量準(zhǔn)確度,同時也是用RM
SE來衡量準(zhǔn)確度?
5.2.2 U,V矩陣的秩
????????r ≤ min {m, n} 反映了矩陣的全局低秩結(jié)構(gòu)和特征分量的維數(shù)。
????????低秩約束是強(qiáng)約束,對重構(gòu)性能最敏感。 潛在矩陣的維數(shù)通常顯著低于實(shí)際數(shù)據(jù)的維度 。
???????? 通常,不同的數(shù)據(jù)具有不同的 r 最佳值。
????????圖 4 顯示了通過將 r 的損失率從 50% 變化到 90% 的情況下,在六個數(shù)據(jù)集上重建性能的變化。
????????可以發(fā)現(xiàn),所有數(shù)據(jù)的重構(gòu)誤差,當(dāng)潛在矩陣秩較小的時候,具有相對較低的值,而在潛在矩陣秩較高時,具有相對較大的值。
???????? 這意味著更高的潛在矩陣秩可能會產(chǎn)生很多冗余信息。(當(dāng)然潛在矩陣秩太少了就不能很好地學(xué)習(xí)到所有的特征)
???????? 對于前四個數(shù)據(jù)集,當(dāng) r 等于 20 時,它們的誤差往往最低。
????????對于loop速度和容量數(shù)據(jù),最優(yōu)秩可能會稍大一些,因?yàn)槠淇臻g維數(shù)相對較大,網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜。
? ? ? ?
5.2.3 鄰居數(shù)量
????????k 表示空間關(guān)系中相似鄰居的數(shù)量。 我們研究了所有數(shù)據(jù)集的變化 k 的影響,如圖 5 所示。結(jié)果表明,隨著 k 的增加,所有數(shù)據(jù)集的數(shù)據(jù)重構(gòu)誤差都減小了。
????????k=4后,誤差保持相對穩(wěn)定。 因此,在我們的實(shí)驗(yàn)中,我們?yōu)樗袛?shù)據(jù)集選擇 k = 4。
????????
5.2.4 正則化參數(shù)
????????
????????λ1、λ2、λ3和λ4分別是對應(yīng)于低秩項(xiàng)、時間約束項(xiàng)和空間約束項(xiàng)的非負(fù)權(quán)重。
????????我們根據(jù)經(jīng)驗(yàn)和實(shí)驗(yàn)選擇這些參數(shù)。
????????一般來說,秩約束項(xiàng)的值大于時間約束項(xiàng)的值,因此λ2通常大于λ1。
????????此外,時間約束項(xiàng)和空間約束項(xiàng)的權(quán)重通常很接近。
? ? ? ? 與此同時,鑒于是為了便于模型的求解,它對重構(gòu)誤差的敏感性較低。 我們可以設(shè)置 λ4 和 λ3 相等。
5.2.5 時間特征矩陣分析
????????圖 7 描繪了速度數(shù)據(jù)的五個維度的時序情況(V 中的五行)。
????????P(t) 表示在時間 t 時每個維度的比例。 P(t)越低,速度貢獻(xiàn)越小,越容易造成堵塞。
????????第一個時間分量 v1,其速度貢獻(xiàn)在晚上 0-6 點(diǎn)最低,在白天幾乎最大。可以推斷出結(jié)果是夜間工作的車流造成的。
????????第二個時間分量 v2 反映了典型的早高峰模式,在上午 7-10 點(diǎn)之間貢獻(xiàn)最小。
???????? v4 主要分布在下午,反映了上午 12 點(diǎn)之后的交通流量。
????????最后一個分量 v5 代表典型的夜間高峰模式,因?yàn)槁肪W(wǎng)在下午 6 點(diǎn)達(dá)到最大擁堵。
5.2.6 空間特征矩陣分析
????????圖 8 顯示了 U 中每個空間模式的分布,黑框標(biāo)記的位置代表顯著區(qū)域。 每行中的值重新調(diào)整為0-1,值越高,道路連接的特征越顯著。 結(jié)合圖7,我們在圖8中解釋了以下細(xì)節(jié):
????????
- 夜間模式:在圖8(a)中,顯著區(qū)域集中在城市外圍地區(qū),例如 南四環(huán)高速公路及與之相連的主干道,東北三元橋附近區(qū)域等。我們從圖7中可知,該空間分布對應(yīng)夜間交通流量,v1,因此可以推斷 這種空間格局分布是由夜間出入市中心的交通流量造成的
- 早高峰模式:在圖8(b)中,突出區(qū)域主要分布在高速公路區(qū)域,這與早高峰時段的通勤行為導(dǎo)致的交通擁堵區(qū)域一致(參見圖7中v2的說明)。
- 晚高峰模式:再看圖8(e),突出區(qū)域位于金融和商業(yè)區(qū),例如 東二環(huán)和三環(huán),西二環(huán)附近。 這些地方正是通勤者眾多的主要中央商務(wù)區(qū) (CBD) 或金融區(qū)。 交通流量會在晚高峰時段從這些地方擴(kuò)散,導(dǎo)致區(qū)域擁堵(低速),這與圖 7 中 v5 的解釋一致。
- 晨間集中模式:圖8(c)中,雖然突出區(qū)域不那么明顯,但可以看出它們主要位于外圍居民區(qū)。 圖 7 表明該類交通是對應(yīng)于 v3 的早晨集中活動,其高峰時間早于 v2,因此我們可以推斷它是一些長距離的早晨交通流。
- 下午集中模式:圖8(d)中標(biāo)注的重點(diǎn)區(qū)域包括頤和園周邊區(qū)域、什剎湖、CBD、機(jī)場高速等。顯然,這些區(qū)域是休閑和郊游區(qū)域,因此出行時間主要集中在 下午,這與圖 7 中 v4 暗示的時間特征一致
????????我們還在圖 9 中展示了路網(wǎng)交通的實(shí)際狀態(tài)。它表明早高峰和晚高峰的擁堵路段與我們對特征矩陣的分析是一致的。
???????? 基于上述分析,分解后的潛在矩陣分別反映了交通數(shù)據(jù)的時間和空間隱藏的低維模式,可以看作是一個特征提取過程。
????????因此,我們可以通過分別對潛在空間矩陣和時間矩陣施加約束來實(shí)現(xiàn)有效的數(shù)據(jù)重建。
總結(jié)
以上是生活随笔為你收集整理的论文笔记 Traffic Data Reconstruction via Adaptive Spatial-Temporal Correlations的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TAS-LR 论文辅助笔记 图拉普拉斯
- 下一篇: numpy 笔记:finfo