日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记: Modeling Extreme Events in Time Series Prediction

發布時間:2025/4/5 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 论文笔记: Modeling Extreme Events in Time Series Prediction 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019 KDD

0 摘要

????????時間序列預測是數據挖掘中一個深入研究的課題。盡管取得了相當大的改進,但最近基于深度學習的方法忽略了極端事件的存在,這導致將它們應用于實時序列時性能較弱。

????????極端事件是罕見且隨機的,但在許多實際應用中確實發揮了關鍵作用,例如預測金融危機和自然災害。

????????在本文中,我們探討了提高深度學習建模極端事件以進行時間序列預測的能力。

????????我們首先發現深度學習方法的弱點源于傳統形式的二次損失函數。為了解決這個問題,我們從極值理論中汲取靈感,開發了一種新的損失函數,稱為極值損失(EVL),用于檢測未來發生的極端事件。

????????此外,我們建議使用記憶網絡來記憶歷史記錄中的極端事件。通過將 EVL 與經過調整的記憶網絡模塊相結合,我們實現了一個端到端的框架,用于極端事件的時間序列預測。

????????通過對合成數據和兩個真實的股票和氣候數據集的廣泛實驗,我們驗證了我們框架的有效性。此外,我們還通過進行幾個額外的實驗,為我們提出的框架中的超參數提供了適當的選擇。

1 introduction

????????從歷史上看,傳統方法,如自回歸移動平均 (ARMA) [46] 和非線性自回歸外生 (NARX) [31] 使用具有少量參數的統計模型來發掘時間序列數據中的模式。

????????最近,隨著深度神經網絡 (DNN) 在圖像分類 [28] 和機器翻譯 [4] 等許多領域的成功,許多基于 DNN 的技術隨后被開發用于時間序列預測任務,取得了顯著的進步,優于傳統方法 [11, 49]。
?

????????作為這些模型的基本組成部分,循環神經網絡RNN 結構的主要優點之一是它能夠對時間模式進行深度非線性建模

????????在最近的文獻中,RNN的一些變體表現出更好的經驗性能,例如著名的長短期記憶 (LSTM) [22, 36, 50] 和門控循環單元 (GRU) [10],而后者在更小和更簡單的數據集上更有效[10]。

????????然而,觀察到大多數先前研究的 DNN 在處理數據不平衡方面存在問題 [15、42、44]。

????????讓我們考慮一個二進制分類任務,其訓練集包括 99% 的正樣本和只有 1% 的負樣本。

????????這種數據不平衡可能會將任何分類器帶入以下兩種意外情況中的任何一種:

  • 該模型幾乎不學習任何模式,只是選擇將所有樣本識別為正樣本。(欠擬合)
  • 該模型完美地記住了訓練集,而它對測試集的泛化能力很差。? (過擬合)

????????在時間序列預測中,時間序列中的不平衡數據(或極端事件)也對深度學習模型有不好的影響。

????????直觀地說,時間序列中的極端事件通常具有極小或極大的值、不規則和罕見的事件 [24]。

????????????????

????????作為其對深度學習模型有害性的實證證明,我們訓練一個標準 GRU 來預測一維時間序列,其中某些閾值用于將一小部分數據集標記為極端事件(圖 1 中的水平虛線)。

????????正如上圖清楚地表明的那樣,學習模型確實會遇到前面討論的兩種情況:

  • 在圖 1(a) 中,它的大部分預測都受到閾值的限制,因此它無法識別未來的極端事件,我們將其稱為欠擬合現象。
  • 在圖 1(b) 中,盡管模型正確地學習了訓練集中的極端事件,但它在測試集上的表現很差,我們將此稱為過擬合現象。

????????以前,人們總是傾向于容忍欠擬合現象,因為模型在測試集上仍然具有平均可容忍的性能。

????????然而,如果時間序列預測模型能夠以合理的預測識別未來的極端事件,那將是非常有價值的。通過在許多現實世界案例中對極端事件進行更準確的建模,預測模型有望通過對未來事件(如極端風 [35] 或金融危機 [41])發出警報來幫助做出有影響力的決策。

?????????基于上述動機,在本文中,我們專注于提高 DNN 在預測具有異常的時間序列方面的性能。

????????首先,除了上面的經驗驗證之外,我們還對 DNN 在預測具有極端事件的時間序列時,容易陷入欠擬合或過擬合的現象進行了分析。通過極值理論 (EVT) 的視角,我們觀察到主要原因在于先前選擇的損失函數它天生缺乏對極端事件進行精細建模的能力。因此,我們提出了一種稱為極值損失 (EVL) 的新型損失函數,以改進對極端事件的預測。

????????此外,我們在記憶網絡[45]的幫助下,提供了一種神經架構來記憶歷史數據的極端事件。與我們提出的 EVL 一起,構建了我們的端到端框架,以便更好地預測具有極端事件的時間序列數據

1.1 主要貢獻有?

  • 提供了關于為什么深度神經網絡在預測具有極端事件的時間序列數據時會出現欠擬合或過擬合現象的分析。
  • 我們提出了一種基于極值理論的、稱為極值損失(EVL)的新型損失函數,它可以更好地預測極端事件的未來發生。
  • 我們提出了一種全新的基于記憶網絡的神經架構來記憶歷史上的極端事件,從而更好地預測未來的極端值。
  • 實驗結果驗證了我們的框架與最先進的技術相比在預測準確性方面的優越性。

2 preliminary

2.1 時間序列預測

假設有 N 個固定長度 T 的序列。 對于第 i 個序列,時間序列數據可以描述為,

這里和分別是t時刻的輸入和輸出

?對于一維時間序列預測,我們有,∈R,且=

出于方便起見,我們記

?????????時間序列預測的目標是,給定觀察值 和未來輸入 ,如何預測未來的輸出。

????????假設在給定輸入 xt 的情況下,模型在時間 t 預測 ot ,優化目標可以寫成:

?2.2 極端事件

? ? ? ? ? 盡管像 GRU 這樣的 DNN 在預測時間序列數據方面取得了顯著的進步,但正如我們在introductio部分所展示的那樣,如果使用不平衡的時間序列進行訓練,該模型往往會陷入過擬合或欠擬合。 我們將這種現象稱為極端事件問題。 為了正式理解這一現象,引入一個輔助指標序列 會很方便:

????????

?????????其中大常數 ?1, ?2 > 0 稱為閾值。 對于時刻t,如果 vt = 0,我們將輸出 yt 定義為正常事件。 如果 vt > 0,我們將輸出 yt 定義為右極端事件。 如果 vt < 0,我們將輸出 yt 定義為左極端事件。

2.2.1 長(重)尾分布??Heavy-tailed Distributions

????????以前的工作注意到現實世界數據的經驗分布似乎總是長尾的 [37]。

????????直觀地說,如果說隨機變量 Y符合長尾分布,那么它通常具有不可忽略的大值(大于閾值)的概率 [37]。

????????事實上,包括高斯、泊松在內的大多數廣泛應用的分布都不是長尾分布,而是輕尾分布。 只有少數參數分布是長重尾分布,例如 帕累托分布和對數柯西分布。

????????因此,使用輕尾參數分布進行建模會在數據的尾部帶來不可避免的損失。(因為實際數據大體上是長尾分布)

???????? 這樣的陳述可以用圖2(a)說明性地呈現,其中我們選擇了一個輕尾截斷正態分布-尾分布很好地擬合了中心周圍的數據,但尾部的不準確性是不能容忍的。

2.2.2 極值理論?Extreme Value Theory

????????從歷史上看,極值理論 (EVT) 在研究這些重尾數據方面更進一步。 EVT 研究觀察樣本中最大值的分布 [43]。

????????正式地說,假設有 T 個隨機變量 y1, 。 . . ,yT 是從分布 Fy中獨立同分布地采樣的,那么最大值的分布是,

?????????

?????????為了得到P{max(y1,····,yT)≤y}的非零形式,以前的研究是通過對最大值進行線性變換來進行的。

????????作為 EVT 的一個基本結果,以下定理表明,Y 在線性變換后的分布始終限于少數情況。

定理2.1:如果 Y 上存在一個線性變換,使得方程 4 中的分布不退化為 0。那么變換后的非退化分布 G(y) 的類必須是以下分布:

????????

?????????通常將 G(y) 形式稱為廣義極值分布,以 γ ≠ 0 作為極值指標。 這樣的陳述有時也被認為是最大數定律[27]。 事實上,上面的定理對超過某個固定閾值的觀察有一個自然的擴展,如下所示,這將在下一部分中有用。

2.2.3 建模尾部分布

????????以前的工作擴展了上述定理以模擬真實世界數據的尾部分布

????????

? ? ? ? 這里是一個很大的閾值

?3 極端事件帶來的問題

3.1 優化有的經驗分布

????????我們進一步研究了極端事件對時間序列預測的影響。

????????為了簡單起見,我們只關注一個序列,即 。

????????

???????? 從概率的角度來看,方程2中損失函數的最小化本質上等價于似然P(yt |xt)的最大化。

????????根據 Bregman 的理論 [5, 40],最小化這種平方損失總是具有方差 τ 的高斯形式,即,其中 θ 是 預測模型的參數,O是模型的輸出。

? ? ? ? 于是方程2可以被等價替換為

?????????

?根據貝葉斯理論,我們有:

?????????通過假設模型具有足夠的參數 θ [23, 29] 的學習能力,將產生 P(Y |X) 的最佳近似值。

????????值得注意的是,我們對參數θ學習能力的假設是先前研究中廣泛采用的假設 [3, 21],并且可以在實踐中使用深度神經網絡結構來實現。

參數θ優化后,Y的經驗分布需要滿足以下形式:

?是未知的標準差

???????考慮到它與具有高斯核的核密度估計器 (KDE) 的相似性 ,?我們可以得出一個中間結論:如果序列中數據的真實分布是重尾的,那么這種模型的性能會相對較差 (因為正態分布是輕尾的)

3.2? 為什么DNN會遇到問題?

????????如上所述,具有最優參數的學習模型的輸出分布可以被視為具有高斯核的 KDE(方程 9)。

???????? 由于非參數核密度估計器僅適用于足夠的樣本【非參數化是因為方程9中分布是由觀測值yt決定給的】,因此預計性能會在數據的尾部降低(尾部采樣的數據點將相當有限 [7])。

???????? 極值的范圍通常很大,很少有樣本,因而很難覆蓋整個范圍。

????????如圖 2(b) 所示,我們從真實分布中采樣 yt ,并用高斯核擬合 KDE。

????????如圖所示,由于只有兩個 yt > 1.5 的樣本,擬合的 KDE 峰的形狀在這些點周圍不一致(會隆起)。

????????此外,由于絕大多數樣本以 0 為中心,因此 KDE 估計的原點周圍的概率密度往往遠高于真實分布。

? ? ? ? ?我們假設x1,x2是兩個測試數據,相應的輸出應該是o1=0.5,o2=1.5

? ? ? ? 假設我們已經充分地學習了P(X)和P(X|Y),那么我們有

????????

用相似的辦法,我們有

?????????因此,在這種情況下,來自DNN的預測值總是有界的,這使模型無法預測極端事件,即導致欠擬合現象

????????另一方面,正如我們在相關工作中所討論的那樣,有幾種方法建議在訓練期間通過增加相應訓練損失的權重來強調極端點。

???????? 在我們的公式中,這些方法相當于在擬合 KDE 時在數據集中多次重復極值點。 其結果如圖 2(b)中的虛線所示。

? ? ? ? 于是從 結果上,我們有 ?

????????

? ? ? ? 以及?

????????直觀地說,上面的不等式表明,隨著極端事件的估計概率相加,對正常事件的估計也會同時變得不準確。 因此,測試集中的正常數據很容易被誤分類為極端事件,從而標志著過擬合現象。

????????正如我們所看到的,DNN 中的極端事件問題主要是由于觀測值 yt 的尾部沒有足夠的先驗。

  • 通過最大化似然性可能導致 yt 的非參數估計,這很容易導致欠擬合問題。
  • 另一方面,如果我們增加這些大值的權重,DNN 很容易出現過擬合問題。

為了緩解 DNN 中的這些問題,我們將提供一個“優雅”的解決方案,旨在為 DNN 在預測時間序列數據時對極端事件施加先驗。 ?

4 預測有極端事件的時間序列

????????為了將先驗信息強加于 DNN 觀察的尾部,我們關注兩個因素:記憶極端事件和建模尾部分布。

????????對于第一個因素,我們建議使用記憶網絡來記憶歷史上極端事件的特征,對于后一個因素,我們建議對觀察結果施加近似的尾分布,并提供一種稱為極值損失(EVL)的新分類。 最后,我們將這兩個因素結合起來,介紹了預測具有極值的時間序列數據的完整解決方案。

4.1? 記憶網絡模塊

? ? ? ??正如 Ghil 等人所指出的,時間序列數據中的極端事件通常表現出某種形式的時間規律性 [19]。

????????受此啟發,我們建議使用記憶網絡來記憶這些極端事件,這被證明在識別歷史信息中包含的固有模式方面是有效的[45]。

???????? 首先,在我們的上下文中定義窗口的概念。

4.1.1 歷史窗口

????????對于每個時間步 t,我們首先?隨機采樣一系列窗口W = {w1,····,wM} ,其中 M 是記憶網絡的大小。

????????每個窗口 wj 正式定義為 wj = [xtj , xtj+1,····, xtj+Δ],其中 Δ 為滿足 0 < tj < t -Δ 的窗口大小。(換句話說tj+Δ也是比t要小的)

????????然后我們應用 GRU 模塊將每個窗口嵌入到特征空間中。

???????? 具體來說,我們使用 wj 作為輸入,并將GRU最后一個隱藏狀態作為這個窗口的潛在表示,表示為。

????????同時,我們應用一個記憶網絡模塊來記憶每個窗口 wj 在 tj +Δ+1 中是否存在極端事件。 在實現中,我們通過 。

????????有關我們基于內存網絡的模塊的概述,請參見圖 3(a)。 總之,在每個時間步 t,我們提出的架構的內存由以下兩部分組成: ?

  • ?嵌入模塊(sj是歷史窗口j的潛在表示)
  • 歷史模塊(qj是一個標簽,表示窗口j之后的時刻,是否有極端事件)

?

?4.1.2 注意力機制

????????在這一部分中,我們進一步將上面演示的模塊合并到我們的不平衡時間序列預測框架中。 在每個時間步 t,我們使用 GRU 來產生輸出值:

?

? ? ? ? 這里生成ht所使用的GRU和之前sj的生成所使用的GRU是一個GRU

????????正如我們之前所討論的,?的預測可能缺乏識別未來極端事件的能力。

????????因此,我們還要求我們的模型回溯其記憶,以檢查目標事件與歷史上的極端事件之間是否存在相似性。? ? ? ? ?

????????為了實現這一點,我們建議利用注意力機制 [4] 來達到我們的目的

????????

? ? ? ? (當前時間序列和M個窗口時間序列之間的相似權重【權重之和為1】)

?????????最后,可以通過對 qj (后一時刻是否有異常值)施加注意力權重來衡量之后是否會發生極端事件的預測。

???????? 我們的模型在時間步 t 的輸出計算為

?

?????????定義中 ut ∈ [?1, 1] 是對時間步 t 后是否會發生極端事件的預測,b ∈ R+ 是尺度參數。

???????? 直觀地說,我們模型的主要優勢在于,它可以在產生正常值和極端值的預測之間靈活切換。

????????當當前時間步長與歷史上的某些極端事件存在相似性時,ut 將通過設置 ut 非零來幫助檢測這樣的極端點;而當觀察到當前事件與歷史幾乎沒有任何關系時,則 輸出將選擇主要取決于 ,即標準 GRU 門預測的值。

????????損失函數可以寫成公式 2 中定義的平方損失,以最小化輸出 ot 和觀測值 yt 之間的距離。

?4.2?極端值損失

????????雖然記憶網絡可以預測一些極端事件,但這種損失函數仍然存在極端事件帶來的問題。 因此,我們繼續對(14)式第二個因子進行建模。

???????正如我們在第 3 節中討論的那樣,用平方損失作為優化目標,會導致 yt 的非參數近似。 如果沒有強加的先驗 P(Y),經驗估計 的P^(Y) 很容易導致過擬合/欠擬合兩種現象。

???????? 因此,為了影響 P(Y) 的分布,我們建議對損失函數施加有尾數據的先驗。

???????? 我們這里關注極端事件指標 ut 。 為簡單起見,我們首先考慮右極端事件。(vt為0或1的情況)

?????

??????????為了將尾分布與 P(Y) 結合起來,我們首先考慮 Eq.6 中定義的近似值,它可以近似觀察值的尾分布。 在我們的問題中,對于觀測值 yt,近似值可以寫為

? ? ?

?????????正函數 f 是尺度函數

????????此外,如果我們考慮一個二進制分類任務來檢測正確的極端事件。 在我們的模型中,預測指標是 ut ,它可以被視為的近似。 我們將近似值視為權重,并將它們添加到二進制交叉熵中的每個項上, ?

????????

? ? ? ? 這里我覺得論文寫錯了?第一個式子應該是兩個正號,這樣后一項才是全負號

? ? ? ? 其中涉及的幾個前面提到的式子:?

????????

? ? ? ??

????????

? ? ? ? 在(16)式中,?(正常事件的比例),同理P(vt=1)是右異常的比例

?????????γ是超參數,是近似值的極值指標。我們將提出的分類損失函數稱為極值損失(EVL)。

????????類似地,我們有二分類損失函數,用于檢測未來是否會有左極端事件。結合兩個損失函數,我們可以將EVL擴展到vt ={?1,0,1}的情形。

????????正如我們在第3節中所討論的,如果在非參數估計器上沒有適當地設置權值,DNN將會遇到過擬合問題。

????????EVL的關鍵是利用極值理論,通過在觀測值的尾部分布上加上近似來找到合適的權值。

????????直觀地說,當模型將事件識別為正常事件時,β0項會增加對右極端事件的懲罰。同時,也增加了模型識別可信度較低的極端事件時的懲罰。

????????(個人理解:因為我們是損失函數加上EVL(ut),也就是減去,那么如果t點應該是正常點,那么β0是很大的,如果ut也是0的話,那么相當于減去了β0;但是如果ut是1的話,相當于減去了一個(0,1)的數的γ次方,再乘以β,那么此時的損失函數會比ut的時候要大;所以這一項的作用是乘法右極端事件)

4.3 優化

????????在這一部分中,我們將為我們的框架提供優化。

????????首先,為了將EVL與所提出的記憶網絡結合起來,一個直接的思路是將預測的輸出與極端事件發生的預測結合起來,

?????????

?????????此外,為了提高GRU單元的性能,我們建議為每個窗口j增加懲罰項,其目的是預測每個窗口j的極端指標qj:

?????????

????????其中pj∈[?1,1]通過全連接層sj計算,sj是窗口j經過GRU后的嵌入表示。

????????最后,我們將需要學習的全部參數列示如下。

  • ?GRU中的參數:
  • L2提及的計算pj的參數 全連接層
  • GRU輸出門的參數:
  • Q 模塊的參數:
  • attention 中的參數

?

4.4 整體算法

?5 實驗部分

5.1 實驗配置

????????對三種不同的數據集進行了實驗:


????????我們收集了納斯達克市場564家公司的股票價格,每周一個樣本。我們收集的數據時間跨度為2003年9月30日至2017年12月29日。

????????氣候數據集由Keeling、Whorf和Lucas等人分別建立的“綠色氣體觀測網絡數據集”和“大氣Co2數據集”組成[25,34]。溫室數據集包含了2010年5月10日至7月31日期間,覆蓋12 × 12公里面積的2921個網格單元的溫室氣體濃度,這些網格單元間隔6小時(每天4個樣本)。二氧化碳數據集包含了1958年3月至2001年12月期間從夏威夷的莫納洛山每周收集到的大氣二氧化碳濃度。

????????原始數據集包含100萬個數據點,分為10個部分。取值范圍為[?0.5,0.5]。


????????對于前兩個數據集,我們將時間長度設置為500用于訓練,200用于測試,而對于最后一個數據集,我們將時間長度設置為300用于訓練,100用于測試,每一節隨機抽取150個時間序列,數據點為400個。

5.2 實驗結果

????????我們首先驗證我們的時間序列數據預測的完整框架。我們選擇方根均方誤差(RMSE)作為度量,其中較小的RMSE意味著更好的性能。

????????我們將我們的模型與幾個最先進的baseling模型進行了比較:GRU、LSTM和Time-LSTM[50],其中Time-LSTM考慮了xt之間的差異。

????????通過交叉熵(cross entropy, CE)代替EVL,我們還將我們的模型與沒有EVL的記憶網絡進行了比較。結果見表3。

????????令人驚訝的是,GRU的表現優于其他基線,盡管它在真實世界的數據中具有最簡單的結構。我們推斷其原因是真實世界的數據中存在大量的噪聲,如前所述,這很容易導致一維數據的過擬合問題。

????????此外,我們可以看到,我們的模型的RMSE一致低于GRU。值得注意的是,在合成數據集上,我們成功地在RMSE上提高了近50%

????????

?????????我們也將每個模塊的輸出可視化。

????????從結果中我們可以看到,我們模型的經驗成功主要歸因于兩個部分:預測值和極端事件標簽ut。

????????來自的輸出正確地逼近了數據的趨勢,但通常,它預測的值通常較小。作為補充,ut通過放大預測值來拯救當前步驟中極端事件的發生概率。

????????舉例來說,值得注意的是圖4中時間步驟600左右的可視化。盡管預測趨勢為上升,但是,它只給出一個小的正值。作為補充,內存模塊檢測到在這個時間步驟會有一個右極端事件,因此它產生一個接近1的輸出,并對進行放大,形成最終的輸出,而GRU幾乎不能做如此復雜的決定。

5.3 EVL的有效性

????????

????????從表3可以看出,EVL在預測過程中起到了重要的作用。我們進一步驗證了EVL在預測未來極端事件發生方面的有效性。

????????我們使用F1分數來衡量預測的有效性。具體來說,我們采用了宏觀、微觀和加權F1評分進行綜合評價。結果如表2所示。

????????我們將我們提出的EVL與GRU分類器和LSTM分類器進行了比較。研究了不同超參數γ對EVL的影響。

????????首先,我們可以從圖2中看到,我們提出的損失函數在每個數據集上都優于所有基線。特別是在氣候數據集上,EVL在微F1得分上的表現比最佳基線高出47%。

????????有趣的是,我們觀察到γ在很大程度上影響了最終的分類結果。例如,當γ = 4.0時,EVL在合成數據集上的性能比基線差。正如我們之前討論過的,γ直觀地描述了數據的尾部分布的特征,因此,一個不當的γ可能會誤導模型對尾部分布進行錯誤的建模。?

6 后記

? ? ? ? 這篇論文說的都是單變量時間序列的問題,但是其實多變量也是可以的。

?

????????還有一點是,個人認為,這篇論文中,如果是那些“史無前例”的極端事件(當前時刻雖然是異常,但是和之前異常時刻相似度都不高),還是無法探測到這些極端事件,無法進行預測的

總結

以上是生活随笔為你收集整理的论文笔记: Modeling Extreme Events in Time Series Prediction的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。