當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

EVT 极值理论

發布時間：2023/12/9 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 EVT 极值理论小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

EVT：Extreme Value Theory；預測小概率時間發生的可能，如大洪水，評估海事安全等。

EVT 中心思想是概率分布，可給出事件發生概率的數學公式。

例如常用的高斯分布，通常絕大多數數據不會偏離均值很多，但是對分布兩端的極端值很難預測；屬于小概率事件，事件越極端發生概率越低；此時計算發生概率可使用以往此類極端事件發生情況擬合曲線。

使用EVT流式檢測異常值：Anomaly Detectionin Streams with Extreme Value Theory

檢測流中的極端值問題可表述為，Xt是一段時間內的觀測值，設置閾值zq，對任何>=0的時間 t，可觀測到Xt > zq 的概率小于q(q很小)

之前常用的方法需要假設：正常數據發生有很高概率而異常發生概率很低，需要假設數據分布；而極值理論不需要假設樣本數據的分布，通過理論結果推測低概率區域并找出異常點，這種單參數的方法適用于穩定樣本和移動的樣本。

在數學上，X是隨機變量，F代表積累分布函數；F(X)=P(X<=x)；函數F的尾部分布為F(X)=1-F(X)=P(X>x)；用Xi代表隨機變量和結果，通過上下文可明確它們的意思。對一個隨機變量X和給定的概率q，記zq為它在1-q層的分位數，zq是最小值，P(X<=zq)>=1-q，P(X>zq)<q。

EVT的目的是找到極端事件的規律；極端事件有相同分布而不同于其原有分布。例如溫度和潮汐的最大值幾乎有相同分布而與潮汐和溫度的分布不相同，這種分布稱為極值分布EVD，形式如下：

所有正常標準分布的極值都符合EVD分布，極值系數 γ 依賴于原始分布規則。

例如，X1...Xn 是n個變量，符合高斯正態分布，Mn為X中的極大值集合，Mn符合EVD分布，γ 由初始分布決定(這里是高斯分布，值為0)

對于多數概率分布，當事件趨向于極值時其概率會下降，

例如當X 大于某值是P(X > x)的概率，隨著x增大其概率P趨近于0。

F(x) = P(X>x) 代表 X 的分布的尾部，實際上只有三種尾部形狀和 Gγ 匹配對應的函數。

?根據上述現象，可不受初始規則影響而準確的計算概率。使初始分布正式化，中心極限定理表述了正態分布中 n 個變量的均值匯聚到分布中；極值理論對極值表述了同樣的結果。

極值理論可在原始數據分布非常復雜的情況下，仍可估計極端事件（異常等）。如下圖，藍色線段表示的是一個未知分布，但是紅色虛線則可以進行擬合推動其分布。定義一個異常概率 q?(這是本算法中的唯一參數)，存在一個可能的值 Zq?使 P(X > Zq) < q?，估計 Gγ 擬合紅虛線。

?對未知輸入分布的尾部訓練EVD分布，就可以估算出潛在極端事件的概率；實際中，通過給定一個概率 q，可通過P(X > Zq) < q, 計算出zq，q 為概率，Zq為閾值，γ 值的估計是未解決的問題。

一種現存的訓練尾部分布的方法是Peaks-Over_Threshold(POT)方法，也稱作第二極值理論。

?累積分布函數F，當且僅當下面函數的 σ 存在，x 屬于自然數，1 + x * γ > 0。

極值理論（EVT）認為不同事物符合不同的數據分布，但不同事物的極端事件滿足相同的分布，這個分布稱為極值分布。而 SPOT 應用 EVT 第二理論，即極值相對于一個閾值超出的部分滿足帕累托分布(GPD)：

這個結果顯示超過閾值 t 記作 X- t，符合 GPD分布，參數有γ，σ。GPD分布還需要第三個參數 μ，這里設置為空。相比對X的極值訓練EVD分布，POT是對超出閾值 t 的值 X-t 訓練GPD分布(使用帕累托分布去擬合)。

使用極大似然估計計算 γ 和 σ 值，分位數閾值 Zq 使用下式計算(公式（1）)：

最大似然估計式子：

?Yi = Xi - t，即所有大于 t 值得Xi 減去 t 的差值的集合。

在嚴格的GPD分布中，即 Yi 符合GPD分布，最大似然估計相比其他估計有更好的融合性質。?

Grimshaw 策略是將兩個變量優化問題轉為一個變量等式；l(γ, σ) = log(γ, σ)，要找 l 的極值，就是找?l(γ, σ) 的導數為 0 的解，根據 Grimshaw 策略如果得到解，則變量 x =?γ / σ 是標量等式 u(x) * v(x) = 1 的解，而 u(x)，v(x) 如下：

由等式可知 γ? = v(x) - 1，σ = γ / x，這個等式的解只能給出?l(γ, σ) 最大的可能解，所有要得到所有的根去計算對應的似然值，用最好的(γ, σ) 作為最終的估計值。

搜索所有根的值，1 + x * Yi 必須是嚴格的正數，因為 Yi 為正，所有 x 的范圍 (-(1 / YM), +∞)，YM?是 Yi 中的最大值，通過下面的公式計算上邊界值 Xmax 以搜索根的值：

Ym = min(Yi)，為 Yi 均值，根的數量未知，要找到使似然值最大的解。

極值理論，通過POT方法估計 Zq，P(X > zq) < q，對X的分布不需要假設，不需要明確分布類型。

首先是初始化步驟，通過n個觀察值X1...Xn 計算閾值 Zq。之后細化兩個流式算法，通過輸入數據更新Zq，并作為決策邊界。本文提出SPOT用于穩態數據，DSPOT用于流動部分。最后可使用一些理論和技術改進，使更新邊界更快更好。

POT初始返回一個閾值 Zq，用 Zq 定義正常邊界；POT 初始化值更像是一個校準的步驟。

流式異常檢測使用下一個觀察值檢測異常和定義異常閾值 zq。

首先是初始化步驟，通過 n 個觀察值 X1...Xn 計算閾值 Zq。細化兩個流式算法，通過輸入數據更新Zq值，并作為決策邊界。本文提出SPOT用于穩態數據，DSPOT用于流動部分。最后可使用一些理論和技術改進，使更新邊界更快更好。

?POT初始返回一個閾值 Zq，使用 Zq 定義正常邊界；

初始化更像是一個校準的步驟，流式異常檢測使用下一個觀察值檢測，異常和定義異常閾值 Zq。

POT 不需要存儲所有時間序列，只要峰值即可。

在流中檢測異常事件，首先使用POT估計前 n 個值，獲得初始閾值 Zq；對于所有下一個觀測值就可以標注事件或更新閾值。如果一個值超過了閾值 Zq，就認為其異常，不使用其更新模型。另一種情況，Xi 大于初始閾值還屬于正常值(峰值樣例)。在峰值樣例中，添加到峰值集合，更新Zq。SPOT假設 Xi 分布不隨時間變化，但可能太嚴格了。

DSPOT 使 SPOT 不使用 Xi 絕對值而是相對值運行。

使用變量的差值，?Mi 是 i 時刻的均值，Mi 是移動平均，d 是當前樣本的前 d 個正常觀測值，d 是一個窗口參數。假設 Xi 來自相同的靜態分布。

數值優化：減少參數選擇的搜索

u(x) * v(x) = 1 的可能的解在下面兩個區間內：

如果 x 是公式的解，則滿足條件：

最大化似然函數優化：使用 L-BFGS-B 解?

初始化 t 值，要確保 t 小于 Zq，t 的概率小于 1 - q，實際中設 t 為一個高的經驗分位數 98%

?SPOT的步驟可以分為兩步：

? ? ? ? （1）calibration，或者叫初始化。根據已有的數據計算t和閾值Zq。

? ? ? ? （2）流式更新閾值Zq，并把它當做決策邊界判斷異常。大于Zq的為異常，報出去；

? ? ? ? ? ? ? ? ?在t和zq之間的為peaks，用于更新GPD模型和Zq；小于t的為正常數據，不處理;

DSPOT：用與局部平均M的相對值代替原先的絕對值進行SPOT。該算法認為這個相對值的分布不隨時間變化，即這個相對值滿足SPOT的前提條件。

DSPOT算法流程

? ? ? ? 先取前d個數計算M（初始化M）

? ? ? ? 再取n個數計算相對值X', 擬合模型得到初始閾值zq（初始化閾值zq）

? ? ? ? 流式更新模型：

????????如果新來的相對值大于zq，判斷為異常，不更新模型（特指極值分布模型），不更新M值。

????????如果新來的相對值是peak（大于t），更新模型，更新M；

????????否則，只更新M，不更新模型。

參考：

極值理論(Extreme Value Theory) (360doc.com)

基于極值理論的流數據實時異常檢測(SPOT/DSPOT, KDD'17) - 知乎

基于極值理論的單變量時間序列流式異常檢測算法SPOT/DSPOT_m0_37935211的博客-CSDN博客

總結

以上是生活随笔為你收集整理的EVT 极值理论的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： js----与浏览列表有关的对象（浏览器
下一篇： RabbitMQ是如何运转的？