KDD Cup 2021:时间序列异常检测问题开源方案
KDD Cup 2021:時間序列異常檢測
本次賽題的數(shù)據(jù)為時序數(shù)據(jù),針對每條時序記錄,需要選手完成具體的異常點(diǎn)定位。
文件的命名即分割了訓(xùn)練集和測試集,如下所示
<id>_<name>_<split-number>.txt
e.g. 004_UCR_Anomaly_2500.txt.
例子中,訓(xùn)練集和測試集的分割點(diǎn)為2500。
評測:如上圖異常區(qū)域?yàn)?759至2820,最后答案定位的位置,在前后100的區(qū)間內(nèi)都算正確。比如這里答案只要在2659 和 2920 區(qū)間內(nèi)都算正確。
時序異常檢測算法非常多,這里介紹一些,有興趣的同學(xué)可以嘗試一波。
- ARIMA
- 基于聚類檢測
- 基于序列建模型的RNN、LSTM
- Local Outlier Factor
- One-Class SVM
- Deep-SVDD
- First Hour Average
- Stddev from Moving Average
- Mean Subtraction Cumulation
本文開源主要使用的是基于AutoEncoder模型的時間序列異常檢測算法。
原始的時間序列往往面臨維度高,存在噪聲等情況,通過特征提取,對原始數(shù)據(jù)進(jìn)行清洗和豐富等,會比直接將原始數(shù)據(jù)扔給神經(jīng)網(wǎng)絡(luò)要好。
AutoEncoder是一種典型的無監(jiān)督方法,可以將其擴(kuò)展為Variational AutoEncoder,或者引入情景信息,從而擴(kuò)展為Conditional Variational AutoEncoder。
訓(xùn)練集中的數(shù)據(jù)(無異常點(diǎn)的數(shù)據(jù)):
測試集中的數(shù)據(jù)(有異常點(diǎn)的數(shù)據(jù)):
自編碼模型一般的神經(jīng)網(wǎng)絡(luò),其內(nèi)部結(jié)構(gòu)呈現(xiàn)一定對稱性。
激活函數(shù),一般會優(yōu)先選擇Relu,當(dāng)Relu無法滿足需求的時候,再去考慮其他激活函數(shù),比如Relu的一些衍生版本Elu,它是Relu的其中一個優(yōu)化版本,可以避免出現(xiàn)神經(jīng)元無法更新的情況。
訓(xùn)練模型很簡單,只需要調(diào)用model.fit函數(shù)。雖然簡單但是需要注意的是,對于AutoEncoder來說,輸入和輸出都是X_train特征, 除此之外在建模時劃分出20%的數(shù)據(jù)集作為驗(yàn)證集,來驗(yàn)證模型的泛化性。
查看訓(xùn)練的Loss歷史曲線,發(fā)現(xiàn)訓(xùn)練集和驗(yàn)證集都很好的進(jìn)行擬合,而且訓(xùn)練集并沒有出現(xiàn)“反彈”,也就是沒有過擬合的現(xiàn)象。
當(dāng)自編碼器訓(xùn)練好后,它應(yīng)該能夠?qū)W習(xí)到原始訓(xùn)練數(shù)據(jù)集的內(nèi)在編碼,然后根據(jù)學(xué)習(xí)到的編碼,在一定程度內(nèi)還原原始訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)。
因?yàn)锳utoEncoder學(xué)習(xí)到了“正常數(shù)據(jù)周期模式”的編碼格式,所以當(dāng)一個數(shù)據(jù)集提供給該自編碼器時,它會按照訓(xùn)練集中的“正常數(shù)據(jù)周期模式”的編碼格式去編碼和解碼。如果解碼后的數(shù)據(jù)集和輸入數(shù)據(jù)集的誤差在一定范圍內(nèi),則表明輸入的數(shù)據(jù)集是“正常的”,否則是“異常的"。
第一個Sequence的擬合情況如下:
異常節(jié)點(diǎn)為[1683,1684,,1685],因?yàn)閜oint分割的原因,最后提交的結(jié)果,在此基礎(chǔ)上+point之后即可。
總結(jié)
本賽題的方法很多,此處開源的版本為基于卷積的AutoEncoder版本,同時基于統(tǒng)計(jì)的異常相關(guān)方法,線上提交也能取的不錯的成績。
KDD Cup 2021:時間序列異常檢測問題開源Baseline 與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的KDD Cup 2021:时间序列异常检测问题开源方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 推荐系统里的那些坑
- 下一篇: 搜推广遇上用户画像:Lookalike相