日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cnn 一维时序数据_蚂蚁集团智能监控的时序异常检测:基于 CNN 神经网络的异常检测...

發布時間:2023/12/2 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 cnn 一维时序数据_蚂蚁集团智能监控的时序异常检测:基于 CNN 神经网络的异常检测... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1?背景在螞蟻集團智能監控領域,時序異常檢測是極重要一環,異常檢測落地中,業務方參考業界標準輸出 Metrics 指標數據,監控不同業務、應用、接口、集群的各項指標,包含 Metrics 指標(總量、失敗量、耗時等)和系統服務指標(CPU、MEM、DISK、JVM、IO 等)。早期的時序異常檢測是由 SRE 結合長期運維經驗通過配置專家規則來完成,隨著 AI 技術的普及,異常檢測逐步 AI 化,在現實場景中,AI 算法常常面臨如下挑戰:
  • 每日不同時段,業務時序曲線呈現不同的局部均值/方差特性;
  • 特殊日期如大型節假日、大促日,時序數據與日常差異巨大,甚至與往年同期也存在不小差異;
  • 每日或間隔幾日固定時間段中隨機時刻發生的偏定時事件;
  • 海量監控業務,很難針對單獨指標一一建模;
下圖是一組耗時指標時序數據,按分鐘采樣,存在明顯日周期性,在每日不同時段,均值/方差差異明顯;憑專家經驗按時間段強行設置閾值,難度大準確度低;使用回歸模型擬合數據分布,精度高,但難以泛用到其他指標。圖1 耗時時序曲線本文基于 CNN 神經網絡方向進行了一些探索,在保證檢測準確率與召回率的同時,也能保證模型有較好的泛用性?算法調研下圖整理出部分時序數據異常檢測涉及算法,這里不一一詳述,有興趣自行查詢相關算法原理。圖2 異常檢測相關算法從是否依賴標注訓練樣本的角度看,算法主要分為有監督和無監督兩個方向(半監督這里就不介紹了)。無監督算法免去了標注樣本耗費的大量人力,適合冷啟動,但最終還需算法開發人員持續調參去尋找最優分類決策平面,在調參過程中還需兼顧不同監控業務的自身特點;有監督算法則相反,但往往模型可解釋性較差,日常運維中用戶會經常詢問:為啥告警/為啥沒告警,運維人員這時可能會風中凌亂,同時不同業務 owner 對異常評判的標準是存在差異的,如果不能在異常評判的標準上達成一致,使用有監督算法往往需為不同的評判標準維護多套樣本集。CNN 的卷積層在提取異常波形特征上有明顯的優勢,復雜度合適的全連接層理論上也可擬合出所有的非線性關系;還有一點,網絡結構的設計是一件靈活的工作,算法工程師有較大的發揮空間,而非僅僅涉及調參。?算法原理此章從特征工程,樣本增強,神經網絡設計三部分介紹基于 CNN 模型方案,還是以耗時指標為例進行說明。?特征工程不同樣本的均值/方差/趨勢差異明顯,需要將原始時序數據映射到統一量綱的空間。模型原始輸入為5組輸入通道:
  • 當日數據:前 n 分鐘到當前預測時間點時序數據;
  • 同比數據(前1天):1天前當前時刻為參考點,前 n 分鐘到后 m 分鐘內時序數據;
  • 同比數據(前2天):2天前當前時刻為參考點,前 n 分鐘到后 m 分鐘內時序數據;
  • 同比數據(前7天):7天前當前時刻為參考點,前 n 分鐘到后 m 分鐘內時序數據;
  • 同比數據(前14天):14天前當前時刻為參考點,前 n 分鐘到后 m 分鐘內時序數據;
  • 同比數據時段選擇前 n 分鐘到后 m 分鐘,是因為某些周期性事件并非在一個固定時間點發生,而是在一個固定時間段中隨機取值。在作者實踐中 n=60,m=30。主要解決問題:
  • 消除了不同日期時序數據水位差異帶來的影響;
  • 消除了不同日期時序數據抖動幅度差異帶來的影響;
  • 消除了不同指標的值域范圍差異帶來的影響;
  • 整個數據處理流程按如下幾環節順序進行。方差標準化方差體現了時序數據在統計時段內的抖動劇烈程度,在真實樣本中,當日方差與往期同比時段方差可能存在較大差異,如果不做標準化處理,會導致抖動劇烈的時序數據很容易產生誤報。圖3 處理前后對比去均值均值體現了時序數據在統計時段內水位,在真實樣本中,當日均值與往期同比時段均值是不相等的,需要對齊水位。對每組輸入通道中時序數據取中位數,以中位數為0點進行平移,注意是中位數不是統計均值。圖4 處理前后對比關于為何使用中位數,而不使用統計均值,使用均值會出現下圖所示問題,沒達到對齊效果。圖5 中位數和統計均值差異提取趨勢基線滑動平均,滾動窗口提取參考時段內的趨勢基線,需要對窗口內數據集進行一定比率的去噪。圖6 提取趨勢基線去趨勢做個簡單的映射操作,真實值-趨勢基線值,提取出去趨勢后的殘差時序。圖7 去趨勢標準化對殘差時序做一個標準化操作。圖8 標準化數據截取通過上述幾個步驟,將當日與往期共5個通道時序數據映射到了新的空間;在進行異常檢測時,由于只需檢測當前時刻是否異常,所以送入神經網絡的當日時序輸入只需截取最近 c 分鐘即可,在作者實踐中,c=7。? 數據增強模型訓練前,可以做適量的數據增強,不僅能提升模型泛用性,還能在訓練收斂過程中更容易提取到異常波形特征,對準確/召回率有比較大的提升。數據增強在特征工程之后。
    • 交換往期參考日輸入通道的數據,如下例中就交換了 y7 和 y14 通道的輸入;
    圖9 交換通道輸入
    • 修改異常樣本當前時刻值,隨機設置到指定閾值之下,把一個異常樣本變成一個正常樣本;
    圖10 修改當前時刻值
    • 修改異常樣本中當日輸入通道的向量,向量整體做大尺度負向平移,把一個異常樣本變成一個正常樣本;
    圖11 修改當天輸入向量
    • 模擬周期事件,隨機抽取幾個往期通道,在輸入時序中生成與今日異常波形相似的數據;
    圖12 模擬周期事件? 神經網絡設計相比于復雜的圖像識別,異常波形的圖像特征要簡單的多,在滿足準召率的前提下,盡可能用更少的隱層,更少的參數去解決問題,模型結構中有2個關鍵點:
  • 每個輸入通道共享相同卷積層,因為每個通道需提取的波形特征是一致的,共享卷積層可以節約計算性能;
  • MaxPool 層實質對每個通道做的是一個取向量最大元素操作,所以不管 Input 層輸入向量長度如何變化,MaxPool 層輸出數據結構都是固定的,所以在模型做預測時,輸入通道是可靈活輸入不同的長度時序數據;
  • 模型 Keras 定義代碼:模型結構打印,表格中各 Layer 詳細定義可以參考模型 Keras 定義代碼,整個網絡結構較簡潔,這里不再詳述各層定義,訓練使用 loss為binary_crossentropy,模型輸出為一個標量 y,y > 0.5 為正,閾值可自行設置去控制模型對異常檢測的敏感度。圖13 網絡結構?效果評估? 標注樣本集評估結果訓練樣本集規模10000+,大部分樣本為數據增強生成,原始標注樣本1000+,正負樣本比例約1:2。當前在訓練樣本集上準確率可達 98.9%,因為打標數據中有一些模棱兩可的標注數據,不同的業務人員判斷很難達到統一,通過提高模型復雜度去強行擬合訓練樣本集,這樣可能會影響模型的泛用性。? 實測結果與分析最近一期評審數據:準確78%,召回96%,誤報主要原因分析:
    • 部分業務人員判定持續時間較短的毛刺為誤報,但訓練樣本集中是存在這種毛刺異常標注,可以添加一條簡單的后置規則對異常持續時長進行過濾;
    • 在當日原始輸入為1小時左右的時長跨度中,異常波形較明顯,但拉長時軸,在更長的時間跨度下看漲跌幅度正常;可以通過給原始輸入更久時序數據減少此類誤報,或者基于歷史數據離線統計出一些合適的最小漲跌閾值進行過濾;
    • 小數據/稀疏數據模型表現較差;
    • 周期性差,當日走勢和歷史差異極大;
    一些發現的異常,紅色為異常點。圖14 檢測的異常?當前面臨的一些問題和思考
    • 監控指標自帶業務屬性,異常標準定義很難達到統一,業務人員 A 認可的異常在業務人員 B 眼中是正常現象,這意味著使用有監督方案需要維護多份訓練集,這在實際操作中是不現實的;

    • 算法性能問題,面臨海量監控業務,訓練和實時檢測計算資源是否吃得消,本文的方案在實時檢測會產生大量時序數據查詢請求,需要平臺強力支持;

    • 在實際探索中,我們發現單一的算法解決不了所有問題,不同算法都有其優勢及不足,都有其契合及尷尬的場景,合適的方法才是最好的方法;

    ? 作者介紹王睿,花名汴南,螞蟻集團技術專家,一直從事 AIOps 算法相關研究工作。目前是螞蟻集團智能監控團隊算法組負責人。?關于我們

    歡迎來到「螞蟻智能運維」的世界。本公眾號由螞蟻集團技術風險中臺團隊出品,面向關注智能運維、技術風險等技術的同學,將不定期與大家分享云原生時代下螞蟻集團在智能運維的架構設計與創新方面的思考與實踐。

    螞蟻技術風險中臺團隊,負責螞蟻集團的技術風險底座平臺建設,包括智能監控、資金核對、性能容量、全鏈路壓測以及風險數據基礎設施等平臺和業務能力建設,解決世界級的分布式處理難題,識別和解決潛在的技術風險,參與螞蟻雙十一等大型活動,通過平臺能力保障整體螞蟻系統在極限請求量下的高可用和資金安全。

    關于「智能運維」有任何想要交流、討論的話題,歡迎留言告訴我們。

    PS:技術風險中臺正在招聘技術專家,歡迎加入我們,有興趣聯系 techrisk-platform-hire@list.alibaba-inc.com

    ??歡迎支持關注「智能運維」的你~* 點下右下角“在看”* 到公眾號對話框發送“智能監控”,試試手氣~* 本期互動獎品“螞蟻毛絨公仔

    總結

    以上是生活随笔為你收集整理的cnn 一维时序数据_蚂蚁集团智能监控的时序异常检测:基于 CNN 神经网络的异常检测...的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。