日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

如何开发一个异常检测系统:如何评价一个异常检测算法

發布時間:2023/11/29 windows 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何开发一个异常检测系统:如何评价一个异常检测算法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

利用數值來評價一個異常檢測算法的重要性

使用實數評價法很重要,當你用某個算法來開發一個具體的機器學習應用時,你常常需要做出很多決定,如選擇什么樣的特征等等,如果你能找到如何來評價算法,直接返回一個實數來告訴你算法的好壞,那樣你做決定就會更容易一些。如現在有一個特征,要不要將這個特征考慮進來?如果你帶上這個特征運行你的算法,再去掉這個特征運行你的算法,得到返回的實數,這個實數直接告訴你加上這個特征算法是變好了還是變壞了,這樣你就有一種更簡單的算法來確定是否要加上這個特征。

為了更快地開發出一個異常檢測系統,那么最好能找到某種評價異常檢測系統的方法。

為了能評價一個異常檢測系統,假定已有一些帶標簽的數據,其中有正常的樣本也有異常的樣本(正常的樣本y=0,異常的樣本y=1)

對于訓練集,我們還是看成無標簽的樣本,將它們都看成無異常的樣本(其中可能有一些有異常的樣本被分到訓練集中)

定義交叉驗證集與測試集,通過這兩個集合得到異常檢測算法。我們假設交叉驗證集與測試集中的樣本都是異常的,即測試集里面的樣本y=1(表示異常樣本)。

具體的例子

有10000個正常的飛機引擎,有20個有問題的飛機引擎,從以往經驗來看,無論是制造了多少年的飛機引擎工廠,都會得到大概20個有問題的引擎。對于異常檢測典型的應用來說,異常樣本的個數通常都是20-50個這樣的個數,并且通常我們的正常樣本數量要大得多。

我們將數據分成訓練集,交叉驗證集和測試集,典型的分法是:將10000個好的引擎樣本中的6000個放入trainning set中做為無標簽的數據(實際都為正常的樣本),將剩下的正常的樣本中的2000個樣本放入交叉驗證集中,另2000個樣本放入測試集中(正常樣本的分配比例是6:2:2);將有異常的20個樣本,其中10個放入CV中,另外10個放入Test中。

另一種常見的分配方法(不推薦這樣做)是將CV與Test的樣本混合起來使用,將剩下的4000個好的樣本即做為CV也做Test使用(不推薦這樣做)

?異常檢測算法的推導與評估

異常檢測算法的推導與評估算法如下:首先我們使用訓練樣本(雖然都是是無標簽的樣本但其實都是正常的樣本)來擬合模擬p(x)(即參數估計出u,σ的值)

對于CV與Test里面的數據,我們利用算法對y進行預測,然后來評價預測的準確率。如何來度量呢?

因為數據是非常偏斜的(正常的數據多,異常的數據少),因此分類準確率不是一個好的度量方法,算出查準率、召回率以及F1值,通過這些方法來評價我的異常檢測算法在CV以及Test中的表現。

怎么決定ε的值呢?在交叉驗證集上來決定取什么ε的值,在交叉驗證集上嘗試多個不同的ε的取值,然后選出一個使得F1值最大的那個ε的值,即在交叉驗證集上表現最好的那個ε的值。當我們需要做出決定時(如選哪個特征,選哪個ε的值),我們可以不斷地使用交叉驗證來評價這個算法的好壞,然后決定我們要選取哪個特征,選哪個ε的值。

當找到ε的值后,我們的異常檢測算法就確定了,然后使用Test集來評價算法的表現

總結

?1>如何評價一個異常檢測算法:使用F1值,在交叉驗證集上做出決定如何選擇ε(確定ε的大小)以及應該包括哪些特征等

轉載于:https://www.cnblogs.com/yan2015/p/7401680.html

總結

以上是生活随笔為你收集整理的如何开发一个异常检测系统:如何评价一个异常检测算法的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。