8.5 特征选择-机器学习笔记-斯坦福吴恩达教授
特征選擇
使得特征服從高斯分布
為了構(gòu)建異常檢測模型,我們就希望特征能服從高斯分布:
但是,我們一開始拿到的特征的分布可能是這樣的:
我們可以同過對數(shù)操作或者其他操作將他轉(zhuǎn)化為高斯分布,例如,上面的特征經(jīng)對數(shù)操作后形成的分布就非常接近于高斯分布:
構(gòu)建新特征
我們知道,在異常檢測中,樣本特征要盡可能區(qū)分正常樣本和異常樣本。例如,為了監(jiān)測機房中的服務(wù)器異常狀況,我們選定了如下特征:
x1=內(nèi)存使用率x_1=內(nèi)存使用率x1?=內(nèi)存使用率x2=每秒磁盤訪問次數(shù)x_2=每秒磁盤訪問次數(shù)x2?=每秒磁盤訪問次數(shù)x3=CPU負(fù)載x_3=CPU負(fù)載x3?=CPU負(fù)載x4=網(wǎng)絡(luò)流量x_4=網(wǎng)絡(luò)流量x4?=網(wǎng)絡(luò)流量
當(dāng)異常發(fā)生時,這些值都會非常大。但是,我們遇到一個新的異常:程序執(zhí)行時進入了某個死循環(huán),此時 CPU負(fù)載 很高,而網(wǎng)絡(luò)流量很低(業(yè)務(wù)全部卡死在服務(wù)器,而沒有和客戶端通信),亦即,一個特征過大,而一個特征過小,要去識別這樣一種情況,我們考慮創(chuàng)建新的特征:
x5=CPU負(fù)載網(wǎng)絡(luò)流量x_5=\frac{CPU負(fù)載}{網(wǎng)絡(luò)流量}x5?=網(wǎng)絡(luò)流量CPU負(fù)載?
當(dāng)上述異常發(fā)生時,該特征將會變得異常的大,有助于標(biāo)識出異常發(fā)生。
這個例子說明,我們可以通過組合現(xiàn)有特征,來產(chǎn)生標(biāo)識度更明顯的特征。
總結(jié)
以上是生活随笔為你收集整理的8.5 特征选择-机器学习笔记-斯坦福吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 8.4 有监督学习与异常检测-机器学习笔
- 下一篇: 8.6 多元高斯分布模型-机器学习笔记-