标准化、归一化等的适用范围
生活随笔
收集整理的這篇文章主要介紹了
标准化、归一化等的适用范围
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
特征處理方法總覽:
標準化和歸一化介紹:
(1)標準化
標準化需要計算特征的均值和標準差,公式表達為:
使用preproccessing庫的StandardScaler類對數據進行標準化的代碼如下
(2)歸一化
使用preproccessing庫的Normalizer類對數據進行歸一化的代碼如下:
區間縮放法其實是歸一化的一種:
區間縮放法的思路有多種,常見的一種為利用兩個最值進行縮放,公式表達為:
使用preproccessing庫的MinMaxScaler類對數據進行區間縮放的代碼如下:
標準化和歸一化適用范圍
幾條說明:
(1)如果對輸出結果范圍有要求,用歸一化。
(2)如果數據較為穩定,不存在極端的最大最小值,用歸一化。
(3)如果數據存在異常值和較多噪音,用標準化,可以間接通過中心化避免異常值和極端值的影響。
(4)SVM、KNN(K近鄰)、神經網絡、PCA等模型必須先標準化、歸一化
??優先使用標準化。對于輸出有要求時再嘗試別的方法,如歸一化或者更加復雜的方法。很多方法都可以將輸出范圍調整到[0, 1],如果我們對于數據的分布有假設的話,更加有效的方法是使用相對應的概率密度函數來轉換。
舉個例子:
在大論文的計算中,我需要不斷增加預測集的數量,但相對于訓練集增加的個數相當少,此時只能用標準化。如果采用區間縮放法(歸一化),則Max,Min值可能會變化,進而改變縮放的空間,但標準化是均值和標準差所以幾乎不變。
歸一化作用
詳見鏈接
歸一化的作用.
總結
以上是生活随笔為你收集整理的标准化、归一化等的适用范围的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: matlab随机函数
- 下一篇: css的过渡效果