生活随笔
收集整理的這篇文章主要介紹了
数据特征处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
歸一化和標準化的使用場景
- 如果對輸出結果范圍有要求,則用歸一化
- 如果數據比較穩定,不存在極端的最大值和最小值,則可用歸一化
- 如果數據存在異常值和最多噪聲,則用標準化,這樣可以通過中心化間接避免異常值和極端值的影響。
- 支持向量機、K近鄰、主成分分析等模型都必須進行歸一化或標準化操作。
標準化
標準化是依照特征矩陣的列處理數據,即通過求標準分數的方式,將特征轉換為標準正態分布,并和整體樣本分布相關。標準化需要計算特征的均值和方差
from sklearn
.preprocessing
import StandardScaler
from sklearn
.datasets
import load_iris
iris
= load_iris
()
StandardScaler
().fit_transform
(iris
.data
)
區間縮放法
區間縮放法利用兩個最值(最大值和最小值)進行縮放
from sklearn
.preprocessing
import MinMaxScaler
from sklearn
.datasets
import load_iris
iris
= load_iris
()
MinMaxScaler
().fit_transform
(iris
.data
)
歸一化
歸一化是將樣本的額特征值轉換到同一量綱下,把數據映射到[0,1]或者[a,b]區間內,由于其僅由變化的極值決定,因此區間縮放法是歸一化的一種
歸一區間會改變數據的原始距離、分布和信息,但標準化一般不會。
from sklearn
.preprocessing
import Normalizer
from sklearn
.datasets
import load_iris
iris
= load_iris
()
Normalizer
().fit_transform
(iris
.data
)
定量特征二值化
定量特征二值化的核心在于設定一個閾值,大于閾值的賦值為1,小于閾值的賦值為0
from sklearn
.preprocessing
import Binarizer
Binarizer
(threshold
=3).fit_transform
(iris
.data
)
定性特征啞編碼OneHotEncoder
通過取值為0或1,反映某個變量的不同屬性,目的是把原本不能定量處理的變量進行量化,從而評估定性因素對因變量的影響。
from sklearn
.preprocessing
import OneHotEncoder
OneHotEncoder
(categories
='auto').fit_transform
(iris
.target
.reshape
((-1,1)))
對數變換
對數變換能夠縮小數據的絕對范圍,取乘法操作相當于對數變換后的加法操作
from numpy
import log1p
from sklearn
.preprocessing
import FunctionTransformer
from sklearn
.datasets
import load_irisiris
= load_iris
()
iris
= iris
['data']iris_log
= FunctionTransformer
(log1p
).fit_transform
(iris
)
print(iris_log
)
總結
以上是生活随笔為你收集整理的数据特征处理的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。