當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据特征处理

發布時間：2023/12/15 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了数据特征处理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

歸一化和標準化的使用場景

如果對輸出結果范圍有要求，則用歸一化
如果數據比較穩定，不存在極端的最大值和最小值，則可用歸一化
如果數據存在異常值和最多噪聲，則用標準化，這樣可以通過中心化間接避免異常值和極端值的影響。
支持向量機、K近鄰、主成分分析等模型都必須進行歸一化或標準化操作。

標準化
標準化是依照特征矩陣的列處理數據，即通過求標準分數的方式，將特征轉換為標準正態分布，并和整體樣本分布相關。標準化需要計算特征的均值和方差

from sklearn.preprocessing import StandardScaler from sklearn.datasets import load_iris iris = load_iris() StandardScaler().fit_transform(iris.data)

區間縮放法
區間縮放法利用兩個最值（最大值和最小值）進行縮放

from sklearn.preprocessing import MinMaxScaler from sklearn.datasets import load_iris iris = load_iris() MinMaxScaler().fit_transform(iris.data)

歸一化
歸一化是將樣本的額特征值轉換到同一量綱下，把數據映射到[0,1]或者[a,b]區間內，由于其僅由變化的極值決定，因此區間縮放法是歸一化的一種
歸一區間會改變數據的原始距離、分布和信息，但標準化一般不會。

from sklearn.preprocessing import Normalizer from sklearn.datasets import load_iris iris = load_iris() Normalizer().fit_transform(iris.data)

定量特征二值化
定量特征二值化的核心在于設定一個閾值，大于閾值的賦值為1，小于閾值的賦值為0

from sklearn.preprocessing import Binarizer Binarizer(threshold=3).fit_transform(iris.data)

定性特征啞編碼OneHotEncoder
通過取值為0或1，反映某個變量的不同屬性，目的是把原本不能定量處理的變量進行量化，從而評估定性因素對因變量的影響。

from sklearn.preprocessing import OneHotEncoder OneHotEncoder(categories='auto').fit_transform(iris.target.reshape((-1,1)))

對數變換
對數變換能夠縮小數據的絕對范圍，取乘法操作相當于對數變換后的加法操作

from numpy import log1p from sklearn.preprocessing import FunctionTransformer from sklearn.datasets import load_irisiris = load_iris() iris = iris['data']iris_log = FunctionTransformer(log1p).fit_transform(iris) print(iris_log)

總結

以上是生活随笔為你收集整理的数据特征处理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mysql和oracle中函数的作用是什
下一篇：【数据分析学习】线性降维方法