當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习算法基础——数据特征预处理

發(fā)布時間：2025/3/21 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习算法基础——数据特征预处理小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

08.特征預處理-歸一化

特征處理

通過特定的統(tǒng)計方法（數(shù)學方法）將數(shù)據(jù)轉(zhuǎn)換成算法要求的數(shù)據(jù)

?數(shù)值型數(shù)據(jù)：標準縮放： ?? ??? ?

歸一化 ? ? ? ? ? ? ??? ???

?標準化 ?? ??? ? ?? ???

缺失值

類別型數(shù)據(jù)：one-hot編碼? ? ? ? ? ? 時間類型：時間的切分

sklearn特征處理API

sklearn. preprocessing

歸一化

特點：通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)映射到(默認為[0,1])之間

公式:? X′= (x?min)/(max?min)? ? ? ? ? ? ? ??X′′=X′?(mx?mi)+mi

注：作用于每一列，max為一列的最大值，min為一列的最小值,那么X’’ 為最終結(jié)果，mx，mi分別為指定區(qū)間值默認mx為1,mi為0

09.歸一化以及標準化對比

sklearn歸一化API

sklearn歸一化API: ?sklearn.preprocessing.MinMaxScaler

MinMaxScaler語法

MinMaxScalar(feature_range=(0,1)…)

每個特征縮放到給定范圍(默認[0,1])

MinMaxScalar.fit_transform(X) ? ? ?

X:numpy array格式的數(shù)據(jù)[n_samples,n_features]
返回值：轉(zhuǎn)換后的形狀相同的array

import sklearn from sklearn import feature_extraction from sklearn.preprocessing import MinMaxScalerdef mm():mm = MinMaxScaler() #feature_range=()data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])print(data)return Nonemm() [[1. 0. 0. 0. ][0. 1. 1. 0.83333333][0.5 0.5 0.6 1. ]]

問題：如果數(shù)據(jù)中異常點較多，會有什么影響？

歸一化總結(jié)

注意在特定場景下最大值最小值是變化的，另外，最大值與最小值非常容易受異常點影響，所以這種方法魯棒性較差，只適合傳統(tǒng)精確小數(shù)據(jù)場景。?

標準化

1、特點：通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)變換到均值為0,方差為1范圍內(nèi)

異常值對標準化影響不大

對于歸一化來說：如果出現(xiàn)異常點，影響了最大值和最小值，那么結(jié)果顯然會發(fā)生改變

對于標準化來說：如果出現(xiàn)異常點，由于具有一定數(shù)據(jù)量，少量的異常點對于平均值的影響并不大，從而方差改變較小。

sklearn特征化API

sklearn特征化API: ?scikit-learn.preprocessing.StandardScaler

StandardScaler語法

StandardScaler(…) 處理之后每列來說所有數(shù)據(jù)都聚集在均值0附近方差為1

StandardScaler.fit_transform(X,y) ? ? ?

X:numpy array格式的數(shù)據(jù)[n_samples,n_features]
返回值：轉(zhuǎn)換后的形狀相同的array

StandardScaler.mean_

原始數(shù)據(jù)中每列特征的平均值

StandardScaler.std_

原始數(shù)據(jù)每列特征的方差

10.標準化總結(jié)以及缺失值處理

在已有樣本足夠多的情況下比較穩(wěn)定，適合現(xiàn)代嘈雜大數(shù)據(jù)場景

11.標準化總結(jié)以及缺失值處理

缺失值

刪除	如果每列或者行數(shù)據(jù)缺失值達到一定的比例，建議放棄整行或者整列
插補	可以通過缺失值每行或者每列的平均值、中位數(shù)來填充

2.sklearn缺失值API: ?sklearn.preprocessing.Imputer

Imputer語法

Imputer(missing_values='NaN', strategy='mean', axis=0)

完成缺失值插補

Imputer.fit_transform(X,y) ? ? ?

X:numpy array格式的數(shù)據(jù)[n_samples,n_features]
返回值：轉(zhuǎn)換后的形狀相同的array

from sklearn.preprocessing import MinMaxScaler from sklearn.impute import SimpleImputer import numpy as npdef im():im = SimpleImputer(strategy="mean")data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])print(data)return None im() [[1. 2.][4. 3.][7. 6.]] 《新程序員》：云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的机器学习算法基础——数据特征预处理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习算法基础（基础机器学习课程）——
下一篇：机器学习算法基础——数据降维