日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习:数据归一化(Scaler)

發布時間:2023/12/20 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习:数据归一化(Scaler) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據歸一化(Feature Scaling)

一、為什么要進行數據歸一化

  • 原則:樣本的所有特征,在特征空間中,對樣本的距離產生的影響是同級的;
  • 問題:特征數字化后,由于取值大小不同,造成特征空間中樣本點的距離會被個別特征值所主導,而受其它特征的影響比較小;
  • 例:特征1 = [1, 3, 2, 6, 5, 7, 9],特征2 = [1000, 3000, 5000, 2000, 4000, 8000, 3000],計算兩個樣本在特征空間的距離時,主要被特征2所決定;
  • 定義:將所有的數據(具體操作時,對每一組特征數據進行分別處理)映射到同一個尺度中;
  • 歸一化的過程,是算法的一部分;

?

二、數據歸一化的方法

 1)最值歸一化(normalization)

  1、思路:把所有數據映射到0~1之間;

  2、公式:

   

   # x為數據集中每一種特征的值;

   # 將數據集中的每一種特征都做映射;

  3、特點:多適用于分布有明顯邊界的情況;如考試成績、人的身高、顏色的分布等,都有范圍;而不是些沒有范圍約定,或者范圍非常大的數據;

   # 明顯邊界:同一特征的數據大小相差不大;不會出現大部分數據在0~200之間,有個別數據在100000左右;

  4、缺點:受outlier影響較大;

?

 2)Z-score(standardization)

  1、思路:把所有數據歸一到均值為0方差為1的分布中;

  2、公式:Xscale = (X - Xmean ) /?σ

   # Xmean:特征的均值(均值就是平均值);

   # σ:每組特征值的標準差;

   # X:每一個特征值;

   # Xscale:歸一化后的特征值;

  3、特點1:使用于數據分布沒有明顯的邊界;(有可能存在極端的數據值)

   # 歸一化后,數據集中的每一種特征的均值為0,方差為1;

  4、優點(相對于最值歸一化):即使原數據集中有極端值,歸一化有的數據集,依然滿足均值為0方差為1,不會形成一個有偏的數據;

?

三、訓練數據集的歸一化

  1)最值歸一化:

import numpy as np# 對一維向量做歸一化 x = np.random.randint(0, 100, size = 100) x = np.array(x, dtype=float) x = (x - np.min(x)) / (np.max(x) - np.min(x))# 對二維矩陣做歸一化 X = np.random.randint(0, 100, (50, 2)) X = np.array(X, dtype=float) # 分別對每一列進行最值歸一化,方式與向量做最值歸一化一樣

 

 2)均值方差歸一化:

import numpy as npX2 = np.random.randint(0, 100, (50, 2)) X2 = np.array(X2, dtype=float) X2[:,0] = (X2[:,0] - np.mean(X2[:,0])) / np.std(X2[:,0]) X2[:,1] = (X2[:,1] - np.mean(X2[:,1])) / np.std(X2[:,1])

  # np.mean(array):求向量的平均值;

  # np.std(array):求向量的標準差;

?

四、測試數據集的歸一化

 1)問題

  • 訓練數據集歸一化,用于訓練模型,測試數據集如何歸一化?

 2)方案

  • 不能直接對測試數據集按公式進行歸一化,而是要使用訓練數據集的均值和方差對測試數據集歸一化;

 3)原因

  • 原因1:真實的環境中,數據會源源不斷輸出進模型,無法求取均值和方差的;
  • 原因2:訓練數據集是模擬真實環境中的數據,不能直接使用自身的均值和方差;
  • 原因3:真實環境中,無法對單個數據進行歸一化;

  # 對數據的歸一化也是算法的一部分;

 4)方式

  • (X_test - mean_train) / std_train
  • X_test:測試數據集;
  • mean_train:訓練數據集的均值;
  • std_train:訓練數據集的標準差;
  • ?

     

    五、使用scikit-learn中的Scaler類

     1)調用的步驟

    • scikit-learn中將訓練數據集的均值和方差封裝在了類Scalar中;

  • fit:根據訓練數據集獲取均值和方差,scikit-learn中返回一個Scalar對象;
  • transform:對訓練數據集、測試數據集進行歸一化;
  • ?

     2)代碼實現

    import numpy as np from sklearn import datasetsiris = datasets.load_iris() X = iris.data y = iris.target# 1)歸一化前,將原始數據分割 from ALG.train_test_split import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, seed = 666)# 2)導入均值方差歸一化模塊:StandardScaler from sklearn.preprocessing import StandardScaler# 實例化,不需要傳入參數 standardScaler = StandardScaler()# 3)fit過程:返回StandardScaler對象,對象內包含訓練數據集的均值和方差 # fit過程,傳入訓練數據集; standardScaler.fit(X_train) # 輸出:StandardScaler(copy=True, with_mean=True, with_std=True)# fit后可通過standardScaler查看均值和標準差 # standardScaler.mean_:查看均值 # standardScaler.scale_:查看標準差# 4)transform:對訓練數據集和測試數據集進行歸一化,分別傳入對應的數據集 # 歸一化并沒有改變訓練數據集,而是又生成一個新的矩陣,除非將新生成的數據集賦給原數據集,一般不改變原數據 X_train_standard = standardScaler.transform(X_train) X_test_standard = standardScaler.transform(X_test)# 接下來就是使用歸一化后的數據集訓練并測試模型

    ?

     3)注意

  • 步驟:數據分割——導入并實例化歸一化模塊——fit(得到均值和方差)——transform(得到歸一化后的數據集);
  • 實例化StandardScaler()時,不需要傳入參數;
  • 歸一化并沒有改變數據集,而是又生成一個新的矩陣,一般不要改變原數據;
  • ?

     4)實現scikit-learn的StandardScaler類中的內部邏輯

    import numpy as npclass StandardScaler:def __init__(self):self.mean_ = Noneself.scale_ = Nonedef fit(self, X):"""根據訓練數據集獲取均值和標準差"""assert X.ndim == 2,"the dimension of X must be 2"self.mean_ = np.array([np.mean(X[:,i]) for i in range(0,X.shape[1])])self.scale_ = np.array([np.std(X[:,i]) for i in range(0,X.shape[1])])return selfdef transform(self, X):"""將X根據這個StandardScaler進行均值方差歸一化處理"""assert X_train.ndim == 2, "the dimension of X_train must be 2"assert self.mean_ is not None and self.scale_ is not None,\"must fit before transform"assert X.shape[1] == len(self.mean_),\"the feature number of X must be equal to mean_ and std_"reasX = np.empty(shape=X.shape, dtype=float)for col in range(X.shape[1]):resX[:,col] = (X[:,col] - self.mean_[col]) / self.scale_[col]return resX

    ?

    轉載于:https://www.cnblogs.com/volcao/p/9089716.html

    總結

    以上是生活随笔為你收集整理的机器学习:数据归一化(Scaler)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。