當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

均值归一化_数据预处理：标准化和归一化

發(fā)布時間：2023/12/31 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了均值归一化_数据预处理：标准化和归一化小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

網(wǎng)上很多關(guān)于標(biāo)準(zhǔn)化和歸一化的文章，不少是誤人子弟的存在。這篇文字希望給大家講清講透這兩個概念。

一、標(biāo)準(zhǔn)化（standardization）

公式一般為：(X-mean)/std，其中mean是平均值，std是方差。

從公式我們可以看出，標(biāo)準(zhǔn)化操作（standardization）是將數(shù)據(jù)按其屬性（按列）減去平均值，然后再除以方差。這個過程從幾何上理解就是，先將坐標(biāo)軸零軸平移到均值這條線上，然后再進行一個縮放，涉及到的就是平移和縮放兩個動作。這樣處理以后的結(jié)果就是，對于每個屬性（每列）來說，所有數(shù)據(jù)都聚集在0附近，方差為1。計算時對每個屬性/每列分別進行。

下面我們通過實操加深印象，并真正理解標(biāo)準(zhǔn)化的實際意義。使用sklearn中的preprocessing中的scale()函數(shù)，可以直接將給定數(shù)據(jù)進行標(biāo)準(zhǔn)化。

首先我們導(dǎo)入需要的庫，和需要處理的數(shù)據(jù)。我們隨便導(dǎo)入一支股票，000002萬科a。（數(shù)據(jù)源來自tushare pro版，感謝挖地兔）。

接著，我們選取該股票最后的100個交易日的數(shù)據(jù)，選取價格和成交量兩個特征作為演示。很顯然，這兩個特征量綱不一樣，數(shù)值相差很大，需要對他們進行一個數(shù)據(jù)預(yù)處理。先看一下原始數(shù)據(jù)：

對原始數(shù)據(jù)進行標(biāo)準(zhǔn)化，如下：

看到變化了嗎，雖然各個點的相對位置看上去還是沒變，但是坐標(biāo)軸變了。均值是0，方差為1。

還有一種標(biāo)準(zhǔn)話的方法是使用sklearn.preprocessing.StandardScaler類，主要是fit()和transform()，使用該類的好處在于可以保存訓(xùn)練集中的參數(shù)（均值、方差）直接使用其對象轉(zhuǎn)換測試集數(shù)據(jù)。

二、歸一化（scale，縮放到一個指定范圍，一般是0到1之間）

公式一般為：(X-min)/(max-min)，其中min和max分別是該屬性的最小值和最大值。

歸一化其實是一種不太標(biāo)準(zhǔn)的翻譯而已，真正要理解它，只需要知道它是一種縮放就行。歸一化操作的過程，首先是把某個屬性（按列）的最大值和最小值之間的距離看成是單位1，然后再看x和最小值的距離占總距離的比例。所以它總是一個處于0到1之間的百分數(shù)。

使用sklearn中的preprocessing中的MinMaxScaler類，可以實現(xiàn)歸一化，具體方法如下：

各個點的相對位置還是沒變，但是取值范圍變成了［0，1］。

什么時候需要標(biāo)準(zhǔn)化和歸一化？

那么是否任何情況都有必要進行標(biāo)準(zhǔn)化歸一化呢？答案是否定的。我們所熟知的決策樹、隨機森林等概率模型，就不需要。因為它們并不關(guān)心變量的值，而是關(guān)心變量的分布和變量之間的條件概率。

用AI改變金融交易，歡迎關(guān)注微信公眾號：煉金狂人

總結(jié)

以上是生活随笔為你收集整理的均值归一化_数据预处理：标准化和归一化的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： panda提取时间戳中的日期_CMIP6
下一篇：《PR基础教程入门篇-学习笔记》-012