當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

MachineLearning(5)-去量纲：归一化、标准化

發(fā)布時間：2023/12/13 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了 MachineLearning(5)-去量纲：归一化、标准化小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

去量綱：歸一化、標(biāo)準(zhǔn)化

1.歸一化(Normalization)
- 1.1 Min-Max Normalization
- 1.2 非線性Normalization
2.標(biāo)準(zhǔn)化(Standardlization)
- 2.1 Z-score Normalization
3.標(biāo)準(zhǔn)化在梯度下降算法中的重要性

本博文為葫蘆書《百面機器學(xué)習(xí)》閱讀筆記。

去量綱化 可以消除特征之間量綱的影響，將所有特征統(tǒng)一到一個大致相同的數(shù)值區(qū)間內(nèi)；以便不同量級的指標(biāo)能夠進行比較和加權(quán)處理。

去量綱化的好處：
(1).使得不同量綱之間的特征具有可比性，消除量綱引起的特征數(shù)值量級對分析結(jié)果的影響；

(2).未歸一化的特征數(shù)值太大，將引起數(shù)值計算問題；

(3).利用梯度下降算法求解的模型，輸入特征數(shù)據(jù)通常需要歸一化處理（線性回歸，邏輯回歸，支持向量機，神經(jīng)網(wǎng)絡(luò)模型）,可以加速算法的收斂過程。

去量綱化的方法：
兩類常用的方法：歸一化、標(biāo)準(zhǔn)化

1.歸一化(Normalization)

1.1 Min-Max Normalization

$x′=x?XminXmax?Xminx'=\frac{x-X_{min}}{X_{max}-X_{min}}$

作用： 將原始特征數(shù)據(jù)線性映射到[0,1]
優(yōu)點： 線性變換，對數(shù)據(jù)進行處理，不會改變原有數(shù)據(jù)的性質(zhì)
缺點： 新數(shù)據(jù)加入， $X_{min},X_{max}$ 可能會發(fā)生變化，所有數(shù)據(jù)需要重新進行歸一化處理。

1.2 非線性Normalization

對數(shù)變換： $x′=log?xx'=\log x$
反正切變換： $x′=2πarctan?xx'=\frac{2}{\pi}\arctan x$
適用情況：用于數(shù)據(jù)分化較大的場景，有些數(shù)據(jù)很大，有些數(shù)據(jù)很小。需要依據(jù)數(shù)據(jù)分布情況，決定使用的非線性函數(shù)。

2.標(biāo)準(zhǔn)化(Standardlization)

2.1 Z-score Normalization

零均值標(biāo)準(zhǔn)化
$x′=x?μσx'=\frac{x-\mu}{\sigma}$
其中： $μ\mu$ 原始數(shù)據(jù)均值， $σ\sigma$ 原始數(shù)據(jù)標(biāo)準(zhǔn)差 (數(shù)據(jù)量很大的情況下，這兩個統(tǒng)計量對加入新數(shù)據(jù) 不敏感，故可以處理新添加數(shù)據(jù)的情況)； $x?μx-\mu$ 為數(shù)據(jù)中心化，將數(shù)據(jù)中心平移到原點。

適用情況： 原始數(shù)據(jù)分布接近正態(tài)分布，將原始數(shù)據(jù) 標(biāo)準(zhǔn)化為均值為0 ，方差為1 的分布。
優(yōu)點： 線性變換，對數(shù)據(jù)進行處理，不會改變原有數(shù)據(jù)的性質(zhì)

3.標(biāo)準(zhǔn)化在梯度下降算法中的重要性

參考博文：通俗易懂理解特征歸一化對梯度下降算法的重要性https://blog.csdn.net/feijie7788/article/details/89812737

涉及數(shù)學(xué)知識：
1.一個三維曲面 $z = f (x, y)$ 被一系列平面 $z = c$ 所截得到一系列等值線。

2.曲面上某點P　梯度方向 定義：函數(shù)在該點增長最快的方向。
通過方向?qū)?shù)與 $f_x$ 和 $f_y$ 的關(guān)系得出函數(shù)在P點增長最快的方向為： $f_x,f_y)$ ,即為梯度方向。

3.等值線上 P點法線方向，垂直于P點切線方向。P點切線方向 $(d x, d y)$ ，斜率為 $dydx\frac{dy}{dx}$ , 由隱函數(shù)求導(dǎo)規(guī)則可得 $dydx=?fxfy\frac{dy}{dx}=-\frac{f_x}{f_y}$ . 則法線斜率為 $fyfx\frac{f_y}{f_x}$ ,即，法線方向為 $f_x,f_y)$ .所以曲線上某點的梯度方向，與過該點的等值線的法線方向相同。

4.c=f(x,y)隱函數(shù)求導(dǎo)：(兩邊同時對x求導(dǎo))
$0=?f?x+?f?ydydx=>dydx=?fxfy0=\frac{\partial f}{\partial x}+\frac{\partial f}{\partial y}\frac{dy}{d x}=>\frac{dy}{d x}=-\frac{f_x}{f_y}$

5.相互垂直兩個向量 $a=(x_1,y_1),b=(x_2,y_2)$ ,夾角 $θ\theta$
內(nèi)積定義垂直關(guān)系： $∣a∣∣b∣cos?θ=0|a||b|\cos \theta=0$
坐標(biāo)垂直關(guān)系: $x_1x_2+y_1y_2=0$ (帶入 $a=x_1i+y_1j,b=x_2i+y_2j,a*b計算$ )
兩向量與x軸夾角正玄值關(guān)系： $?1=y2x2y1x1-1=\frac{y_2}{x_2} \frac{y_1}{x_1}$

參考博文：
1.梯度方向與等高線方向垂直的理解：https://blog.csdn.net/bitcarmanlee/article/details/85275016
2.等值線與梯度的幾何意義：https://jingyan.baidu.com/article/da1091fb475551027849d6b7.html
3.一文讀懂梯度下降算法(各種導(dǎo)數(shù))：https://www.cnblogs.com/hithink/p/7380838.html
4.據(jù)預(yù)處理之中心化（零均值化）與標(biāo)準(zhǔn)化（歸一化）：https://www.cnblogs.com/wangqiang9/p/9285594.html
5.歸一化（Normalization）、標(biāo)準(zhǔn)化（Standardization）和中心化/零均值化（Zero-centered）(簡書):https://www.jianshu.com/p/95a8f035c86c

總結(jié)

以上是生活随笔為你收集整理的MachineLearning(5)-去量纲：归一化、标准化的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：特征工程总结
下一篇： MachineLearning(3)-流