當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据标准化的方法与意义

發(fā)布時(shí)間：2025/3/21 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了数据标准化的方法与意义小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

含義

數(shù)據(jù)標(biāo)準(zhǔn)化和歸一化存在區(qū)別
數(shù)據(jù)歸一化是數(shù)據(jù)標(biāo)準(zhǔn)化的一種典型做法,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上.
數(shù)據(jù)的標(biāo)準(zhǔn)化是指將數(shù)據(jù)按照比例縮放,使之落入一個(gè)特定的區(qū)間.

意義

求解需要
比如在SVM中處理分類問題是又是需要進(jìn)行數(shù)據(jù)的歸一化處理,不然會(huì)對準(zhǔn)確率產(chǎn)生很大的影響,具體點(diǎn)說,比如避免出現(xiàn)因?yàn)閿?shù)值過大導(dǎo)致c,g取值超過尋優(yōu)范圍

除此之外,最明顯的是在神經(jīng)網(wǎng)絡(luò)中的影響,主要有四個(gè)層面

有利于初始化的進(jìn)行
避免給梯度數(shù)值的更新帶來數(shù)值問題
有利于學(xué)習(xí)率數(shù)值的調(diào)整
搜索軌跡:加快尋找最優(yōu)解速度

具體情況請參考:神經(jīng)網(wǎng)絡(luò)為什么要?dú)w一化:

http://blog.csdn.net/fontthrone/article/details/74064971
2. 加快尋找最優(yōu)解(加快收斂速度)

沒有歸一化前,尋找最優(yōu)解的過程:

歸一化后的過程:

3. 無量綱化(業(yè)務(wù)上需求上的):

指去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或者量級的指標(biāo)能夠進(jìn)行和加權(quán).
比如身高與體重,房子數(shù)量與收入等.
4. 數(shù)值問題

不歸一化的數(shù)值,比如浮點(diǎn)數(shù)可能會(huì)產(chǎn)生數(shù)值不相等的問題.
5. 數(shù)值范圍減小對許多算法在純粹的數(shù)值計(jì)算上都有一定加速作用(個(gè)人看法,雖然影響不大,但效果還是有的)

常用公式

min-max標(biāo)準(zhǔn)化(Min-max normalization)

又名離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性轉(zhuǎn)化,公式如下

含義: max : 樣本最大值; min: 樣本最小值;
問題: 當(dāng)有新數(shù)據(jù)加入時(shí)需要重新進(jìn)行數(shù)據(jù)歸一化
2. z-score 標(biāo)準(zhǔn)化(zero-mean normalization)

又名標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,歸一化后的數(shù)據(jù)呈正態(tài)分布,即均值為零,標(biāo)準(zhǔn)差為一公式如下:

其中μ為所有樣本數(shù)據(jù)的均值，σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。與離差標(biāo)準(zhǔn)化的不同之處在于，離差標(biāo)準(zhǔn)化僅僅僅僅對原數(shù)據(jù)的的方差與均差進(jìn)行了倍數(shù)縮減，而標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化則使標(biāo)準(zhǔn)化的數(shù)據(jù)方差為一。這對許多的算法更加有利，但是其缺點(diǎn)在于假如原始數(shù)據(jù)沒有呈高斯分布，標(biāo)準(zhǔn)化的數(shù)據(jù)分布效果并不好。
3. atan反正切函數(shù)標(biāo)準(zhǔn)化

公式如下:

問題: 數(shù)據(jù)必須大于零,大于零的函數(shù)將會(huì)被映射到[-1,0]上

atan函數(shù)圖像如下:

4. log函數(shù)標(biāo)準(zhǔn)化

公式如下:

問題:
a . 數(shù)據(jù)必須大于等于一
b. 如果數(shù)值大于10**10(十的十次方),那么映射的數(shù)據(jù)將大于一
解決問題b 的方案,改變公式以類似于 ” min-max標(biāo)準(zhǔn)化的方式 “, 如下:

max: 樣本最大值
通過 ” /log10(max) ” 值得方式,可以保證所有樣本能夠正確的映射到[0,1]空間,

總結(jié)

以上是生活随笔為你收集整理的数据标准化的方法与意义的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：梯度下降与delta法则
下一篇：利用 TensorFlow 实现上下文的