数据标准化的方法与意义
含義
數(shù)據(jù)標(biāo)準(zhǔn)化和歸一化存在區(qū)別
數(shù)據(jù)歸一化是數(shù)據(jù)標(biāo)準(zhǔn)化的一種典型做法,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上.
數(shù)據(jù)的標(biāo)準(zhǔn)化是指將數(shù)據(jù)按照比例縮放,使之落入一個(gè)特定的區(qū)間.
意義
求解需要
比如在SVM中處理分類問題是又是需要進(jìn)行數(shù)據(jù)的歸一化處理,不然會(huì)對準(zhǔn)確率產(chǎn)生很大的影響,具體點(diǎn)說,比如避免出現(xiàn)因?yàn)閿?shù)值過大導(dǎo)致c,g取值超過尋優(yōu)范圍
除此之外,最明顯的是在神經(jīng)網(wǎng)絡(luò)中的影響,主要有四個(gè)層面
- 有利于初始化的進(jìn)行
- 避免給梯度數(shù)值的更新帶來數(shù)值問題
- 有利于學(xué)習(xí)率數(shù)值的調(diào)整
- 搜索軌跡:加快尋找最優(yōu)解速度
具體情況請參考:神經(jīng)網(wǎng)絡(luò)為什么要?dú)w一化:
http://blog.csdn.net/fontthrone/article/details/74064971
2. 加快尋找最優(yōu)解(加快收斂速度)
沒有歸一化前,尋找最優(yōu)解的過程:
歸一化后的過程:
3. 無量綱化(業(yè)務(wù)上需求上的):
指去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或者量級的指標(biāo)能夠進(jìn)行和加權(quán).
比如身高與體重,房子數(shù)量與收入等.
4. 數(shù)值問題
不歸一化的數(shù)值,比如浮點(diǎn)數(shù)可能會(huì)產(chǎn)生數(shù)值不相等的問題.
5. 數(shù)值范圍減小對許多算法在純粹的數(shù)值計(jì)算上都有一定加速作用(個(gè)人看法,雖然影響不大,但效果還是有的)
常用公式
又名離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性轉(zhuǎn)化,公式如下
含義: max : 樣本最大值; min: 樣本最小值;
問題: 當(dāng)有新數(shù)據(jù)加入時(shí)需要重新進(jìn)行數(shù)據(jù)歸一化
2. z-score 標(biāo)準(zhǔn)化(zero-mean normalization)
又名標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,歸一化后的數(shù)據(jù)呈正態(tài)分布,即均值為零,標(biāo)準(zhǔn)差為一公式如下:
其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。與離差標(biāo)準(zhǔn)化的不同之處在于,離差標(biāo)準(zhǔn)化僅僅僅僅對原數(shù)據(jù)的的方差與均差進(jìn)行了倍數(shù)縮減,而標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化則使標(biāo)準(zhǔn)化的數(shù)據(jù)方差為一。這對許多的算法更加有利,但是其缺點(diǎn)在于假如原始數(shù)據(jù)沒有呈高斯分布,標(biāo)準(zhǔn)化的數(shù)據(jù)分布效果并不好。
3. atan反正切函數(shù)標(biāo)準(zhǔn)化
公式如下:
問題: 數(shù)據(jù)必須大于零,大于零的函數(shù)將會(huì)被映射到[-1,0]上
atan函數(shù)圖像如下:
4. log函數(shù)標(biāo)準(zhǔn)化
公式如下:
問題:
a . 數(shù)據(jù)必須大于等于一
b. 如果數(shù)值大于10**10(十的十次方),那么映射的數(shù)據(jù)將大于一
解決問題b 的方案,改變公式以類似于 ” min-max標(biāo)準(zhǔn)化的方式 “, 如下:
max: 樣本最大值
通過 ” /log10(max) ” 值得方式,可以保證所有樣本能夠正確的映射到[0,1]空間,
總結(jié)
以上是生活随笔為你收集整理的数据标准化的方法与意义的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 梯度下降与delta法则
- 下一篇: 利用 TensorFlow 实现上下文的