数据的标准化和标准化方法
?
數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量綱的指標(biāo)能夠進(jìn)行比較和加權(quán)。
其中最典型的就是數(shù)據(jù)的歸一化處理,即將數(shù)據(jù)統(tǒng)一映射到[0, 1]區(qū)間上,常見的數(shù)據(jù)歸一化的方法有:
1、min-max標(biāo)準(zhǔn)化(Min-max normalization)
min-max標(biāo)準(zhǔn)化也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間,轉(zhuǎn)換函數(shù)如下:
其中,max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有一個缺陷就是當(dāng)有新數(shù)據(jù)加入時,可能導(dǎo)致max和min的變化,需要重新計算定義。
2、log函數(shù)轉(zhuǎn)換
通過以10為底的log函數(shù)轉(zhuǎn)換的方法同樣可以實現(xiàn)歸一化,具體方法如下:
看了下網(wǎng)上很多介紹都是x*= log10?(x),其實是有問題的,這個結(jié)果并非一定落在[0,1]區(qū)間上,應(yīng)該還要除以log10?(max),max為樣本數(shù)據(jù)最大值,并且所有的數(shù)據(jù)都要大于等于1.
?
3、atan函數(shù)轉(zhuǎn)換
用反正切函數(shù)也可以實現(xiàn)數(shù)據(jù)的歸一化:
使用這個方法需要注意的是如果想映射到區(qū)間為[0,1],則數(shù)據(jù)都應(yīng)該大于等于0,小于0的數(shù)據(jù)將被映射到[-1, 0]區(qū)間上。
?
而并非所有數(shù)據(jù)標(biāo)準(zhǔn)化的結(jié)果都映射到[0,1]區(qū)間上,其中最長久的標(biāo)準(zhǔn)化方法就是Z標(biāo)準(zhǔn)化,也是SPSS中最為常用的標(biāo)準(zhǔn)化方法。
4、z-score標(biāo)準(zhǔn)化(zero-mean normalization)
也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為:
其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
?
?
參考文章:
http://webdataanalysis.net/data-analysis-method/data-normalization/
?
轉(zhuǎn)載于:https://www.cnblogs.com/iloveyouforever/p/4353196.html
總結(jié)
以上是生活随笔為你收集整理的数据的标准化和标准化方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JSON WEB TOKEN
- 下一篇: [NOI2007]货币兑换Cash(DP