日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据标准化的方法与意义

發(fā)布時(shí)間:2025/3/21 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据标准化的方法与意义 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

含義

數(shù)據(jù)標(biāo)準(zhǔn)化和歸一化存在區(qū)別
數(shù)據(jù)歸一化是數(shù)據(jù)標(biāo)準(zhǔn)化的一種典型做法,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上.
數(shù)據(jù)的標(biāo)準(zhǔn)化是指將數(shù)據(jù)按照比例縮放,使之落入一個(gè)特定的區(qū)間.

意義

  • 求解需要
    比如在SVM中處理分類問題是又是需要進(jìn)行數(shù)據(jù)的歸一化處理,不然會(huì)對準(zhǔn)確率產(chǎn)生很大的影響,具體點(diǎn)說,比如避免出現(xiàn)因?yàn)閿?shù)值過大導(dǎo)致c,g取值超過尋優(yōu)范圍

    除此之外,最明顯的是在神經(jīng)網(wǎng)絡(luò)中的影響,主要有四個(gè)層面

    • 有利于初始化的進(jìn)行
    • 避免給梯度數(shù)值的更新帶來數(shù)值問題
    • 有利于學(xué)習(xí)率數(shù)值的調(diào)整
    • 搜索軌跡:加快尋找最優(yōu)解速度

  • 具體情況請參考:神經(jīng)網(wǎng)絡(luò)為什么要?dú)w一化:

    http://blog.csdn.net/fontthrone/article/details/74064971
    2. 加快尋找最優(yōu)解(加快收斂速度)

    沒有歸一化前,尋找最優(yōu)解的過程:

    歸一化后的過程:

    3. 無量綱化(業(yè)務(wù)上需求上的):

    指去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或者量級的指標(biāo)能夠進(jìn)行和加權(quán).
    比如身高與體重,房子數(shù)量與收入等.
    4. 數(shù)值問題

    不歸一化的數(shù)值,比如浮點(diǎn)數(shù)可能會(huì)產(chǎn)生數(shù)值不相等的問題.
    5. 數(shù)值范圍減小對許多算法在純粹的數(shù)值計(jì)算上都有一定加速作用(個(gè)人看法,雖然影響不大,但效果還是有的)

    常用公式

  • min-max標(biāo)準(zhǔn)化(Min-max normalization)
  • 又名離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性轉(zhuǎn)化,公式如下

    含義: max : 樣本最大值; min: 樣本最小值;
    問題: 當(dāng)有新數(shù)據(jù)加入時(shí)需要重新進(jìn)行數(shù)據(jù)歸一化
    2. z-score 標(biāo)準(zhǔn)化(zero-mean normalization)

    又名標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,歸一化后的數(shù)據(jù)呈正態(tài)分布,即均值為零,標(biāo)準(zhǔn)差為一公式如下:

    其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。與離差標(biāo)準(zhǔn)化的不同之處在于,離差標(biāo)準(zhǔn)化僅僅僅僅對原數(shù)據(jù)的的方差與均差進(jìn)行了倍數(shù)縮減,而標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化則使標(biāo)準(zhǔn)化的數(shù)據(jù)方差為一。這對許多的算法更加有利,但是其缺點(diǎn)在于假如原始數(shù)據(jù)沒有呈高斯分布,標(biāo)準(zhǔn)化的數(shù)據(jù)分布效果并不好。
    3. atan反正切函數(shù)標(biāo)準(zhǔn)化

    公式如下:

    問題: 數(shù)據(jù)必須大于零,大于零的函數(shù)將會(huì)被映射到[-1,0]上

    atan函數(shù)圖像如下:


    4. log函數(shù)標(biāo)準(zhǔn)化

    公式如下:

    問題:
    a . 數(shù)據(jù)必須大于等于一
    b. 如果數(shù)值大于10**10(十的十次方),那么映射的數(shù)據(jù)將大于一
    解決問題b 的方案,改變公式以類似于 ” min-max標(biāo)準(zhǔn)化的方式 “, 如下:

    max: 樣本最大值
    通過 ” /log10(max) ” 值得方式,可以保證所有樣本能夠正確的映射到[0,1]空間,

    總結(jié)

    以上是生活随笔為你收集整理的数据标准化的方法与意义的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。