日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

参数初始化

發布時間:2025/3/21 编程问答 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 参数初始化 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1. 前向傳播與反向傳播

參考:https://medium.com/usf-msds/deep-learning-best-practices-1-weight-initialization-14e5c0295b94

? ? ? ? ? ?https://www.cnblogs.com/shine-lee/p/11809979.html

? ? ? ? ? ?https://www.cnblogs.com/shiyublog/p/10542682.html

所以,激活函數的偏導、權重矩陣、當前層的輸入(前一層的輸出),這些項的取值均會對偏導數產生影響,偏導數為這些因子項共同作用的結果,特別地:

2. 梯度消失與梯度爆炸的原理

梯度為偏導數構成的向量。

損失函數收斂至極小值時,梯度為0(接近0),損失函數不再下降。我們不希望在抵達極小值前,梯度就為0了,也不希望下降過程過于震蕩,甚至不收斂。梯度消失與梯度爆炸分別對應這2種現象,

  • 梯度消失(vanishing gradients):指的是在訓練過程中,梯度(偏導)過早接近于0的現象,導致(部分)參數一直不再更新,整體上表現得像損失函數收斂了,實際上網絡尚未得到充分的訓練。

  • 梯度爆炸(exploding gradients):指的是在訓練過程中,梯度(偏導)過大甚至為NAN(not a number)的現象,導致損失劇烈震蕩,甚至發散(divergence)。

  • 由上一節的分析可知,在梯度(偏導)計算中,主要的影響因素來自激活函數的偏導、當前層的輸入(前一層的輸出)、以及權重的數值等,這些因子連續相乘,帶來的影響是指數級的。訓練階段,權重在不斷調整,每一層的輸入輸出也在不斷變化,梯度消失和梯度爆炸可能發生在訓練的一開始、也可能發生在訓練的過程中

    因子項中當前層的輸入僅出現一次,下面著重看一下激活函數和權重的影響。

    2.1 激活函數的影響

    2.2 權重矩陣的影響

    2.3 不良初始化

    至此,一些權重不良初始化導致的問題就不難解釋了,

    • 過小,導致梯度消失

    • 過大,導致梯度爆炸

    • 全常數初始化,即所有權重WW都相同,則z(2)=W1xz(2)=W1x相同,導致后面每一層的輸入和輸出均相同,即aa和zz相同,回到反向傳播的公式,每層的偏導相同,進一步導致每層的權重會向相同的方向同步更新,如果學習率只有一個,則每層更新后的權重仍然相同,每層的效果等價于一個神經元,這無疑極大限制了網絡的能力。

    • 特別地,全0初始化,根據上式,如果激活函數g(0)=0g(0)=0,如ReLU,則初始狀態所有激活函數的輸入zz和輸出aa都為0,反向傳播時所有的梯度為0,權重不會更新,一直保持為0;如果激活函數g(0)≠0g(0)≠0,則初始狀態激活層的輸入為0,但輸出a≠0a≠0,則權重會從最后一層開始逐層向前更新,改變全0的狀態,但是每層權重的更新方向仍相同,同上。

    3. 權重初始化方法

    參考:https://www.cnblogs.com/shine-lee/p/11908610.html

    Keras 各層權重隨機初始值的方法:https://keras.io/zh/initializers/

    3.1 Xavier Initialization

    • Xavier Glorot & Yoshua Bengio: http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf
    • 適用條件:使用關于0的對稱并且值域是(-1,1)的激活函數
    • Xavier初始化將一個層的權值設置為從隨機均勻分布中取值,這個分布是有界的

    ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

    • n?是輸入該層的網絡連接的數量(fan-in),n?+?是從該層輸出的網絡連接的數量(fan-out)
    • Xavier初始化能夠維持激活的方差和反向傳播的梯度
    • 在他們的實驗中,Xavier初始化使5層網絡在各層之間保持幾乎相同的參數梯度,相反,使用正態分布初始化會導致某些層的梯度趨于0
    • 為了進一步闡明這一點,作者還演示了使用Xavier初始化的網絡在CIFAR-10圖像分類任務中取得了更快的收斂速度和更高的精度

    3.2 Kaiming Initialization

    當使用關于0的對稱并且值域是(-1,1)的激活函數式時,我們希望每層的激活輸出均值為0,平均標準差為1左右,這是我們自己的方法和Xavier都能做到的,但如果使用的是ReLU激活函數呢? 以同樣的方式縮放初始權重值是否有效?

    • Kaiming He et:propose their own initialization scheme
    • 該方案專為使用這類非對稱、非線性激活的激活函數網絡而設計
    • 在2015年的論文中證明,如果采用以下輸入權值初始化策略,深度網絡(例如22層的CNN)會更早地收斂:
    • 用從標準正態分布創建一個張量;
    • 將每個隨機選擇的數乘以√2/√n,其中n為fan-in ;
    • Bias矩陣為0

    ?

    ?

    總結

    以上是生活随笔為你收集整理的参数初始化的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 久久亚洲精品无码va白人极品 | 人妻无码中文字幕免费视频蜜桃 | 又色又爽又黄无遮挡的免费视频 | 娇妻被老王脔到高潮失禁视频 | 日本高清不卡一区 | av天天草 | 国产一区在线观看免费 | 免费看欧美大片 | 久操香蕉| 亚洲熟女乱色一区二区三区久久久 | 7799精品视频天天看 | 亚洲精品国产精 | 三级免费黄录像 | 97香蕉久久夜色精品国产 | 一级黄色大片网站 | 国产视频h | 日本一区二区高清免费 | 久久黄色录像 | 五月色综合 | 一区二区三区免费 | 中文天堂| 冲田杏梨一区二区三区 | 华丽的外出在线观看 | 我和公激情中文字幕 | 日少妇的逼 | 中文字幕超清在线观看 | 天天操天天干天天干 | 北条麻妃一区二区三区 | 超碰成人免费在线 | 啊av在线| 国产精品免费视频一区二区 | 国产精品高潮呻吟久久av野狼 | 蜜臀av性久久久久蜜臀aⅴ麻豆 | 性高跟鞋xxxxhd人妖 | 欧美激情18 | 免费看aaaaa级少淫片 | 亚洲一区二区成人 | 午夜一区二区视频 | 久久久久久久久久久久久女过产乱 | 免费色片 | 午夜av激情 | 青青草狠狠干 | 欧美精品欧美极品欧美激情 | 成人免费网站黄 | 欧美aa一级| xxxx18国产| 天天撸天天操 | 日韩色av | 日本成人性爱 | 91视频 - 88av| 亚洲综合久久网 | 色批网站 | 亚洲久久在线 | 国产a网站 | 欧美日韩一区二区三区不卡视频 | 午夜精品久久久久久久久久久久 | 国产天堂资源 | 在线不卡日韩 | 麻豆国产精品 | 欧美色99 | 亚洲性在线| 中文字幕 日韩有码 | 国产在线中文字幕 | 亚洲一区二区自拍 | 老头巨大又粗又长xxxxx | 黄色免费观看网站 | 最好看的中文字幕国语电影mv | 久久永久视频 | 337p粉嫩大胆噜噜噜亚瑟影院 | 久久五月天婷婷 | 91操操 | 日韩在线影视 | 青青草视频免费 | 免费a在线观看播放 | 国产乱淫a∨片免费视频 | 日日骑夜夜操 | 性色欲情网站iwww九文堂 | 青青操国产视频 | 亚洲自拍第三页 | 欧美日韩在线观看一区二区 | 色婷婷在线观看视频 | www.久久视频| 日本一卡二卡在线 | 国产又粗又猛又爽又黄av | 5566在线| 黑人巨大精品人妻一区二区 | 一区二区三区精品免费视频 | av资源新版在线天堂 | 亚洲欧美日本韩国 | 国产美女永久无遮挡 | 国产馆av| 午夜精品999| 日日骚av| 日韩大片一区二区 | 一区二区久久精品66国产精品 | 五月婷婷,六月丁香 | 成年丰满熟妇午夜免费视频 | 天堂在线中文字幕 | 国产精品99无码一区二区 |