日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

深度学习调参体验(二)

發(fā)布時(shí)間:2023/11/28 生活经验 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习调参体验(二) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

深度學(xué)習(xí)調(diào)參體驗(yàn)(二)

  1. 激活函數(shù)選擇:

常用的激活函數(shù)有relu、leaky-relu、sigmoid、tanh等。對(duì)于輸出層,多分類任務(wù)選用softmax輸出,二分類任務(wù)選用sigmoid輸出,回歸任務(wù)選用線性輸出。而對(duì)于中間隱層,則優(yōu)先選擇relu激活函數(shù)(relu激活函數(shù)可以有效的解決sigmoid和tanh出現(xiàn)的梯度彌散問題,多次實(shí)驗(yàn)表明它會(huì)比其他激活函數(shù)以更快的速度收斂)。另外,構(gòu)建序列神經(jīng)網(wǎng)絡(luò)(RNN)時(shí)要優(yōu)先選用tanh激活函數(shù)。

2、學(xué)習(xí)率設(shè)定:

一般學(xué)習(xí)率從0.1或0.01開始嘗試。學(xué)習(xí)率設(shè)置太大會(huì)導(dǎo)致訓(xùn)練十分不穩(wěn)定,甚至出現(xiàn)Nan,設(shè)置太小會(huì)導(dǎo)致?lián)p失下降太慢。學(xué)習(xí)率一般要隨著訓(xùn)練進(jìn)行衰減。衰減系數(shù)設(shè)0.1,0.3,0.5均可,衰減時(shí)機(jī),可以是驗(yàn)證集準(zhǔn)確率不再上升時(shí),或固定訓(xùn)練多少個(gè)周期以后自動(dòng)進(jìn)行衰減。

3、防止過擬合:

一般常用的防止過擬合方法有使用L1正則項(xiàng)、L2正則項(xiàng)、dropout、提前終止、數(shù)據(jù)集擴(kuò)充等。如果模型在訓(xùn)練集上表現(xiàn)比較好但在測(cè)試集上表現(xiàn)欠佳可以選擇增大L1或L2正則的懲罰力度(L2正則經(jīng)驗(yàn)上首選1.0,超過10很少見),或增大dropout的隨機(jī)失活概率(經(jīng)驗(yàn)首選0.5);或者當(dāng)隨著訓(xùn)練的持續(xù)在測(cè)試集上不增反降時(shí),使用提前終止訓(xùn)練的方法。當(dāng)然最有效的還是增大訓(xùn)練集的規(guī)模,實(shí)在難以獲得新數(shù)據(jù)也可以使用數(shù)據(jù)集增強(qiáng)的方法,比如CV任務(wù)可以對(duì)數(shù)據(jù)集進(jìn)行裁剪、翻轉(zhuǎn)、平移等方法進(jìn)行數(shù)據(jù)集增強(qiáng),這種方法往往都會(huì)提高最后模型的測(cè)試精度。

4、優(yōu)化器選擇:

如果數(shù)據(jù)是稀疏的,就用自適應(yīng)方法,即 Adagrad, Adadelta, RMSprop, Adam。整體來講,Adam 是最好的選擇。SGD 雖然能達(dá)到極小值,但是比其它算法用的時(shí)間長(zhǎng),而且可能會(huì)被困在鞍點(diǎn)。如果需要更快的收斂,或者是訓(xùn)練更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò),需要用一種自適應(yīng)的算法。

5、殘差塊與BN層:

如果你希望訓(xùn)練一個(gè)更深更復(fù)雜的網(wǎng)絡(luò),那么殘差塊絕對(duì)是一個(gè)重要的組件,它可以讓你的網(wǎng)絡(luò)訓(xùn)練的更深。

BN層具有加速訓(xùn)練速度,有效防止梯度消失與梯度爆炸,具有防止過擬合的效果,所以構(gòu)建網(wǎng)絡(luò)時(shí)最好要加上這個(gè)組件。

6.自動(dòng)調(diào)參方法:

(1)Grid Search:網(wǎng)格搜索,在所有候選的參數(shù)選擇中,通過循環(huán)遍歷,嘗試每一種可能性,表現(xiàn)最好的參數(shù)就是最終的結(jié)果。其原理就像是在數(shù)組里找最大值。缺點(diǎn)是太費(fèi)時(shí)間了,特別像神經(jīng)網(wǎng)絡(luò),一般嘗試不了太多的參數(shù)組合。

(2)Random Search:經(jīng)驗(yàn)上,Random
Search比Gird Search更有效。實(shí)際操作的時(shí)候,一般也是先用Gird Search的方法,得到所有候選參數(shù),然后每次從中隨機(jī)選擇進(jìn)行訓(xùn)練。另外Random
Search往往會(huì)和由粗到細(xì)的調(diào)參策略結(jié)合使用,即在效果比較好的參數(shù)附近進(jìn)行更加精細(xì)的搜索。

(3)Bayesian Optimization:貝葉斯優(yōu)化,考慮到了不同參數(shù)對(duì)應(yīng)的
實(shí)驗(yàn)結(jié)果值,因此更節(jié)省時(shí)間,貝葉斯調(diào)參比Grid Search迭代次數(shù)少, 速度快;而且其針對(duì)非凸問題依然穩(wěn)健。

7.參數(shù)隨機(jī)初始化與數(shù)據(jù)預(yù)處理:

參數(shù)初始化很重要,它決定了模型的訓(xùn)練速度與是否可以躲開局部極小。relu激活函數(shù)初始化推薦使用He normal,tanh初始化推薦使用Glorot normal,其中Glorot normal也稱作Xavier normal初始化;數(shù)據(jù)預(yù)處理方法一般也就采用數(shù)據(jù)歸一化即可。

深度學(xué)習(xí)debug的流程策略

針對(duì)上面的問題,小哥總結(jié)出調(diào)試深度學(xué)習(xí)模型的第一要義——悲觀主義。

既然消除模型中的錯(cuò)誤很難,我們不如先從簡(jiǎn)單模型入手,然后逐漸增加模型的復(fù)雜度。

他把這個(gè)過程分為5個(gè)步驟:

  1. 從最簡(jiǎn)單模型入手;

  2. 成功搭建模型,重現(xiàn)結(jié)果;

  3. 分解偏差各項(xiàng),逐步擬合數(shù)據(jù);

  4. 用由粗到細(xì)隨機(jī)搜索優(yōu)化超參數(shù);

  5. 如果欠擬合,就增大模型;如果過擬合,就添加數(shù)據(jù)或調(diào)整。

  6. 學(xué)習(xí)率:

· 執(zhí)行學(xué)習(xí)率范圍測(cè)試以確定“大”的學(xué)習(xí)率。

· 一輪測(cè)試確定最大學(xué)習(xí)速率,將最小學(xué)習(xí)速率設(shè)置為最大學(xué)習(xí)速率的十分之一。

  1. 動(dòng)量:

· 用短期動(dòng)量值0.99、0.97、0.95和0.9進(jìn)行測(cè)試,以獲得動(dòng)量的最佳值;

· 如果使用周期學(xué)習(xí)率計(jì)劃,最好從該最大動(dòng)量值開始循環(huán)設(shè)置動(dòng)量,并隨著學(xué)習(xí)率的增加而減小到0.8或0.85;

  1. 批量大小:

· 根據(jù)硬件條件使用盡可能大的批量大小,然后比較不同批量大小的性能;

· 小批量添加正規(guī)化的效果大,而大批量添加的正則化效果小,因此在適當(dāng)平衡正規(guī)化效果的同時(shí)利用好它;

· 使用更大的批量通常會(huì)更好,這樣就可以使用更大的學(xué)習(xí)率;

  1. 權(quán)重衰減:

· 網(wǎng)格搜索以確定適當(dāng)?shù)姆?#xff0c;但通常不需要超過一個(gè)有效數(shù)字精度;

· 更復(fù)雜的數(shù)據(jù)集需要較少的正則化,因此設(shè)置為較小的權(quán)重衰減值,例如10-4、10-5、10^-6、0;

· 淺層結(jié)構(gòu)需要更多的正則化,因此設(shè)置更大的權(quán)重衰減值,例如10-2、10-3、10^-4。

總結(jié)

以上是生活随笔為你收集整理的深度学习调参体验(二)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。