深度学习神经网络:改善与优化的方法
文章目錄
- 第一周
- 訓(xùn)練集 驗(yàn)證集 測(cè)試集
- 偏差和方差
- 根據(jù)方差和偏差調(diào)節(jié)網(wǎng)絡(luò)
- 正則化
- dropout 正則化
- 為什么dropout可以工作
- 其他正則化方法
- 歸一化輸入
- 梯度消失與梯度爆炸
- 神經(jīng)網(wǎng)絡(luò)權(quán)重初始化
- 梯度檢查
- 第二周
- minibatch梯度下降法
- 指數(shù)加權(quán)平均
- 動(dòng)量梯度下降法
- RMSprop
- Adam 優(yōu)化算法
- 學(xué)習(xí)率衰減
- 局部最優(yōu)的問(wèn)題
- 第三周
- 超參數(shù)的調(diào)試重要性排序
- 為超參數(shù)選擇合適的范圍
- 正則化網(wǎng)絡(luò)的激活函數(shù)
- batch 歸一化
- softmax回歸
- 深度學(xué)習(xí)框架
第一周
訓(xùn)練集 驗(yàn)證集 測(cè)試集
公認(rèn)的比較好的比例是3:1:1,在數(shù)據(jù)量不是特別大的時(shí)候
當(dāng)數(shù)據(jù)特別大的時(shí)候根據(jù)情況考慮
注意數(shù)據(jù)的分布性問(wèn)題
訓(xùn)練集(train set) —— 用于模型擬合的數(shù)據(jù)樣本。
驗(yàn)證集(development set)—— 是模型訓(xùn)練過(guò)程中單獨(dú)留出的樣本集,它可以用于調(diào)整模型的超參數(shù)和用于對(duì)模型的能力進(jìn)行初步評(píng)估。
測(cè)試集 —— 用來(lái)評(píng)估模最終模型的泛化能力。但不能作為調(diào)參、選擇特征等算法相關(guān)的選擇的依據(jù)。
偏差和方差
偏差大:過(guò)度擬合 訓(xùn)練集誤差小 驗(yàn)證集誤差大
方差大:欠擬合 訓(xùn)練集和驗(yàn)證集誤差都大
實(shí)際上有可能出現(xiàn)偏差大 方差也大的情況
根據(jù)方差和偏差調(diào)節(jié)網(wǎng)絡(luò)
當(dāng)偏差過(guò)高時(shí)可以嘗試增加網(wǎng)絡(luò)的大小,
當(dāng)方差偏大時(shí)可以增加數(shù)據(jù)。
正則化
就是讓w盡量小,L1正則化和L2正則化,L2正則化更常用
在神經(jīng)網(wǎng)絡(luò)中添加正則化項(xiàng)
等價(jià)于在損失函數(shù)后面添加正則化項(xiàng)
對(duì)損失函數(shù)求導(dǎo)的時(shí)候,正則化被單獨(dú)求導(dǎo)
正則化項(xiàng)被加到dw中,計(jì)算表達(dá)式等價(jià)于一個(gè)衰減項(xiàng),
會(huì)讓w越來(lái)越小
正則化當(dāng)中的lamda大小非常重要,控制著網(wǎng)絡(luò)的大小
lamda太大時(shí)會(huì)導(dǎo)致w過(guò)小,w過(guò)小會(huì)導(dǎo)致激活函數(shù)幾乎為線性函數(shù),這會(huì)導(dǎo)致整個(gè)神經(jīng)網(wǎng)絡(luò)等價(jià)于一個(gè)線性函數(shù)
dropout 正則化
隨機(jī)讓一些網(wǎng)絡(luò)結(jié)構(gòu)失活,直接讓節(jié)點(diǎn)的輸出等于0
dropout方法相對(duì)于L2范數(shù)正則化可以避免參數(shù)的比例縮小問(wèn)題
在測(cè)試階段要避免使用dropout函數(shù)
為什么dropout可以工作
避免w權(quán)重全部落在某一個(gè)輸入之上
dropout在圖像識(shí)別上經(jīng)常使用
其他正則化方法
數(shù)據(jù)增強(qiáng):通過(guò)變換使數(shù)據(jù)量變多
及早停止:early stopping
歸一化輸入
標(biāo)準(zhǔn)歸一化 極值歸一化
其它方法
梯度消失與梯度爆炸
當(dāng)網(wǎng)絡(luò)太深的時(shí)候容易發(fā)生
神經(jīng)網(wǎng)絡(luò)權(quán)重初始化
使用隨機(jī)函數(shù)初始化,但是可以乘以sqrt(2/n),幫助避免梯度消失和爆炸的問(wèn)題
梯度檢查
梯度的計(jì)算考慮數(shù)值的精度問(wèn)題
雙邊誤差公式的結(jié)果更準(zhǔn)確
梯度檢查公式:
梯度檢查的禁忌:
不要在訓(xùn)練的時(shí)候用
不要和dropout一起用
記得正則化
第二周
minibatch梯度下降法
一次性使用m個(gè)樣本訓(xùn)練,計(jì)算在m個(gè)樣本的平均下降梯度,一次minbathc訓(xùn)練稱(chēng)為一個(gè)epoch。當(dāng)數(shù)據(jù)量足夠時(shí),多使用mini_batch,典型的mini_batch尺寸 64 128 256 512 ,使用過(guò)大的mini_batch注意內(nèi)存大小
指數(shù)加權(quán)平均
讓數(shù)據(jù)平滑一些
注意平滑系數(shù)B的含義
指數(shù)加權(quán)在初期產(chǎn)生誤差,所以要修正
動(dòng)量梯度下降法
有時(shí)候梯度方向可能比較曲折,將之前的多個(gè)梯度方向結(jié)合起來(lái)使用,形似向量加起來(lái)
RMSprop
Adam 優(yōu)化算法
把動(dòng)量法和RMSprop方法結(jié)合起來(lái),這里有幾個(gè)超參數(shù)需要調(diào)試
學(xué)習(xí)率衰減
隨著迭代的進(jìn)行,讓沿梯度方向逐漸變小步伐,避免錯(cuò)過(guò)最優(yōu)解
局部最優(yōu)的問(wèn)題
在高維,大的神經(jīng)網(wǎng)絡(luò)中不容易遇到局部最優(yōu)點(diǎn),但是容易遇到平穩(wěn)段
第三周
超參數(shù)的調(diào)試重要性排序
學(xué)習(xí)率最重要
動(dòng)量學(xué)習(xí)參數(shù) 批學(xué)習(xí)大小 隱藏層單元
隱藏層數(shù) 學(xué)習(xí)率衰減
隨機(jī)取超參數(shù)優(yōu)化,更可能發(fā)現(xiàn)好的
先大范圍搜索,再小范圍細(xì)致搜索
為超參數(shù)選擇合適的范圍
為超參數(shù)選取合適的范圍
對(duì)于如神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)這類(lèi)超參數(shù)可以采用平均取值,但是對(duì)于類(lèi)似學(xué)習(xí)率和指數(shù)加權(quán)平均中的超參數(shù)ββ這類(lèi)超參數(shù)需要采用對(duì)數(shù)平均取值。
如對(duì)學(xué)習(xí)率取值時(shí),學(xué)習(xí)率的變化范圍為[0.001,1],但是如果采用平均取值,則90%的都落在[0.1,1]的范圍內(nèi),反而使得學(xué)習(xí)率不能在較大范圍變化。因此采用對(duì)數(shù)取值,在區(qū)間[0.0001,0.001]、[0.001,0.01]、[0.01,0.1]和[0.1,1]內(nèi)平均取值。
將取值范圍從0.n-0.m轉(zhuǎn)化到0.0-0.(m-n),使得可以用對(duì)數(shù)
正則化網(wǎng)絡(luò)的激活函數(shù)
對(duì)激活函數(shù)的輸出也進(jìn)行歸一化,如同對(duì)輸入數(shù)據(jù)一樣,采用標(biāo)準(zhǔn)歸一化還可以逆變換回來(lái)
batch 歸一化
softmax回歸
softmax放在最后一層(輸出層)使用
深度學(xué)習(xí)框架
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的深度学习神经网络:改善与优化的方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 计算机系统 过程调用
- 下一篇: 深度学习-序列模型