卷积神经网络调参技巧(2)--过拟合(Dropout)
Dropout(丟棄)
首先需要講一下過(guò)擬合,訓(xùn)練一個(gè)大型網(wǎng)絡(luò)時(shí),因?yàn)橛?xùn)練數(shù)據(jù)有限,很容易出現(xiàn)過(guò)擬合。過(guò)擬合是指模型的泛化能力差,網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)集的擬合能力很好,但是換了其他的數(shù)據(jù)集,擬合能力就變差了。
在訓(xùn)練深層網(wǎng)絡(luò)模型時(shí),按照一定的概率,暫時(shí)將神經(jīng)元丟棄,得到一個(gè)更加簡(jiǎn)單的網(wǎng)絡(luò)模型,即每一個(gè)batch訓(xùn)練的網(wǎng)絡(luò)模型都是不一樣的,都是原始網(wǎng)絡(luò)的子集,這些子網(wǎng)絡(luò)共享權(quán)值,與原始網(wǎng)絡(luò)的層數(shù)、參數(shù)數(shù)目相等。這樣,每一個(gè)神經(jīng)元在網(wǎng)絡(luò)中出現(xiàn)都是獨(dú)立的,不會(huì)依賴其他神經(jīng)元。不同的batch訓(xùn)練得到更多的子網(wǎng)絡(luò),提高了網(wǎng)絡(luò)模型的泛化能力,可以防止過(guò)擬合。
由上圖可以看出,(a)是原始神經(jīng)網(wǎng)絡(luò),(b)是dropout之后的網(wǎng)絡(luò)。
原始網(wǎng)絡(luò)中第層第個(gè)神經(jīng)元的輸出是:
采用dropout之后的網(wǎng)絡(luò)中第層第個(gè)神經(jīng)元的輸出是:
其中,是第層第個(gè)神經(jīng)元的輸出,是第層第個(gè)神經(jīng)元的權(quán)重(卷積核),
是第層第個(gè)神經(jīng)元的偏置。由伯努利函數(shù)以概率隨機(jī)的產(chǎn)生0、1向量,來(lái)決定網(wǎng)絡(luò)中第層第個(gè)神經(jīng)元被丟棄還是保留,0表示該神經(jīng)元被dropout,就是使該神經(jīng)元的激活被置零;1則表示該神經(jīng)元被保留用于構(gòu)成子網(wǎng)絡(luò)。
在測(cè)試階段:
我們前面說(shuō)過(guò),其實(shí)Dropout是類似于平均網(wǎng)絡(luò)模型。我們可以這么理解,我們?cè)谟?xùn)練階段訓(xùn)練了1000個(gè)網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)生成的概率為Pi,然后我們?cè)跍y(cè)試階段的時(shí)候,我們肯定要把這1000個(gè)網(wǎng)絡(luò)的輸出結(jié)果都計(jì)算一遍,然后用這1000個(gè)輸出,乘以各自網(wǎng)絡(luò)的概率Pi,求得的期望值就是我們最終訓(xùn)練得到原始網(wǎng)絡(luò)的精確度。?
M是Dropout中所有的子網(wǎng)絡(luò)的集合,所以當(dāng)我們?cè)跍y(cè)試階段的時(shí)候,我們就是對(duì)M中所有的子網(wǎng)絡(luò),以其出現(xiàn)的概率進(jìn)行加權(quán)平均,得到期望值,就是原始網(wǎng)絡(luò)的精確度。
注:經(jīng)過(guò)交叉驗(yàn)證,dropout率等于0.5的時(shí)候效果最好,原因是0.5的時(shí)候dropout隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多。
缺點(diǎn)是模型收斂速度會(huì)減慢。
?
總結(jié)
以上是生活随笔為你收集整理的卷积神经网络调参技巧(2)--过拟合(Dropout)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 抽屉网
- 下一篇: 车牌识别-模板匹配-BP神经网络-卷积神