當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

深度学习神经网络：改善与优化的方法

發(fā)布時(shí)間：2023/12/20 pytorch 38 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习神经网络：改善与优化的方法小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

- - 第一周
  - - 訓(xùn)練集驗(yàn)證集測(cè)試集
    - 偏差和方差
    - 根據(jù)方差和偏差調(diào)節(jié)網(wǎng)絡(luò)
    - 正則化
    - dropout 正則化
    - 為什么dropout可以工作
    - 其他正則化方法
    - 歸一化輸入
    - 梯度消失與梯度爆炸
    - 神經(jīng)網(wǎng)絡(luò)權(quán)重初始化
    - 梯度檢查
  - 第二周
  - - minibatch梯度下降法
    - 指數(shù)加權(quán)平均
    - 動(dòng)量梯度下降法
    - RMSprop
    - Adam 優(yōu)化算法
    - 學(xué)習(xí)率衰減
    - 局部最優(yōu)的問(wèn)題
  - 第三周
  - - 超參數(shù)的調(diào)試重要性排序
    - 為超參數(shù)選擇合適的范圍
    - 正則化網(wǎng)絡(luò)的激活函數(shù)
    - batch 歸一化
    - softmax回歸
    - 深度學(xué)習(xí)框架

第一周

訓(xùn)練集驗(yàn)證集測(cè)試集

公認(rèn)的比較好的比例是3：1：1，在數(shù)據(jù)量不是特別大的時(shí)候
當(dāng)數(shù)據(jù)特別大的時(shí)候根據(jù)情況考慮
注意數(shù)據(jù)的分布性問(wèn)題
訓(xùn)練集（train set） —— 用于模型擬合的數(shù)據(jù)樣本。
驗(yàn)證集（development set）—— 是模型訓(xùn)練過(guò)程中單獨(dú)留出的樣本集，它可以用于調(diào)整模型的超參數(shù)和用于對(duì)模型的能力進(jìn)行初步評(píng)估。
測(cè)試集 —— 用來(lái)評(píng)估模最終模型的泛化能力。但不能作為調(diào)參、選擇特征等算法相關(guān)的選擇的依據(jù)。

偏差和方差

偏差大：過(guò)度擬合訓(xùn)練集誤差小驗(yàn)證集誤差大
方差大：欠擬合訓(xùn)練集和驗(yàn)證集誤差都大
實(shí)際上有可能出現(xiàn)偏差大方差也大的情況

根據(jù)方差和偏差調(diào)節(jié)網(wǎng)絡(luò)

當(dāng)偏差過(guò)高時(shí)可以嘗試增加網(wǎng)絡(luò)的大小，
當(dāng)方差偏大時(shí)可以增加數(shù)據(jù)。

正則化

就是讓w盡量小,L1正則化和L2正則化，L2正則化更常用

在神經(jīng)網(wǎng)絡(luò)中添加正則化項(xiàng)
等價(jià)于在損失函數(shù)后面添加正則化項(xiàng)
對(duì)損失函數(shù)求導(dǎo)的時(shí)候，正則化被單獨(dú)求導(dǎo)
正則化項(xiàng)被加到dw中，計(jì)算表達(dá)式等價(jià)于一個(gè)衰減項(xiàng)，
會(huì)讓w越來(lái)越小
正則化當(dāng)中的lamda大小非常重要，控制著網(wǎng)絡(luò)的大小
lamda太大時(shí)會(huì)導(dǎo)致w過(guò)小，w過(guò)小會(huì)導(dǎo)致激活函數(shù)幾乎為線性函數(shù)，這會(huì)導(dǎo)致整個(gè)神經(jīng)網(wǎng)絡(luò)等價(jià)于一個(gè)線性函數(shù)

dropout 正則化

隨機(jī)讓一些網(wǎng)絡(luò)結(jié)構(gòu)失活，直接讓節(jié)點(diǎn)的輸出等于0
dropout方法相對(duì)于L2范數(shù)正則化可以避免參數(shù)的比例縮小問(wèn)題
在測(cè)試階段要避免使用dropout函數(shù)

為什么dropout可以工作

避免w權(quán)重全部落在某一個(gè)輸入之上
dropout在圖像識(shí)別上經(jīng)常使用

其他正則化方法

數(shù)據(jù)增強(qiáng)：通過(guò)變換使數(shù)據(jù)量變多
及早停止：early stopping

歸一化輸入

標(biāo)準(zhǔn)歸一化極值歸一化
其它方法

梯度消失與梯度爆炸

當(dāng)網(wǎng)絡(luò)太深的時(shí)候容易發(fā)生

神經(jīng)網(wǎng)絡(luò)權(quán)重初始化

使用隨機(jī)函數(shù)初始化，但是可以乘以sqrt(2/n)，幫助避免梯度消失和爆炸的問(wèn)題

梯度檢查

梯度的計(jì)算考慮數(shù)值的精度問(wèn)題
雙邊誤差公式的結(jié)果更準(zhǔn)確
梯度檢查公式：

梯度檢查的禁忌：
不要在訓(xùn)練的時(shí)候用
不要和dropout一起用
記得正則化

第二周

minibatch梯度下降法

一次性使用m個(gè)樣本訓(xùn)練，計(jì)算在m個(gè)樣本的平均下降梯度，一次minbathc訓(xùn)練稱(chēng)為一個(gè)epoch。當(dāng)數(shù)據(jù)量足夠時(shí)，多使用mini_batch，典型的mini_batch尺寸 64 128 256 512 ，使用過(guò)大的mini_batch注意內(nèi)存大小

指數(shù)加權(quán)平均

讓數(shù)據(jù)平滑一些
注意平滑系數(shù)B的含義
指數(shù)加權(quán)在初期產(chǎn)生誤差，所以要修正

動(dòng)量梯度下降法

有時(shí)候梯度方向可能比較曲折，將之前的多個(gè)梯度方向結(jié)合起來(lái)使用，形似向量加起來(lái)

RMSprop

Adam 優(yōu)化算法

把動(dòng)量法和RMSprop方法結(jié)合起來(lái)，這里有幾個(gè)超參數(shù)需要調(diào)試

學(xué)習(xí)率衰減

隨著迭代的進(jìn)行，讓沿梯度方向逐漸變小步伐，避免錯(cuò)過(guò)最優(yōu)解

局部最優(yōu)的問(wèn)題

在高維，大的神經(jīng)網(wǎng)絡(luò)中不容易遇到局部最優(yōu)點(diǎn)，但是容易遇到平穩(wěn)段

第三周

超參數(shù)的調(diào)試重要性排序

學(xué)習(xí)率最重要
動(dòng)量學(xué)習(xí)參數(shù) 批學(xué)習(xí)大小隱藏層單元
隱藏層數(shù) 學(xué)習(xí)率衰減

隨機(jī)取超參數(shù)優(yōu)化，更可能發(fā)現(xiàn)好的

先大范圍搜索，再小范圍細(xì)致搜索

為超參數(shù)選擇合適的范圍

為超參數(shù)選取合適的范圍
　　對(duì)于如神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)這類(lèi)超參數(shù)可以采用平均取值，但是對(duì)于類(lèi)似學(xué)習(xí)率和指數(shù)加權(quán)平均中的超參數(shù)ββ這類(lèi)超參數(shù)需要采用對(duì)數(shù)平均取值。
　　如對(duì)學(xué)習(xí)率取值時(shí)，學(xué)習(xí)率的變化范圍為[0.001,1]，但是如果采用平均取值，則90%的都落在[0.1,1]的范圍內(nèi)，反而使得學(xué)習(xí)率不能在較大范圍變化。因此采用對(duì)數(shù)取值，在區(qū)間[0.0001,0.001]、[0.001,0.01]、[0.01,0.1]和[0.1,1]內(nèi)平均取值。

將取值范圍從0.n-0.m轉(zhuǎn)化到0.0-0.（m-n），使得可以用對(duì)數(shù)

正則化網(wǎng)絡(luò)的激活函數(shù)

對(duì)激活函數(shù)的輸出也進(jìn)行歸一化，如同對(duì)輸入數(shù)據(jù)一樣,采用標(biāo)準(zhǔn)歸一化還可以逆變換回來(lái)

batch 歸一化

softmax回歸

softmax放在最后一層（輸出層）使用

深度學(xué)習(xí)框架

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的深度学习神经网络：改善与优化的方法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。