當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

mlp 参数调优_积神经网络(CNN)的参数优化方法

發(fā)布時間：2023/12/4 编程问答 43 豆豆

生活随笔收集整理的這篇文章主要介紹了 mlp 参数调优_积神经网络(CNN)的参数优化方法小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

積神經(jīng)網(wǎng)絡(CNN)的參數(shù)優(yōu)化方法

from：http://blog.csdn.net/u010900574/article/details/51992156

著名：?本文是從 Michael Nielsen的電子書Neural Network and Deep Learning的深度學習那一章的卷積神經(jīng)網(wǎng)絡的參數(shù)優(yōu)化方法的一些總結(jié)和摘錄，并不是我自己的結(jié)論和做實驗所得到的結(jié)果。我想Michael的實驗結(jié)果更有說服力一些。本書在github上有中文翻譯的版本，

前言

最近卷積神經(jīng)網(wǎng)絡(CNN)很火熱，它在圖像分類領(lǐng)域的卓越表現(xiàn)引起了大家的廣泛關(guān)注。本文總結(jié)和摘錄了Michael Nielsen的那本Neural Network and Deep Learning一書中關(guān)于深度學習一章中關(guān)于提高泛化能力的一些概述和實驗結(jié)果。力爭用數(shù)據(jù)給大家一個關(guān)于正則化，增加卷積層/全連接數(shù)，棄權(quán)技術(shù)，拓展訓練集等參數(shù)優(yōu)化方法的效果。

本文并不會介紹正則化，棄權(quán)(Dropout),?池化等方法的原理，只會介紹它們在實驗中的應用或者起到的效果，更多的關(guān)于這些方法的解釋請自行查詢。

mnist數(shù)據(jù)集介紹

本文的實驗是基于mnist數(shù)據(jù)集合的，mnist是一個從0到9的手寫數(shù)字集合，共有60,000張訓練圖片，10，000張測試圖片。每張圖片大小是28*28大小。我們的實驗就是構(gòu)建一個神經(jīng)網(wǎng)絡來高精度的分類圖片，也就是提高泛化能力。

提高泛化能力的方法

一般來說，提高泛化能力的方法主要有以下幾個：

正則化

增加神經(jīng)網(wǎng)絡層數(shù)

使用正確的代價函數(shù)

使用好的權(quán)重初始化技術(shù)

人為拓展訓練集

棄權(quán)技術(shù)

下面我們通過實驗結(jié)果給這些參數(shù)優(yōu)化理論一個直觀的結(jié)果

1. 普通的全連接神經(jīng)網(wǎng)絡的效果

我們使用一個隱藏層，包含100個隱藏神經(jīng)元，輸入層是784，輸出層是one-hot編碼的形式，最后一層是Softmax層。訓練過程采用對數(shù)似然代價函數(shù)，60次迭代，學習速率η=0.1，隨機梯度下降的小批量數(shù)據(jù)大小為10，沒有正則化。在測試集上得到的結(jié)果是97.8%，代碼如下：

>>> import network3

>>> from network3 import Network

>>> from network3 import ConvPoolLayer, FullyConnectedLayer, SoftmaxLayer

>>> training_data, validation_data, test_data = network3.load_data_shared()

>>> mini_batch_size = 10

>>> net = Network([

FullyConnectedLayer(n_in=784, n_out=100),

SoftmaxLayer(n_in=100, n_out=10)], mini_batch_size)

>>> net.SGD(training_data, 60, mini_batch_size, 0.1,

validation_data, test_data)

2.使用卷積神經(jīng)網(wǎng)絡 — 僅一個卷積層

輸入層是卷積層，5*5的局部感受野，也就是一個5*5的卷積核，一共20個特征映射。最大池化層選用2*2的大小。后面是100個隱藏神經(jīng)元的全連接層。結(jié)構(gòu)如圖所示

在這個架構(gòu)中，我們把卷積層和chihua層看做是學習輸入訓練圖像中的局部感受野，而后的全連接層則是一個更抽象層次的學習，從整個圖像整合全局信息。也是60次迭代，批量數(shù)據(jù)大小是10，學習率是0.1.代碼如下，

>>> net = Network([

ConvPoolLayer(image_shape=(mini_batch_size, 1, 28, 28),

filter_shape=(20, 1, 5, 5),

poolsize=(2, 2)),

FullyConnectedLayer(n_in=20*12*12, n_out=100),

SoftmaxLayer(n_in=100, n_out=10)], mini_batch_size)

>>> net.SGD(training_data, 60, mini_batch_size, 0.1,

validation_data, test_data)

經(jīng)過三次運行取平均后，準確率是98.78%，這是相當大的改善。錯誤率降低了1/3，。卷積神經(jīng)網(wǎng)絡開始顯現(xiàn)威力。

3.使用卷積神經(jīng)網(wǎng)絡 —?兩個卷積層

我們接著插入第二個卷積-混合層，把它插入在之前的卷積-混合層和全連接層之間，同樣的5*5的局部感受野，2*2的池化層。

>>> net = Network([

ConvPoolLayer(image_shape=(mini_batch_size, 1, 28, 28),

filter_shape=(20, 1, 5, 5),

poolsize=(2, 2)),

ConvPoolLayer(image_shape=(mini_batch_size, 20, 12, 12),

filter_shape=(40, 20, 5, 5),

poolsize=(2, 2)),

FullyConnectedLayer(n_in=40*4*4, n_out=100),

SoftmaxLayer(n_in=100, n_out=10)], mini_batch_size)

>>> net.SGD(training_data, 60, mini_batch_size, 0.1,

validation_data, test_data)

這一次，我們擁有了99.06%的準確率。

4.使用卷積神經(jīng)網(wǎng)絡 — 兩個卷積層+線性修正單元(ReLU)+正則化

上面我們使用的Sigmod激活函數(shù)，現(xiàn)在我們換成線性修正激活函數(shù)ReLU

f(z)=max(0,z)

,我們選擇60個迭代期，學習速率η=0.03,?，使用L2正則化，正則化參數(shù)λ=0.1

,代碼如下

>>> from network3 import ReLU

>>> net = Network([

ConvPoolLayer(image_shape=(mini_batch_size, 1, 28, 28),

filter_shape=(20, 1, 5, 5),

poolsize=(2, 2),

activation_fn=ReLU),

ConvPoolLayer(image_shape=(mini_batch_size, 20, 12, 12),

filter_shape=(40, 20, 5, 5),

poolsize=(2, 2),

activation_fn=ReLU),

FullyConnectedLayer(n_in=40*4*4, n_out=100, activation_fn=ReLU),

SoftmaxLayer(n_in=100, n_out=10)], mini_batch_size)

>>> net.SGD(training_data, 60, mini_batch_size, 0.03,

validation_data, test_data, lmbda=0.1)

這一次，我們獲得了99.23%的準確率，超過了S型激活函數(shù)的99.06%. ReLU的優(yōu)勢是max(0,z)

中z取最大極限時不會飽和，不像是S函數(shù)，這有助于持續(xù)學習。

5.使用卷積神經(jīng)網(wǎng)絡 — 兩個卷基層+線性修正單元(ReLU)+正則化+拓展數(shù)據(jù)集

拓展訓練集數(shù)據(jù)的一個簡單方法是將每個訓練圖像由一個像素來代替，無論是上一個像素，下一個像素，或者左右的像素。其他的方法也有改變亮度，改變分辨率，圖片旋轉(zhuǎn)，扭曲，位移等。

我們把50，000幅圖像人為拓展到250,000幅圖像。使用第4節(jié)一樣的網(wǎng)絡，因為我們是在訓練5倍的數(shù)據(jù)，所以減少了過擬合的風險。

>>> expanded_training_data, _, _ = network3.load_data_shared(

"../data/mnist_expanded.pkl.gz")

>>> net = Network([

ConvPoolLayer(image_shape=(mini_batch_size, 1, 28, 28),

filter_shape=(20, 1, 5, 5),

poolsize=(2, 2),

activation_fn=ReLU),

ConvPoolLayer(image_shape=(mini_batch_size, 20, 12, 12),

filter_shape=(40, 20, 5, 5),

poolsize=(2, 2),

activation_fn=ReLU),

FullyConnectedLayer(n_in=40*4*4, n_out=100, activation_fn=ReLU),

SoftmaxLayer(n_in=100, n_out=10)], mini_batch_size)

>>> net.SGD(expanded_training_data, 60, mini_batch_size, 0.03,

validation_data, test_data, lmbda=0.1)

這次的到了99.37的訓練正確率。

6.使用卷積神經(jīng)網(wǎng)絡 — 兩個卷基層+線性修正單元(ReLU)+正則化+拓展數(shù)據(jù)集+繼續(xù)插入額外的全連接層

繼續(xù)上面的網(wǎng)絡，我們拓展全連接層的規(guī)模，300個隱藏神經(jīng)元和1000個神經(jīng)元的額精度分別是99.46%和99.43%.

我們插入一個額外的全連接層

>>> net = Network([

ConvPoolLayer(image_shape=(mini_batch_size, 1, 28, 28),

filter_shape=(20, 1, 5, 5),

poolsize=(2, 2),

activation_fn=ReLU),

ConvPoolLayer(image_shape=(mini_batch_size, 20, 12, 12),

filter_shape=(40, 20, 5, 5),

poolsize=(2, 2),

activation_fn=ReLU),

FullyConnectedLayer(n_in=40*4*4, n_out=100, activation_fn=ReLU),

FullyConnectedLayer(n_in=100, n_out=100, activation_fn=ReLU),

SoftmaxLayer(n_in=100, n_out=10)], mini_batch_size)

>>> net.SGD(expanded_training_data, 60, mini_batch_size, 0.03,

validation_data, test_data, lmbda=0.1)

這次取得了99.43%的精度。拓展后的網(wǎng)絡并沒有幫助太多。

7.使用卷積神經(jīng)網(wǎng)絡 — 兩個卷基層+線性修正單元(ReLU)+拓展數(shù)據(jù)集+繼續(xù)插入額外的全連接層+棄權(quán)技術(shù)

棄權(quán)的基本思想就是在訓練網(wǎng)絡時隨機的移除單獨的激活值，使得模型對單獨的依據(jù)丟失更為強勁，因此不太依賴于訓練數(shù)據(jù)的特質(zhì)。我們嘗試應用棄權(quán)技術(shù)到最終的全連接層(不是在卷基層)。這里，減少了迭代期的數(shù)量為40個，全連接層使用1000個隱藏神經(jīng)元，因為棄權(quán)技術(shù)會丟棄一些神經(jīng)元。Dropout是一種非常有效有提高泛化能力，降低過擬合的方法！

>>> net = Network([

ConvPoolLayer(image_shape=(mini_batch_size, 1, 28, 28),

filter_shape=(20, 1, 5, 5),

poolsize=(2, 2),

activation_fn=ReLU),

ConvPoolLayer(image_shape=(mini_batch_size, 20, 12, 12),

filter_shape=(40, 20, 5, 5),

poolsize=(2, 2),

activation_fn=ReLU),

FullyConnectedLayer(

n_in=40*4*4, n_out=1000, activation_fn=ReLU, p_dropout=0.5),

FullyConnectedLayer(

n_in=1000, n_out=1000, activation_fn=ReLU, p_dropout=0.5),

SoftmaxLayer(n_in=1000, n_out=10, p_dropout=0.5)],

mini_batch_size)

>>> net.SGD(expanded_training_data, 40, mini_batch_size, 0.03,

validation_data, test_data)

使用棄權(quán)技術(shù)，的到了99.60%的準確率。

8.使用卷積神經(jīng)網(wǎng)絡 — 兩個卷基層+線性修正單元(ReLU)+正則化+拓展數(shù)據(jù)集+繼續(xù)插入額外的全連接層+棄權(quán)技術(shù)+組合網(wǎng)絡

組合網(wǎng)絡類似于隨機森林或者adaboost的集成方法，創(chuàng)建幾個神經(jīng)網(wǎng)絡，讓他們投票來決定最好的分類。我們訓練了5個不同的神經(jīng)網(wǎng)絡，每個都大到了99.60%的準去率，用這5個網(wǎng)絡來進行投票表決一個圖像的分類。

采用這個方法，達到了99.67%的準確率。

總結(jié)

卷積神經(jīng)網(wǎng)絡的一些技巧總結(jié)如下：

1. 使用卷積層極大地減小了全連接層中的參數(shù)的數(shù)目，使學習的問題更容易

2. 使用更多強有力的規(guī)范化技術(shù)(尤其是棄權(quán)和卷積)來減小過度擬合，

3. 使用修正線性單元而不是S型神經(jīng)元，來加速訓練-依據(jù)經(jīng)驗，通常是3-5倍，

4. 使用GPU來計算

5. 利用充分大的數(shù)據(jù)集，避免過擬合

6. 使用正確的代價函數(shù)，避免學習減速

7. 使用好的權(quán)重初始化，避免因為神經(jīng)元飽和引起的學習減速

CNN超參數(shù)優(yōu)化和可視化技巧詳解

轉(zhuǎn)自：https://zhuanlan.zhihu.com/p/27905191

在深度學習中，有許多不同的深度網(wǎng)絡結(jié)構(gòu)，包括卷積神經(jīng)網(wǎng)絡(CNN或convnet)、長短期記憶網(wǎng)絡(LSTM)和生成對抗網(wǎng)絡(GAN)等。

在計算機視覺領(lǐng)域，對卷積神經(jīng)網(wǎng)絡(簡稱為CNN)的研究和應用都取得了顯著的成果。CNN網(wǎng)絡最初的誕生收到了動物視覺神經(jīng)機制的啟發(fā)，目前已成功用于機器視覺等領(lǐng)域中。

技術(shù)博客Towards Data Science最近發(fā)布了一篇文章，作者Suki Lau。文章討論了在卷積神經(jīng)網(wǎng)絡中，該如何調(diào)整超參數(shù)以及可視化卷積層。

為什么用卷積神經(jīng)網(wǎng)絡？

首先，我們想要計算機具有什么能力呢？

當我們看到一只貓?zhí)洗芭_或在沙發(fā)上睡覺時，我們的潛意識會認出它是一只貓。

我們希望計算機也能完成這項任務，即將圖像輸入后，找出其獨有的特征，最終輸出該圖像的類別信息。

卷積神經(jīng)網(wǎng)絡可以完成這項任務。

何為卷積神經(jīng)網(wǎng)絡？

先談定義，卷積神經(jīng)網(wǎng)絡是一種特殊的神經(jīng)網(wǎng)絡，其中至少包含一個卷積層。在典型的CNN網(wǎng)絡結(jié)構(gòu)中，輸入一張圖像，經(jīng)由一系列卷積層、非線性激活層、池化層和全連接層后，可輸出相應的類別標簽。

卷積神經(jīng)網(wǎng)絡的特別之處在于加入了卷積層。

在經(jīng)典的神經(jīng)網(wǎng)絡中，整張圖片會被傳入網(wǎng)絡中來訓練各網(wǎng)絡層權(quán)值。當輸入為簡單居中的圖像時，如Mnist手寫數(shù)字圖，網(wǎng)絡識別效果較優(yōu)，但是當輸入變?yōu)楦鼮閺碗s多變的圖像時，如跳上窗戶的小貓，此時網(wǎng)絡識別效果不佳甚至無法辨識。

加入更多隱含層學習輸入圖像的抽象特征，可能會有所幫助，但是這樣會增加神經(jīng)元的數(shù)目，大大增加訓練所需的計算資源和占用過多的內(nèi)存，這是不切實際的。

而CNN識別目標的過程，是先尋找諸如邊緣、線段和曲線等相關(guān)低級特征，然后使用多個卷積層來構(gòu)建更多抽象的高級特征。

在卷積層的學習過程中，CNN網(wǎng)絡通過共享多個卷積核(或特征檢測器)的權(quán)值，來學習每張圖片的局部信息，并用于構(gòu)建抽象特征圖譜。卷積核共享特性大大降低了訓練網(wǎng)絡所需的參數(shù)量。

由于經(jīng)過訓練的檢測器可以通過卷積層重復用來組合地檢測圖片中的抽象特征，因此卷積神經(jīng)網(wǎng)絡更適用于復雜的圖像識別任務。

超參數(shù)調(diào)整

在深度神經(jīng)網(wǎng)絡中，調(diào)整超參數(shù)組合并非易事，因為訓練深層神經(jīng)網(wǎng)絡十分耗時，且需要配置多個參數(shù)。

接下來，我們簡單列舉幾個影響CNN網(wǎng)絡的關(guān)鍵超參數(shù)。

學習率

學習率是指在優(yōu)化算法中更新網(wǎng)絡權(quán)重的幅度大小。

學習率可以是恒定的、逐漸降低的、基于動量的或者是自適應的，采用哪種學習率取決于所選擇優(yōu)化算法的類型，如SGD、Adam、Adagrad、AdaDelta或RMSProp等算法。

優(yōu)化策略這方面的內(nèi)容可參閱量子位之前編譯過的“一文看懂各種神經(jīng)網(wǎng)絡優(yōu)化算法：從梯度下降到Adam方法”。

迭代次數(shù)

迭代次數(shù)是指整個訓練集輸入到神經(jīng)網(wǎng)絡進行訓練的次數(shù)。當測試錯誤率和訓練錯誤率相差較小時，可認為當前的迭代次數(shù)是合適的，否則需繼續(xù)增大迭代次數(shù)，或調(diào)整網(wǎng)絡結(jié)構(gòu)。

批次大小

在卷積神經(jīng)網(wǎng)絡的學習過程中，小批次會表現(xiàn)得更好，選取范圍一般位于區(qū)間[16,128]內(nèi)。

還需要注意的是，CNN網(wǎng)絡對批次大小的調(diào)整十分敏感。

激活函數(shù)

激活函數(shù)具有非線性，理論上可以使模型擬合出任何函數(shù)。通常情況下，rectifier函數(shù)在CNN網(wǎng)絡中的效果較好。當然，可以根據(jù)實際任務，選擇其他類型的激活函數(shù)，如Sigmoid和Tanh等等。

隱含層的數(shù)目和單元數(shù)

增加隱含層數(shù)目以加深網(wǎng)絡深度，會在一定程度上改善網(wǎng)絡性能，但是當測試錯誤率不再下降時，就需要尋求其他的改良方法。增加隱含層數(shù)目也帶來一個問題，即提高了訓練該網(wǎng)絡的計算成本。

當網(wǎng)絡的單元數(shù)設置過少時，可能會導致欠擬合，而單元數(shù)設置過多時，只要采取合適的正則化方式，就不會產(chǎn)生不良影響。

權(quán)重初始化

在網(wǎng)絡中，通常會使用小隨機數(shù)來初始化各網(wǎng)絡層的權(quán)重，以防止產(chǎn)生不活躍的神經(jīng)元，但是設置過小的隨機數(shù)可能生成零梯度網(wǎng)絡。一般來說，均勻分布方法效果較好。

Dropout方法

作為一種常用的正則化方式，加入Dropout層可以減弱深層神經(jīng)網(wǎng)絡的過擬合效應。該方法會按照所設定的概率參數(shù)，在每次訓練中隨機地不激活一定比例的神經(jīng)單元。該參數(shù)的默認值為0.5。

手動調(diào)整超參數(shù)是十分費時也不切實際。接下來介紹兩種搜索最優(yōu)超參數(shù)的常用方法。

網(wǎng)格搜索和隨機搜索

網(wǎng)格搜索是通過窮舉法列出不同的參數(shù)組合，確定性能最優(yōu)的結(jié)構(gòu)。隨機搜索是從具有特定分布的參數(shù)空間中抽取出一定數(shù)量的候選組合。

網(wǎng)格搜索方法也需要制定策略，在初始階段最好先確定各超參數(shù)值的大概范圍?？梢韵葒L試在較小迭代次數(shù)或較小規(guī)模的訓練集上進行大步幅的網(wǎng)格搜索。然后在下個階段中，設置更大的迭代次數(shù)，或是使用整個訓練集，實現(xiàn)小幅精確定位。

雖然在許多機器學習算法中，通常會使用網(wǎng)格搜索來確定超參數(shù)組合，但是隨著參數(shù)量的增大，訓練網(wǎng)絡所需的計算量呈指數(shù)型增長，這種方法在深層神經(jīng)網(wǎng)絡的超參數(shù)調(diào)整時效果并不是很好。

有研究指出，在深度神經(jīng)網(wǎng)絡的超參數(shù)調(diào)整中，隨機搜索方法比網(wǎng)格搜索的效率更高，具體可參考文末中的“隨機搜索在超參數(shù)優(yōu)化中的應用”。

當然，可根據(jù)神經(jīng)網(wǎng)絡的理論經(jīng)驗，進行超參數(shù)的手動調(diào)整在一些場景下也是可行的。

可視化

我們可以通過可視化各個卷積層，來更好地了解CNN網(wǎng)絡是如何學習輸入圖像的特征。

可視化有兩種直接方式，分別是可視化激活程度和可視化相關(guān)權(quán)重。在網(wǎng)絡訓練過程中，卷積層的激活情況通常會變得更為稀疏和具有局部特性。當不同輸入圖像的激活圖都存在大片未激活的區(qū)域，那么可能是設置了過高的學習率使得卷積核不起作用，導致產(chǎn)生零激活圖像。

性能優(yōu)良的神經(jīng)網(wǎng)絡通常含有多個明顯而平滑的卷積器，且沒有任何干擾特征。若在權(quán)重中觀察到相關(guān)干擾特征，可能原因是網(wǎng)絡未被充分訓練，或是正則化強度較低導致了過擬合效應。

神經(jīng)網(wǎng)絡參數(shù)優(yōu)化--基于CNN的驗證

轉(zhuǎn)自：https://ziyubiti.github.io/2016/11/20/cnnpara/

當使用多層更深的隱藏層全連接網(wǎng)絡時，參數(shù)量會變得非常巨大，達到數(shù)十億量級；而采用CNN結(jié)構(gòu)，則可以層間共享權(quán)重，極大減小待訓練的參數(shù)量；同時可采用二維卷積，保留圖像的空間結(jié)構(gòu)信息；采用池化層，進一步減少參數(shù)計算。

一般來說，提高泛化能力的方法主要有：正則化、增加神經(jīng)網(wǎng)絡層數(shù)、改變激活函數(shù)與代價函數(shù)、使用好的權(quán)重初始化技術(shù)、人為擴展訓練集、棄權(quán)技術(shù)。

下面以MNIST為例，結(jié)合CNN、Pooling、Fc結(jié)構(gòu)，通過不同的網(wǎng)絡結(jié)構(gòu)變化，給這些參數(shù)優(yōu)化理論一個直觀的驗證結(jié)果。

CNN不同網(wǎng)絡結(jié)構(gòu)性能比較

可以看出：

1、使用L2正則化，dropout技術(shù)，擴展數(shù)據(jù)集等，有效緩解過擬合，提升了性能；

2、使用ReLU，導數(shù)為常量，可以緩解梯度下降問題，并加速訓練；

3、增加Conv/Pooling與Fc層，可以改善性能。(我自己實測也是如此)

Note：

1、網(wǎng)絡并非越深越好，單純的Conv/Pooling/Fc結(jié)構(gòu)，增加到一定深度后由于過擬合性能反而下降。

2、網(wǎng)絡結(jié)構(gòu)信息更重要，如使用GoogleNet、ResNet等。

知乎上的討論：

轉(zhuǎn)自：https://www.zhihu.com/question/41631631

訓練技巧對深度學習來說是非常重要的，作為一門實驗性質(zhì)很強的科學，同樣的網(wǎng)絡結(jié)構(gòu)使用不同的訓練方法訓練，結(jié)果可能會有很大的差異。這里我總結(jié)了近一年來的煉丹心得，分享給大家，也歡迎大家補充指正。

參數(shù)初始化。

下面幾種方式,隨便選一個,結(jié)果基本都差不多。但是一定要做。否則可能會減慢收斂速度，影響收斂結(jié)果，甚至造成Nan等一系列問題。

下面的n_in為網(wǎng)絡的輸入大小，n_out為網(wǎng)絡的輸出大小，n為n_in或(n_in+n_out)*0.5

uniform均勻分布初始化： w = np.random.uniform(low=-scale, high=scale, size=[n_in,n_out])

Xavier初始法，適用于普通激活函數(shù)(tanh,sigmoid)：scale = np.sqrt(3/n)

He初始化，適用于ReLU：scale = np.sqrt(6/n)

normal高斯分布初始化： w = np.random.randn(n_in,n_out) * stdev # stdev為高斯分布的標準差，均值設為0

Xavier初始法，適用于普通激活函數(shù) (tanh,sigmoid)：stdev = np.sqrt(n)

He初始化，適用于ReLU：stdev = np.sqrt(2/n)

數(shù)據(jù)預處理方式

zero-center ,這個挺常用的. X -= np.mean(X, axis = 0) # zero-center X /= np.std(X, axis = 0) # normalize

PCA whitening,這個用的比較少.

訓練技巧

要做梯度歸一化,即算出來的梯度除以minibatch size

clip c(梯度裁剪): 限制最大梯度,其實是value = sqrt(w1^2+w2^2….),如果value超過了閾值,就算一個衰減系系數(shù),讓value的值等于閾值: 5,10,15

dropout對小數(shù)據(jù)防止過擬合有很好的效果,值一般設為0.5,小數(shù)據(jù)上dropout+sgd在我的大部分實驗中，效果提升都非常明顯(實測sgd比adam好).因此可能的話，建議一定要嘗試一下。 dropout的位置比較有講究, 對于RNN,建議放到輸入->RNN與RNN->輸出的位置.關(guān)于RNN如何用dropout,可以參考這篇論文:http://arxiv.org/abs/1409.2329

adam,adadelta等,在小數(shù)據(jù)上,我這里實驗的效果不如sgd, sgd收斂速度會慢一些，但是最終收斂后的結(jié)果，一般都比較好。如果使用sgd的話,可以選擇從1.0或者0.1的學習率開始,隔一段時間,在驗證集上檢查一下,如果cost沒有下降,就對學習率減半. 我看過很多論文都這么搞,我自己實驗的結(jié)果也很好. 當然,也可以先用ada系列先跑,最后快收斂的時候,更換成sgd繼續(xù)訓練.同樣也會有提升.據(jù)說adadelta一般在分類問題上效果比較好，adam在生成問題上效果比較好。

除了gate之類的地方,需要把輸出限制成0-1之外,盡量不要用sigmoid,可以用tanh或者relu之類的激活函數(shù).1. sigmoid函數(shù)在-4到4的區(qū)間里，才有較大的梯度。之外的區(qū)間，梯度接近0，很容易造成梯度消失問題。2. 輸入0均值，sigmoid函數(shù)的輸出不是0均值的。

rnn的dim和embdding size,一般從128上下開始調(diào)整. batch size,一般從128左右開始調(diào)整.batch size合適最重要,并不是越大越好.

word2vec初始化,在小數(shù)據(jù)上,不僅可以有效提高收斂速度,也可以可以提高結(jié)果.

盡量對數(shù)據(jù)做shuffle

LSTM 的forget gate的bias,用1.0或者更大的值做初始化,可以取得更好的結(jié)果,來自這篇論文:http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf, 我這里實驗設成1.0,可以提高收斂速度.實際使用中,不同的任務,可能需要嘗試不同的值.

Batch Normalization據(jù)說可以提升效果，不過我沒有嘗試過，建議作為最后提升模型的手段，參考論文：Accelerating Deep Network Training by Reducing Internal Covariate Shift

如果你的模型包含全連接層(MLP)，并且輸入和輸出大小一樣，可以考慮將MLP替換成Highway Network,我嘗試對結(jié)果有一點提升，建議作為最后提升模型的手段，原理很簡單，就是給輸出加了一個gate來控制信息的流動，詳細介紹請參考論文:?http://arxiv.org/abs/1505.00387

來自@張馨宇的技巧：一輪加正則，一輪不加正則，反復進行。

Ensemble

Ensemble是論文刷結(jié)果的終極核武器,深度學習中一般有以下幾種方式

同樣的參數(shù),不同的初始化方式

不同的參數(shù),通過cross-validation,選取最好的幾組

同樣的參數(shù),模型訓練的不同階段，即不同迭代次數(shù)的模型。

不同的模型,進行線性融合. 例如RNN和傳統(tǒng)模型.

其實我發(fā)現(xiàn)現(xiàn)在深度學習越來越成熟，調(diào)參工作比以前少了很多，絕大多數(shù)情況自己設計的參數(shù)都不如教程和框架的默認參數(shù)好，不過有一些技巧我一直都在用的

(1)relu+bn。這套好基友組合是萬精油，可以滿足95%的情況，除非有些特殊情況會用identity，比如回歸問題，比如resnet的shortcut支路，sigmoid什么的都快從我世界里消失了

(2)dropout 。分類問題用dropout ，只需要最后一層softmax 前用基本就可以了，能夠防止過擬合，可能對accuracy提高不大，但是dropout 前面的那層如果是之后要使用的feature的話，性能會大大提升(例如max pool進入fc，實測發(fā)現(xiàn)加BN效果非常明顯)

(3)數(shù)據(jù)的shuffle 和augmentation 。這個沒啥好說的，aug也不是瞎加，比如行人識別一般就不會加上下翻轉(zhuǎn)的，因為不會碰到頭朝下的異型種

(4)降學習率。隨著網(wǎng)絡訓練的進行，學習率要逐漸降下來，如果你有tensorboard，你有可能發(fā)現(xiàn)，在學習率下降的一瞬間，網(wǎng)絡會有個巨大的性能提升，同樣的fine-tuning也要根據(jù)模型的性能設置合適的學習率，比如一個訓練的已經(jīng)非常好的模型你上來就1e-3的學習率，那之前就白訓練了，就是說網(wǎng)絡性能越好，學習率要越小

(5)tensorboard。以前不怎么用，用了之后發(fā)現(xiàn)太有幫助，幫助你監(jiān)視網(wǎng)絡的狀態(tài)，來調(diào)整網(wǎng)絡參數(shù)

(6)隨時存檔模型，要有validation 。這就跟打游戲一樣存檔，把每個epoch和其對應的validation 結(jié)果存下來，可以分析出開始overfitting的時間點，方便下次加載fine-tuning

(7)網(wǎng)絡層數(shù)，參數(shù)量什么的都不是大問題，在性能不丟的情況下，減到最小

(8)batchsize通常影響沒那么大，塞滿卡就行，除了特殊的算法需要batch大一點

(9)輸入減不減mean歸一化在有了bn之后已經(jīng)不那么重要了

上面那些都是大家所知道的常識，也是外行人覺得深度學習一直在做的就是這些很low的東西，其實網(wǎng)絡設計(關(guān)鍵！！！實測發(fā)現(xiàn)對于acc影響極大！)上博大精深，這也遠超過我的水平范疇，只說一些很簡單的

(1)卷積核的分解。從最初的5×5分解為兩個3×3，到后來的3×3分解為1×3和3×1，再到resnet的1×1，3×3，1×1，再xception的3×3 channel-wise conv+1×1，網(wǎng)絡的計算量越來越小，層數(shù)越來越多，性能越來越好，這些都是設計網(wǎng)絡時可以借鑒的

(2)不同尺寸的feature maps的concat，只用一層的feature map一把梭可能不如concat好，pspnet就是這種思想，這個思想很常用

(3)resnet的shortcut確實會很有用，重點在于shortcut支路一定要是identity，主路是什么conv都無所謂，這是我親耳聽resnet作者所述

(4)針對于metric learning，對feature加個classification 的約束通常可以提高性能加快收斂

補充一點，adam收斂雖快但是得到的解往往沒有sgd+momentum得到的解更好，如果不考慮時間成本的話還是用sgd吧。

再補充一個rnn trick，仍然是不考慮時間成本的情況下，batch size=1是一個很不錯的regularizer, 起碼在某些task上,這也有可能是很多人無法復現(xiàn)alex graves實驗結(jié)果的原因之一，因為他總是把batch size設成1。。。

沒做過CNN,RNN，調(diào)過連續(xù)值DNN，以下經(jīng)驗僅限于CTR

1.樣本要足夠隨機

2.樣本要做歸一化

3.激活函數(shù)要視樣本輸入選擇

4.minibatch很重要，幾百到幾千是比較合適的(很大數(shù)據(jù)量的情況下)

5.learning rate很重要，可以直接用adagrad or adadelta，省去一些麻煩，然后把沖量調(diào)到0.9以上

6.權(quán)重初始化，可用高斯分布乘上一個很小的數(shù)

小白一枚，在這里總結(jié)一下我在試驗中觀察到的現(xiàn)象(必然有理解錯誤的地方)：

1.?Adam收斂速度的確要快一些，可是結(jié)果總是不如其他優(yōu)化算法，如果很看重結(jié)果不在乎速度還是用其他的試試。

2. Dropout的放置位置以及大小非常重要，求大神能分享經(jīng)驗.....

3. Relu并不是一定比Tanh好，如果不太懂的話，用的不合適，可能會導致梯度消失？(不知道是不是網(wǎng)絡結(jié)構(gòu)問題，為什么一用relu梯度一會兒就變成Nan)

4. pretrain 的 Embedding在訓練中不調(diào)優(yōu)泛化能力要更好一些，調(diào)優(yōu)的話參數(shù)會增加好多啊。

另：心得體會

1. 深度學習真是一門實驗科學，很多地方解釋不了為什么好，為什么不好。

2.如果你機器配置很不到位，也沒有人帶你，畢業(yè)設計千萬別選深度學習，天天愁，好坑啊。

最近在看 Karpathy 的 cs231n, 還沒看完, 不過過程中總結(jié)了一下他提到的一些技巧:

關(guān)于參數(shù):

通常情況下, 更新參數(shù)的方法默認用?Adam?效果就很好

如果可以載入全部數(shù)據(jù) (full batch updates), 可以使用?L-BFGS

Model Ensembles:

訓練多個模型, 在測試時將結(jié)果平均起來, 大約可以得到?2%?提升.

訓練單個模型時, 平均不同時期的 checkpoints 的結(jié)果, 也可以有提升.

測試時可以將測試的參數(shù)和訓練的參數(shù)組合起來:

分享幾個常用的trick：

1.增加每個step的輪數(shù)

2.early stop

3.用小一些的學習率warmup

4.回退到更大的學習率

5.nesterov momentum sgd

6.搜索初始學習率

1.better initialization helps a lot

2.use minibatch and choose batch_size(must)

3.use batch_norm &dropout

4.use adam

5.plot the learning rate curve

6.plot the loss curve.

7.lstm &gru are almost always better than sample RNN

8.use better framework(like tensorflow with tensorboard)

9.find hyper parameters used most often in paper

10 pray

cnn的調(diào)參主要是在優(yōu)化函數(shù)、embedding的維度還要殘差網(wǎng)絡的層數(shù)幾個方面。

優(yōu)化函數(shù)方面有兩個選擇：sgd、adam，相對來說adam要簡單很多，不需要設置參數(shù)，效果也還不錯。

embedding隨著維度的增大會出現(xiàn)一個最大值點，也就是開始時是隨維度的增加效果逐漸變好，到達一個點后，而后隨維度的增加，效果會變差。

殘差網(wǎng)絡的層數(shù)與embedding的維度有關(guān)系，隨層數(shù)的增加，效果變化也是一個凸函數(shù)。

另外還有激活函數(shù)，dropout層和batchnormalize層的使用。激活函數(shù)推薦使用relu，dropout層數(shù)不易設置過大，過大會導致不收斂，調(diào)節(jié)步長可以是0.05，一般調(diào)整到0.4或者0.5就可找到最佳值。

以上是個人調(diào)參的一些經(jīng)驗，可供參考。

1.無論是cnn還是rnn，batch normalization都有用，不一定結(jié)果提高幾個點，收斂快多了

2.數(shù)據(jù)初始時normalize得好，有時候直接提高2個點，比如cifar10，轉(zhuǎn)到y(tǒng)uv下normalize再scn

3.loss不降了lr就除10

4. google的inception系列按它論文里說的永遠無法復現(xiàn)

如何訓練深度神經(jīng)網(wǎng)絡？老司機的 15 點建議

導語：印度深度學習專家 Rishabh Shukla 對開發(fā)深度神經(jīng)網(wǎng)絡的經(jīng)驗總結(jié)。

本文為印度深度學習專家、創(chuàng)業(yè)者 Rishabh Shukla 在 GitHub 上發(fā)表的長博文，總結(jié)了他過去的開發(fā)經(jīng)驗，旨在給新入門的開發(fā)者提供指導。雷鋒網(wǎng)做了不改變原意的編譯。

在深度學習領(lǐng)域，為了高效訓練深度神經(jīng)網(wǎng)絡，有些實踐方法被過來人強烈推薦。

在這篇博文中，我會覆蓋幾種最常使用的實踐方法，從高品質(zhì)訓練數(shù)據(jù)的重要性、超參數(shù)(hyperparameters)到更快創(chuàng)建 DNN(深度神經(jīng)網(wǎng)絡) 原型模型的一般性建議。這些推薦方法中的大多數(shù)，已被學術(shù)界的研究所證實，并在論文中展示了相關(guān)實驗、數(shù)學證據(jù)，比如?Efficient BackProp(Yann LeCun et al.)和?Practical Recommendations for Deep Architectures(Yoshua Bengio)。

1. 訓練數(shù)據(jù)

許多 ML 開發(fā)者習慣把原始訓練數(shù)據(jù)直接扔給 DNN——為什么不這么做呢？既然任何 DNN (大多數(shù)人的假設)仍然能夠給出不錯的結(jié)果，不是嗎？但是，有句老話叫“給定恰當?shù)臄?shù)據(jù)類型，一個簡單的模型能比復雜 DNN 提供更好、更快的結(jié)果”。雖然這有一些例外，但在今天，這句話仍然沒有過時。因此，不管你是在計算機視覺( CV)，自然語言處理(NLP)還是統(tǒng)計建模(Statistical Modelling)等領(lǐng)域，想要對原始數(shù)據(jù)預處理，有幾個方法可以得到更好的訓練數(shù)據(jù)：

獲取越大的數(shù)據(jù)庫越好。DNN 對數(shù)據(jù)很饑渴，越多越好。

去除所有包含損壞數(shù)據(jù)的訓練樣本，比如短文字，高度扭曲的圖像，假輸出標簽，包含許多虛值(null values)的屬性。

Data Augmentation(數(shù)據(jù)擴張)——生成新樣例。以圖像為例，重新調(diào)節(jié)，增加噪聲等等。

2. 選擇恰當?shù)募詈瘮?shù)(activation function)

激勵函數(shù)是所有神經(jīng)網(wǎng)絡的核心部分之一。

激勵函數(shù)把渴望已久的非線性(non-linearity)加入了模型。多年來，Sigmoid 函數(shù) 一直是多數(shù)人傾向的選擇。但是，Sigmoid 函數(shù)不可避免地存在兩個缺陷：1. 尾部 ?sigmoids 的飽和，進一步導致梯度消失。2. 不以 0 為中心(輸出在 0 到 1 之間)。

一個更好的替代選擇是 Tanh 函數(shù)。數(shù)學上來說，Tanh 只是調(diào)整、平移過的 Sigmoid 函數(shù)：tanh(x) = 2*sigmoid(x) - 1。雖然 Tanh 仍舊存在梯度消失的缺陷，但好消息是：Tanh 以 0 為中心。因此，把 Tanh 作為激勵函數(shù)能更快地收斂(converge)。我發(fā)現(xiàn)使用 Tanh 通常比 Sigmoid 效果更好。

你還可以探索其他選擇，比如 ReLU, SoftSign 等等。對于一些特定任務，它們能夠改善上述問題。

3. 隱藏單元和隱層(Hidden Units and Layers)的數(shù)量

保留超出最優(yōu)數(shù)量的隱藏單元，一般是比較保險的做法。這是因為任何正則化方法( regularization method)都會處理好超出的單元，至少在某種程度上是這樣。在另一方面，保留比最優(yōu)數(shù)量更少的隱藏單元，會導致更高的模型欠擬合(underfitting)幾率。

另外，當采用無監(jiān)督預訓練的表示時(unsupervised pre-trained representations，下文會做進一步解釋)，隱藏單元的最優(yōu)數(shù)目一般會變得更大。因此，預訓練的表示可能會包含許多不相關(guān)信息(對于特定任務)。通過增加隱藏單元的數(shù)目，模型會得到所需的靈活性，以在預訓練表示中過濾出最合適的信息。

選擇隱層的最優(yōu)數(shù)目比較直接。正如 Yoshua Bengio 在 ?Quora 中提到的：

“你只需不停增加層，直到測試誤差不再減少?！?/p>

4. 權(quán)重初始化 (Weight Initialization)

永遠用小的隨機數(shù)字初始化權(quán)重，以打破不同單元間的對稱性(symmetry)。但權(quán)重應該是多小呢？推薦的上限是多少？用什么概率分布產(chǎn)生隨機數(shù)字？

當使用 Sigmoid 激勵函數(shù)時，如果權(quán)重初始化為很大的數(shù)字，那么 sigmoid 會飽和(尾部區(qū)域)，導致死神經(jīng)元(dead neurons)。如果權(quán)重特別小，梯度也會很小。因此，最好是在中間區(qū)域選擇權(quán)重，比如說那些圍繞平均值均衡分布的數(shù)值。

幸運的是，已經(jīng)有許多關(guān)于初始權(quán)重合適取值的研究。這對于高效的收斂非常重要。為初始化均衡分布的權(quán)重，均勻分布(uniform distribution )或許是最好的選擇之一。另外，就像論文中所展示的(Glorot and Bengio, 2010)，有更多輸入連接(fan_in)的單位，應該有相對更小的權(quán)重。

多虧這些十分透徹的試驗，現(xiàn)在我們已經(jīng)有了經(jīng)過檢驗的公式，可以直接用來權(quán)重的初始化。

比如說在 ?~ Uniform(-r, r) 提取的權(quán)重，對于 tanh 激勵 ?r=sqrt(6/(fan_in+fan_out))；對于 sigmoid 激勵 r=4*(sqrt(6/fan_in+fan_out)) 。fan_in 是上一層的大小，而 fan_out 是下一層的。

5. 學習率

這或許是最重要的超參數(shù)之一，調(diào)節(jié)著學習過程。如果學習率設置得太小，你的模型很可能需要 n 年來收斂。設置得太大，再加上不多的初始訓練樣本，你的損失可能會極高。一般來說，0.01 的學習率比較保險

相比固定學習率，在每個周期、或每幾千個樣例后逐漸降低學習率是另一個選擇。雖然這能更快地訓練，但需要人工決定新的學習率。一般來說，學習率可以在每個周期后減半。幾年前，這種策略十分普遍。

幸運的是，我們現(xiàn)在有了更好的、基于動能(momentum based)的方法，來調(diào)整學習率。這取決于誤差函數(shù)的曲率。另外，既然有些參數(shù)有更快、或更慢的學習速率；它或許能幫助我們針對模型中的單獨參數(shù)，設定不同的學習率。

最近有大量關(guān)于優(yōu)化方法的研究，導致了自適應學習率(adaptive learning rates)。目前我們有許多選擇，從老式動能方法( Momentum Method )，到 ?Adagrad、Adam (個人最愛)、 RMSProp 等等。；類似于 Adagrad 或 Adam 的方法，能替我們省去人工選擇初始學習率的麻煩；給定合適的時間，模型會開始平滑地收斂。當然，選擇一個特別合適的初始學習率仍然能起到幫助作用。

6. 超參數(shù)調(diào)參：扔掉網(wǎng)格搜索，擁抱隨機搜索

網(wǎng)格搜索(Grid Search )在經(jīng)典機器學習中十分普遍。但它在尋找 DNN 的最優(yōu)超參數(shù)方面一點也不高效。這主要是由于 DNN 嘗試不同超參數(shù)組合所耗費的時間。隨著超參數(shù)不斷增長，網(wǎng)格搜索需要的計算性能會指數(shù)級增長。

有兩種解決辦法：

取決于你之前的經(jīng)驗，你可以人工對部分常見超參數(shù)調(diào)參，比如學習率、隱層數(shù)目。

采用隨機搜索(random search)，或者隨機采樣代替網(wǎng)格搜索，來選擇最優(yōu)超參數(shù)。

超參數(shù)組合通常在期望范圍之內(nèi)、從均勻分布中被選擇出來。加入之前獲得的知識來進一步縮小搜尋空間，也是有可能的(比如，學習率不應該太大也不應該太小)。大家發(fā)現(xiàn)，隨機搜索比網(wǎng)格搜索高效地多。

7. 學習方法

隨機梯度下降( Stochastic Gradient Descent )的老方法也許對于 DNN 不是那么有效率(有例外)。最近，有許多研究聚焦于開發(fā)更靈活的優(yōu)化算法，比如 Adagrad、Adam,、AdaDelta,、RMSProp 等等。在提供自適應學習率之外，這些復雜的方法還對于模型的不同參數(shù)使用不同的學習率，通常能有更平滑的收斂。把這些當做超參數(shù)是件好事，你應該每次都在訓練數(shù)據(jù)的子集上試試它們。

8. 權(quán)重的維度保持為 2 的冪

即便是運行最先進的深度學習模型，使用最新、最強大的計算硬件，內(nèi)存管理仍然在字節(jié)(byte)級別上進行。所以，把參數(shù)保持在 64, 128, 512, 1024 等 2 的次方永遠是件好事。這也許能幫助分割矩陣和權(quán)重，導致學習效率的提升。當用 GPU 運算，這變得更明顯。

9. 無監(jiān)督預訓練(Unsupervised Pretraining?)

不管你進行的是 NLP(自然語言處理)、計算機視覺還是語音識別等任務，無監(jiān)督預訓練永遠能幫助你訓練監(jiān)督、或其他無監(jiān)督模型：NLP 中詞向量就(Word Vectors)無所不在；你可以用 ImageNet 的數(shù)據(jù)庫，使用無監(jiān)督方式對你的模型預訓練，或是對于兩個類別的監(jiān)督分類；或是更大頻域的音頻樣本，來在揚聲器消崎模型(speaker disambiguation model)中使用該信息。

10. Mini-Batch(小批量) 對比隨機學習(Stochastic Learning)

訓練一個模型的主要目的是學習合適的參數(shù)，即產(chǎn)生輸入到輸出的最優(yōu)映射。這些參數(shù)利用每個訓練樣本進行調(diào)參，不管你決定使用 batch, mini-batch 還是隨機學習。當采用隨機學習方法時，學習每個訓練樣本后權(quán)重的梯度都會進行調(diào)參，向梯度加入噪音(隨機學習中“隨機”的由來)。這樣做的結(jié)果十分理想，比如說，訓練中加入的噪音使得模型更不容易過擬合。

但是，隨機學習方法也許效率不高。如今的計算設備有非?？捎^的運算能力，隨機學習很可能會浪費其中的一大部分。如果我們能計算矩陣相乘，那么為什么要限制自己，重復單個矢量組之間的乘法呢？因此，為了更高的吞吐率和更快的學習，我推薦使用 mini-batch 而不是隨機學習。

但是，選擇適當?shù)?batch 規(guī)模同樣重要。所以我們能保留一些噪音(相比大規(guī)模 batch)，與此同時更高效地利用計算性能。一般來說，包含 ?16 個到 128 個樣例的 batch(2 的冪)是不錯的選擇。通常，一旦你發(fā)現(xiàn)了更重要的超參數(shù)(通過隨機搜索或是人工搜索)，batch 規(guī)模就會確性下來。但是，有些場景中模型得到訓練數(shù)據(jù)流(比如網(wǎng)絡學習)，那么采用隨機學習就是不錯的選擇。

11. 打亂訓練樣本

這來自于信息理論(Information Theory)——“學習到一件不太可能發(fā)生的事卻發(fā)生了，比學習一件很可能發(fā)生的事已經(jīng)發(fā)生，包含更多的信息。”同樣的，把訓練樣例的順序隨機化(在不同周期，或者 mini-batch)，會導致更快的收斂。如果模型看到的很多樣例不在同一種順序下，運算速度會有小幅提升。

12. 使用 Dropout 正則化

如果有數(shù)百萬的參數(shù)需要學習，正則化就是避免 DNN 過擬合的必須手段。你也可以繼續(xù)使用 L1/L2 正則化，但 Dropout 是檢查 DNN 過擬合的更好方式(雷鋒網(wǎng)按：Dropout 是指隨機讓網(wǎng)絡某些隱層節(jié)點的權(quán)重不工作，不工作的那些節(jié)點可以暫時認為不是網(wǎng)絡結(jié)構(gòu)的一部分，但是它的權(quán)重會保留下來)。執(zhí)行 Dropout 很容易，并且通常能帶來更快地學習。0.5 的默認值是一個不錯的選擇，當然，這取決于具體任務。如果模型不太復雜，0.2 的 Dropout 值或許就夠了。

在測試階段，Dropout 應該被關(guān)閉，權(quán)重要調(diào)整到相應大小。只要對一個模型進行 Dropout 正則化，多一點訓練時間，誤差一定會降低。

13. 周期 / 訓練迭代次數(shù)

“對深度學習模型進行多個周期的訓練，會得到更好的模型”——我們經(jīng)常聽到這句話。但多少周期才是“多”呢？其實，這里有一個簡單的策略：繼續(xù)按照一個固定的樣例數(shù)或者周期訓練模型，比如兩萬個樣例或者一個周期。在每批樣例之后，比較測試誤差(test error)和訓練誤差(train error)，如果它們的差距在縮小，那么繼續(xù)訓練。另外，記得在每批訓練之后，保存模型的參數(shù)，所以訓練好之后你可以從多個模型中做選擇。

14. 可視化

訓練深度學習模型有上千種出差錯的方式。我猜大家都遇到過這樣的場景：模型已經(jīng)訓練了幾個小時或者好幾天，然而在訓練完成之后，才意識到某個地方出問題了。為了不讓你自己神經(jīng)錯亂，一定要對訓練過程作可視化處理。比較顯而易見的措施是保存或打印損失值、訓練誤差、測試誤差等項目的日志。

在此之外，一個很好的措施是采用可視化庫(visualization library )，在幾個訓練樣例之后、或者周期之間，生成權(quán)重柱狀圖。這或許能幫助我們追蹤深度學習模型中的一些常見問題，比如梯度消失與梯度爆發(fā)(Exploding Gradient)。

15. 使用支持 GPU 和自動微分法 (Automatic Differentiation)的庫

謝天謝地，對于快速創(chuàng)建原型模型，我們已經(jīng)有了相當不錯的庫，比如 Theano, Tensorflow, Keras 等等。幾乎所有這些深度學習庫支持 GPU 計算和自動微分法。所以，你不需要深入研究核心 GPU 編程技術(shù)(除非你想——這絕對很有意思)。你也不需要寫自己的微分代碼——在非常復雜的模型上這相當費勁(但若需要，你應該有能力去做)。 Tensorflow還提供了分布式計算的支持——如果你是土豪的話.

總結(jié)

以上是生活随笔為你收集整理的mlp 参数调优_积神经网络(CNN)的参数优化方法的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： fanuc机器人码垛编程实例_FANUC
下一篇： hse不起振 stm8_STM8S207