當(dāng)前位置：首頁 >

神经网络weight参数怎么初始化

發(fā)布時(shí)間：2025/3/21 36 豆豆

生活随笔收集整理的這篇文章主要介紹了神经网络weight参数怎么初始化小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

轉(zhuǎn)載自：http://blog.csdn.net/xbinworld/article/details/50603552

神經(jīng)網(wǎng)絡(luò)，或者深度學(xué)習(xí)算法的參數(shù)初始化是一個(gè)很重要的方面，傳統(tǒng)的初始化方法從高斯分布中隨機(jī)初始化參數(shù)。甚至直接全初始化為1或者0。這樣的方法暴力直接，但是往往效果一般。本篇文章的敘述來源于一個(gè)國(guó)外的討論帖子[1]，下面就自己的理解闡述一下。

首先我們來思考一下，為什么在神經(jīng)網(wǎng)絡(luò)算法（為了簡(jiǎn)化問題，我們以最基本的DNN來思考）中，參數(shù)的選擇很重要呢？以sigmoid函數(shù)（logistic neurons）為例，當(dāng)x的絕對(duì)值變大時(shí)，函數(shù)值越來越平滑，趨于飽和，這個(gè)時(shí)候函數(shù)的倒數(shù)趨于0，例如，在x=2時(shí)，函數(shù)的導(dǎo)數(shù)約為1/10，而在x=10時(shí)，函數(shù)的導(dǎo)數(shù)已經(jīng)變成約為1/22000，也就是說，激活函數(shù)的輸入是10的時(shí)候比2的時(shí)候神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速率要慢2200倍！

為了讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得快一些，我們希望激活函數(shù)sigmoid的導(dǎo)數(shù)較大。從數(shù)值上，大約讓sigmoid的輸入在[-4,4]之間即可，見上圖。當(dāng)然，也不一定要那么精確。我們知道，一個(gè)神經(jīng)元j的輸入是由前一層神經(jīng)元的輸出的加權(quán)和，xj=∑iai?wi+bj。因此，我們可以通過控制權(quán)重參數(shù)初始值的范圍，使得神經(jīng)元的輸入落在我們需要的范圍內(nèi)。

一種比較簡(jiǎn)單、有效的方法是：權(quán)重參數(shù)初始化從區(qū)間均勻隨機(jī)取值。

(?1d√,1d√)，其中d是一個(gè)神經(jīng)元的輸入數(shù)量。

為了說明這樣取值的合理性，先簡(jiǎn)單回顧一下幾點(diǎn)基本知識(shí)：

1.符合均勻分布U（a,b）的隨機(jī)變量數(shù)學(xué)期望和方差分別是——數(shù)學(xué)期望：E(X)=(a+b)/2，方差：D(X)=(b-a)2/12

2.如果隨機(jī)變量X,Y是相互獨(dú)立的，那么Var(X+Y) = Var(X)+Var(Y)，如果X,Y是相互獨(dú)立的且均值為0，那么Var(X*Y) = Var(X)*Var(Y)

因此，如果我們限制神經(jīng)元的輸入信號(hào)(xi)是均值=0，標(biāo)準(zhǔn)差=1的，那么?

Var(wi)=(2d√)2/12=13d

Var(∑i=1dwixi)=d?Var(wi)=13

也就是說，隨機(jī)的d個(gè)輸入信號(hào)加權(quán)和，其中權(quán)重來自于(?1d√,1d√)均勻分布，服從均值=0，方差=1/3的正態(tài)分布，且與d無關(guān)。所以神經(jīng)元的輸入落在區(qū)間[-4,4]之外的概率非常小。

更一般的形式可以寫為：?

∑i=0d<wixi>=∑i=0d<wi><xi>=0

?(∑i=0dwixi)(∑i=0dwixi)?=∑i=0d<w2i><x2i>=σ2d

另外一種較新的初始值方法

根據(jù)Glorot & Bengio (2010) [4], initialize the weights uniformly within the interval [?b,b], where?

b=6Hk+Hk+1??????????√,

Hk?and?

Hk+1?are the sizes of the layers before and after the weight matrix, for?sigmoid?units. Or hyperbolic?tangent?units: sample a Uniform [?b,b] with?

b=46Hk+Hk+1??????????√,

其他場(chǎng)景的初始值方法[2]

in the case of RBMs, a zero-mean Gaussian with a small standard deviation around 0.1 or 0.01 works well (Hinton, 2010) to initialize the weights.
Orthogonal random matrix initialization, i.e. W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W) then use u as your initialization matrix.

參考資料

[1]?http://stats.stackexchange.com/questions/47590/what-are-good-initial-weights-in-a-neural-network

[2] Bengio, Yoshua. “Practical recommendations for gradient-based training of deep architectures.” Neural Networks: Tricks of the Trade. Springer Berlin Heidelberg, 2012. 437-478.

[3] LeCun, Y., Bottou, L., Orr, G. B., and Muller, K. (1998a). Efficient backprop. In Neural Networks, Tricks of the Trade.

[4] Glorot, Xavier, and Yoshua Bengio. “Understanding the difficulty of training deep feedforward neural networks.” International conference on artificial intelligence and statistics. 2010.

總結(jié)

以上是生活随笔為你收集整理的神经网络weight参数怎么初始化的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：今天开始学Pattern Recogni
下一篇：论文阅读笔记：You Only Look