當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

神经网络与深度学习_邱锡鹏——无监督学习和信息论

發布時間：2023/12/24 综合教程 39 生活家

生活随笔收集整理的這篇文章主要介紹了神经网络与深度学习_邱锡鹏——无监督学习和信息论小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

神經網絡激活函數

激活函數激活函數在神經元中非常重要的。為了增強網絡的表示能力和學習能力，激活函數需要具備以下幾點性質：

1. 連續并可導（允許少數點上不可導）的非線性函數。可導的激活函數可以直接利用數值優化的方法來學習網絡參數。

2. 激活函數及其導函數要盡可能的簡單，有利于提高網絡計算效率。

3. 激活函數的導函數的值域要在一個合適的區間內，不能太大也不能太小，否則會影響訓練的效率和穩定性。

Sigmoid型函數是指一類S型曲線函數，為兩端飽和函數。常用的Sigmoid 型函數有Logistic函數和Tanh函數。

Logistic函數可以看成是一個“擠壓”函數，把一個實數域的輸入“擠壓” 到(0,1)。1）其輸出直接可以看作是概率分布，使得神經網絡可以更好地和統計學習模型進行結合。2）其可以看作是一個軟性門（Soft Gate），用來控制其它神經元輸出信息的數量。

Tanh函數是也一種Sigmoid型函數。

Tanh函數的輸出是零中心化的（Zero-Centered），而Logistic函數的輸出恒大于0。非零中心化的輸出會使得其后一層的神經元的輸入發生偏置偏移（Bias Shift），并進一步使得梯度下降的收斂速度變慢。

修正線性單元（Recti?ed Linear Unit，ReLU） [Nair and Hinton, 2010]，也叫recti?er函數[Glorot et al., 2011]，是目前深層神經網絡中經常使用的激活函數。ReLU實際上是一個斜坡（ramp）函數。

優點：采用ReLU的神經元只需要進行加、乘和比較的操作，計算上更加高效。ReLU函數被認為有生物上的解釋性，比如單側抑制、寬興奮邊界（即興奮程度也可以非常高）。在生物神經網絡中，同時處于興奮狀態的神經元非常稀疏。人腦中在同一時刻大概只有1～4%的神經元處于活躍狀態。Sigmoid型激活函數會導致一個非稀疏的神經網絡，而ReLU卻具有很好的稀疏性，大約50%的神經元會處于激活狀態。

在優化方面，相比于Sigmoid型函數的兩端飽和，ReLU函數為左飽和函數，且在x > 0時導數為1，在一定程度上緩解了神經網絡的梯度消失問題，加速梯度下降的收斂速度。

缺點：ReLU函數的輸出是非零中心化的，給后一層的神經網絡引入偏置偏移，會影響梯度下降的效率。此外，ReLU神經元在訓練時比較容易“死亡”。在訓練時，如果參數在一次不恰當的更新后，第一個隱藏層中的某個 ReLU神經元在所有的訓練數據上都不能被激活，那么這個神經元自身參數的梯度永遠都會是 0，在以后的訓練過程中永遠不能被激活。這種現象稱為死亡ReLU問題（Dying ReLU Problem），并且也有可能會發生在其它隱藏層。

在實際使用中，為了避免上述情況，有幾種ReLU的變種也會被廣泛使用。

帶泄露的ReLU（Leaky ReLU）在輸入 x < 0時，保持一個很小的梯度λ。這樣當神經元非激活時也能有一個非零的梯度可以更新參數，避免永遠不能被激活[Maas et al., 2013]。

帶參數的ReLU（Parametric ReLU，PReLU）引入一個可學習的參數，不同神經元可以有不同的參數[He et al., 2015]。

Softplus函數[Dugas et al., 2001]可以看作是recti?er函數的平滑版本，Softplus函數其導數剛好是Logistic函數。Softplus函數雖然也有具有單側抑制、寬興奮邊界的特性，卻沒有稀疏激活性。

網絡結構

前饋神經網絡，每一層中的神經元接受前一層神經元的輸出，并輸出到下一層神經元。整個網絡中的信息是朝一個方向傳播，沒有反向的信息傳播，可以用一個有向無環路圖表示。前饋網絡包括全連接前饋網絡和卷積神經網絡等。

前饋網絡可以看作一個函數，通過簡單非線性函數的多次復合，實現輸入空間到輸出空間的復雜映射。這種網絡結構簡單，易于實現。

反饋網絡中神經元不但可以接收其它神經元的信號，也可以接收自己的反饋信號。

和前饋網絡相比，反饋網絡中的神經元具有記憶功能，在不同的時刻具有不同的狀態。反饋神經網絡中的信息傳播可以是單向或雙向傳遞，因此可用一個有向循環圖或無向圖來表示。反饋網絡包括循環神經網絡[第6章]，Hop?eld網絡、玻爾茲曼機等。

圖網絡

前饋網絡和反饋網絡的輸入都可以表示為向量或向量序列。但實際應用中很多數據是圖結構的數據，比如知識圖譜、社交網絡、分子（molecular ）網絡等。前饋網絡和反饋網絡很難處理圖結構的數據。圖網絡是定義在圖結構數據上的神經網絡。圖中每個節點都一個或一組神經元構成。節點之間的連接可以是有向的，也可以是無向的。每個節點可以收到來自相鄰節點或自身的信息。
圖網絡是前饋網絡和記憶網絡的泛化，包含很多不同的實現方式，比如圖卷積網絡（Graph Convolutional Network，GCN） [Kipf and Welling, 2016]、消息傳遞網絡（Message Passing Neural Network，MPNN）[Gilmer et al., 2017] 等。

無監督學習

無監督學習是一種十分重要的機器學習方法。廣義上講，監督學習也可以看作是一個類特殊的無監督學習，即估計條件概率p(y|x)。條件概率p(y|x)可以通過貝葉斯公式轉為估計概率p(y)和p(x|y)，并通過無監督密度估計來求解。

無監督學習問題主要可以分為聚類、特征學習、密度估計等幾種類型。

稀疏編碼（Sparse Coding）也是一種受哺乳動物視覺系統中簡單細胞感受野而啟發的模型。在哺乳動物的初級視覺皮層（primary visual cortex）中，每個神經元僅對處于其感受野中特定的刺激信號做出響應，比如特定方向的邊緣、條紋等特征。

編碼是對d維空間中的樣本x找到其在p維空間中的表示（或投影），其目標通常是編碼的各個維度都是統計獨立的，并且可以重構出輸入樣本。編碼的關鍵是找到一組“完備”的基向量A，比如主成分分析等。但是主成分分析得到編碼通常是稠密向量，沒有稀疏性。

稀疏編碼的每一維都可以看作是一種特征。和基于稠密向量的分布式表示相比，稀疏編碼具有更小的計算量和更好的可解釋性等優點。

計算量，稀疏性帶來的最大好處就是可以極大地降低計算量。
可解釋性，因為稀疏編碼只有少數的非零元素，相當于將一個輸入樣本表示為少數幾個相關的特征。這樣我們可以更好地描述其特征，并易于理解。
特征選擇，稀疏性帶來的另外一個好處是可以實現特征的自動選擇，只選擇和輸入樣本相關的最少特征，從而可以更好地表示輸入樣本，降低噪聲并減輕過擬合。

自編碼器（Auto-Encoder，AE）是通過無監督的方式來學習一組數據的有效編碼（或表示）。假設有一組d維的樣本x(n) ∈Rd,1≤ n ≤ N，自編碼器將這組數據映射到特征空間得到每個樣本的編碼z(n) ∈ Rp,1 ≤ n ≤ N，并且希望這組編碼可以重構出原來的樣本。

我們使用自編碼器是為了得到有效的數據表示，因此在訓練結束后，我們一般去掉解碼器，只保留編碼器。編碼器的輸出可以直接作為后續機器學習模型的輸入。

自編碼器除了可以學習低維編碼之外，也學習高維的稀疏編碼。假設中間隱藏層z的維度為p大于輸入樣本x的維度d，并讓z盡量稀疏，這就是稀疏自編碼器（Sparse Auto-Encoder）。和稀疏編碼一樣，稀疏自編碼器的優點是有很高的可解釋性，并同時進行了隱式的特征選擇。

對于很多數據來說，僅使用兩層神經網絡的自編碼器還不足以獲取一種好的數據表示。為了獲取更好的數據表示，我們可以使用更深層的神經網絡。深層神經網絡作為自編碼器提取的數據表示一般會更加抽象，能夠更好地捕捉到數據的語義信息。在實踐中經常使用逐層堆疊的方式來訓練一個深層的自編碼器，稱為堆疊自編碼器（Stacked Auto-Encoder，SAE）。堆疊自編碼一般可以采用逐層訓練（layer-wise training）來學習網絡參數。

信息論

熵（Entropy）最早是物理學的概念，用于表示一個熱力學系統的無序程度。在信息論中，熵用來衡量一個隨機事件的不確定性。假設對一個隨機變量X（取值集合為X，概率分布為p(x),x ∈X）進行編碼，自信息I(x)是變量X = x時的信息量或編碼長度，定義為

熵是一個隨機變量的平均編碼長度，即自信息的數學期望。熵越高，則隨機變量的信息越多；熵越低，則信息越少。如果變量X 當且僅當在x時p(x)=1，則熵為0。也就是說，對于一個確定的信息，其熵為0，信息量也為0。如果其概率分布為一個均勻分布，則熵最大。

對于兩個離散隨機變量X 和Y ，假設X 取值集合為X； Y 取值集合為Y，其聯合概率分布滿足為p(x,y)，則 X 和Y 的聯合熵（Joint Entropy）為

X 和Y 的條件熵（Conditional Entropy）為

互信息（Mutual Information）是衡量已知一個變量時，另一個變量不確定性的減少程度。兩個離散隨機變量X 和Y 的互信息定義為：

如果X 和Y 相互獨立，即X 不對Y 提供任何信息，反之亦然，因此它們的互信息為零。

對應分布為p(x)的隨機變量，熵H(p)表示其最優編碼長度。交叉熵（Cross Entropy）是按照概率分布q的最優編碼對真實分布為p的信息進行編碼的長度，定義為

在給定p的情況下，如果q和p越接近，交叉熵越小；如果q和p越遠，交叉熵就越大。

KL散度（Kullback-Leibler Divergence），也叫KL距離或相對熵(Relative Entropy)，是用概率分布q來近似p時所造成的信息損失量。KL散度是按照概率分布q的最優編碼對真實分布為p的信息進行編碼，其平均編碼長度H(p,q) 和p的最優平均編碼長度H(p)之間的差異。對于離散概率分布p和q，從q到p 的KL散度定義為

KL散度可以是衡量兩個概率分布之間的距離。KL散度總是非負的， DKL(p∥q)≥ 0。只有當p = q時，DKL(p∥q)=0。如果兩個分布越接近，KL散度越小；如果兩個分布越遠，KL散度就越大。但KL散度并不是一個真正的度量或距離，一是KL散度不滿足距離的對稱性，二是KL散度不滿足距離的三角不等式性質。

JS散度（Jensen–Shannon Divergence）是一種對稱的衡量兩個分布相似度的度量方式，定義為

其中m = 1/2(p+q)。

JS散度是KL散度一種改進。但兩種散度有存在一個問題，即如果兩個分布p,q 個分布沒有重疊或者重疊非常少時，KL散度和JS散度都很難衡量兩個分布的距離。

天才是百分之一的靈感，加百分之九十九的汗水，但那百分之一的靈感往往比百分之九十九的汗水來的重要

總結

以上是生活随笔為你收集整理的神经网络与深度学习_邱锡鹏——无监督学习和信息论的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：神州专车怎么注册司机神州专车带车加盟条
下一篇： Git学习系列之Windows上安装Gi