日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

神经网络与深度学习_邱锡鹏——无监督学习和信息论

發布時間:2023/12/24 综合教程 39 生活家
生活随笔 收集整理的這篇文章主要介紹了 神经网络与深度学习_邱锡鹏——无监督学习和信息论 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

神經網絡激活函數

激活函數 激活函數在神經元中非常重要的。為了增強網絡的表示能力和學習能 力,激活函數需要具備以下幾點性質:

1. 連續并可導(允許少數點上不可導)的非線性函數。可導的激活函數可以 直接利用數值優化的方法來學習網絡參數。

2. 激活函數及其導函數要盡可能的簡單,有利于提高網絡計算效率。

3. 激活函數的導函數的值域要在一個合適的區間內,不能太大也不能太小, 否則會影響訓練的效率和穩定性。

Sigmoid型函數是指一類S型曲線函數,為兩端飽和函數。常用的Sigmoid 型函數有Logistic函數和Tanh函數。

Logistic函數可以看成是一個“擠壓”函數,把一個實數域的輸入“擠壓” 到(0,1)。1)其輸出直接可以看作是概率分布,使得神經網絡可以更好地和統 計學習模型進行結合。2)其可以看作是一個軟性門(Soft Gate),用來控制其 它神經元輸出信息的數量。

Tanh函數是也一種Sigmoid型函數。

Tanh函數的輸出是零中心 化的(Zero-Centered),而Logistic函數的輸出恒大于0。非零中心化的輸出會使得其后一層的神經元的輸入發生偏置偏移(Bias Shift),并進一步使得梯度 下降的收斂速度變慢。

修正線性單元(Recti?ed Linear Unit,ReLU) [Nair and Hinton, 2010],也叫recti?er函數[Glorot et al., 2011],是目前深層神經網絡中經常使用的激活函 數。ReLU實際上是一個斜坡(ramp)函數。

優點:采用ReLU的神經元只需要進行加、乘和比較的操作,計算上更加高效。ReLU函數被認為有生物上的解釋性,比如單側抑制、寬興奮邊界(即興奮程度 也可以非常高)。在生物神經網絡中,同時處于興奮狀態的神經元非常稀疏。人腦中在同一時刻大概只有1~4%的神經元處于活躍狀態。Sigmoid型激活函數會導致一個非稀疏的神經網絡,而ReLU卻具有很好的稀疏性,大約50%的神 經元會處于激活狀態

在優化方面,相比于Sigmoid型函數的兩端飽和,ReLU函數為左飽和函數, 且在x > 0時導數為1,在一定程度上緩解了神經網絡的梯度消失問題,加速梯度下降的收斂速度

缺點:ReLU函數的輸出是非零中心化的,給后一層的神經網絡引入偏置偏移,會影響梯度下降的效率。此外,ReLU神經元在訓練時比較容易“死亡”。在訓練時,如果參數在一次不恰當的更新后,第一個隱藏層中的某個 ReLU神經元在 所有的訓練數據上都不能被激活,那么這個神經元自身參數的梯度永遠都會是 0,在以后的訓練過程中永遠不能被激活。這種現象稱為死亡ReLU問題(Dying ReLU Problem),并且也有可能會發生在其它隱藏層。

在實際使用中,為了避免上述情況,有幾種ReLU的變種也會被廣泛使用。

帶泄露的ReLU(Leaky ReLU)在輸入 x < 0時,保持一個很小的梯度λ。 這樣當神經元非激活時也能有一個非零的梯度可以更新參數,避免永遠不能被 激活[Maas et al., 2013]。

帶參數的ReLU(Parametric ReLU,PReLU)引入一個可學習的參數,不 同神經元可以有不同的參數[He et al., 2015]。

Softplus函數[Dugas et al., 2001]可以看作是recti?er函數的平滑版本,Softplus函數其導數剛好是Logistic函數。Softplus函數雖然也有具有單側抑制、 寬興奮邊界的特性,卻沒有稀疏激活性。

網絡結構

前饋神經網絡,每一層中的神經元接受前一層神經元的輸出,并輸出到下一層神 經元。整個網絡中的信息是朝一個方向傳播,沒有反向的信息傳播,可以用一 個有向無環路圖表示。前饋網絡包括全連接前饋網絡和卷積神經網絡等。

前饋網絡可以看作一個函數,通過簡單非線性函數的多次復合,實現輸入 空間到輸出空間的復雜映射。這種網絡結構簡單,易于實現。

反饋網絡中神經元不但可以接收其它神經元的信號,也可以接收自己的反饋信號

和前饋網絡相比,反饋網絡中的神經元具有記憶功能,在不同的時刻具 有不同的狀態。反饋神經網絡中的信息傳播可以是單向或雙向傳遞,因此可用一個有向循環圖或無向圖來表示。反饋網絡包括循環神經網絡[第6章],Hop?eld網絡、玻爾茲曼機等。

圖網絡

前饋網絡和反饋網絡的輸入都可以表示為向量或向量序列。但實際應用中 很多數據是圖結構的數據,比如知識圖譜、社交網絡、分子(molecular )網絡 等。前饋網絡和反饋網絡很難處理圖結構的數據。 圖網絡是定義在圖結構數據上的神經網絡。圖中每個節點都一 個或一組神經元構成。節點之間的連接可以是有向的,也可以是無向的。每個 節點可以收到來自相鄰節點或自身的信息。
圖網絡是前饋網絡和記憶網絡的泛化,包含很多不同的實現方式,比如圖 卷積網絡(Graph Convolutional Network,GCN) [Kipf and Welling, 2016]、消 息傳遞網絡(Message Passing Neural Network,MPNN)[Gilmer et al., 2017] 等。

無監督學習

無監督學習是一種十分重要的機器學習方法。廣義上講,監督學習也可以看作是一個類特殊的無監督學習,即估計條件概率p(y|x)。條件概率p(y|x)可以通過貝葉斯公式轉為估計概率p(y)和p(x|y),并通過無監督密度估計來求解。

無監督學習問題主要可以分為聚類、特征學習、密度估計等幾種類型。

稀疏編碼(Sparse Coding)也是一種受哺乳動物視覺系統中簡單細胞感受 野而啟發的模型。在哺乳動物的初級視覺皮層(primary visual cortex)中,每個神經元僅對處于其感受野中特定的刺激信號做出響應,比如特定方向的邊緣、條紋等特征。

編碼是對d維空間中的樣本x找到其在p維空間中的表示(或投影),其目 標通常是編碼的各個維度都是統計獨立的,并且可以重構出輸入樣本。編碼的 關鍵是找到一組“完備”的基向量A,比如主成分分析等。但是主成分分析得 到編碼通常是稠密向量,沒有稀疏性。

稀疏編碼的每一維都可以看作是一種特征。和基于稠密向量的分布式表示相比,稀疏編碼具有更小的計算量和更好的可解釋性等優點。

計算量 ,稀疏性帶來的最大好處就是可以極大地降低計算量。
可解釋性 ,因為稀疏編碼只有少數的非零元素,相當于將一個輸入樣本表示為少 數幾個相關的特征。這樣我們可以更好地描述其特征,并易于理解。
特征選擇 ,稀疏性帶來的另外一個好處是可以實現特征的自動選擇,只選擇和 輸入樣本相關的最少特征,從而可以更好地表示輸入樣本,降低噪聲并減輕過 擬合。

自編碼器(Auto-Encoder,AE)是通過無監督的方式來學習一組數據的有效編碼(或表示)。 假設有一組d維的樣本x(n) ∈Rd,1≤ n ≤ N,自編碼器將這組數據映射到特征空間得到每個樣本的編碼z(n) ∈ Rp,1 ≤ n ≤ N,并且希望這組編碼可以 重構出原來的樣本。

我們使用自編碼器是為了得到有效的數據表示,因此在訓練結束后,我們一般去掉解碼器,只保留編碼器。編碼器的輸出可以直接作為后續機器學習模型的輸入

自編碼器除了可以學習低維編碼之外,也學習高維的稀疏編碼。假設中間隱藏層z的維度為p大于輸入樣本x的維度d,并讓z盡量稀疏,這就是稀疏自編碼器(Sparse Auto-Encoder)。和稀疏編碼一樣,稀疏自編碼器的優點是有 很高的可解釋性,并同時進行了隱式的特征選擇。

對于很多數據來說,僅使用兩層神經網絡的自編碼器還不足以獲取一種好 的數據表示。為了獲取更好的數據表示,我們可以使用更深層的神經網絡。深層神經網絡作為自編碼器提取的數據表示一般會更加抽象,能夠更好地捕捉到 數據的語義信息。在實踐中經常使用逐層堆疊的方式來訓練一個深層的自編碼器,稱為堆疊自編碼器(Stacked Auto-Encoder,SAE)。堆疊自編碼一般可以 采用逐層訓練(layer-wise training)來學習網絡參數。

信息論

熵(Entropy)最早是物理學的概念,用于表示一個熱力學系統的無序程度。 在信息論中,熵用來衡量一個隨機事件的不確定性。假設對一個隨機變量X(取 值集合為X,概率分布為p(x),x ∈X)進行編碼,自信息I(x)是變量X = x時 的信息量或編碼長度,定義為

熵是一個隨機變量的平均編碼長度,即自信息的數學期望。熵越高,則隨機 變量的信息越多;熵越低,則信息越少。如果變量X 當且僅當在x時p(x)=1, 則熵為0。也就是說,對于一個確定的信息,其熵為0,信息量也為0。如果其概率 分布為一個均勻分布,則熵最大。

對于兩個離散隨機變量X 和Y ,假設X 取值集合為X; Y 取值集合為Y,其 聯合概率分布滿足為p(x,y),則 X 和Y 的聯合熵(Joint Entropy)為

X 和Y 的條件熵(Conditional Entropy)為

互信息(Mutual Information)是衡量已知一個變量時,另一個變量不確定 性的減少程度。兩個離散隨機變量X 和Y 的互信息定義為 :

如果X 和Y 相互獨立,即X 不對Y 提供任何信息,反之亦然,因此它們的互信 息為零。

對應分布為p(x)的隨機變量,熵H(p)表示其最優編碼長度。交叉熵(Cross Entropy)是按照概率分布q的最優編碼對真實分布為p的信息進行編碼的長度, 定義為

在給定p的情況下,如果q和p越接近,交叉熵越小;如果q和p越遠,交 叉熵就越大

KL散度(Kullback-Leibler Divergence),也叫KL距離或相對熵(Relative Entropy),是用概率分布q來近似p時所造成的信息損失量。KL散度是按照概 率分布q的最優編碼對真實分布為p的信息進行編碼,其平均編碼長度H(p,q) 和p的最優平均編碼長度H(p)之間的差異。對于離散概率分布p和q,從q到p 的KL散度定義為

KL散度可以是衡量兩個概率分布之間的距離。KL散度總是非負的, DKL(p∥q)≥ 0。只有當p = q時,DKL(p∥q)=0。如果兩個分布越接近,KL散度越小;如果 兩個分布越遠,KL散度就越大。但KL散度并不是一個真正的度量或距離,一 是KL散度不滿足距離的對稱性,二是KL散度不滿足距離的三角不等式性質。

JS散度(Jensen–Shannon Divergence)是一種對稱的衡量兩個分布相似度 的度量方式,定義為

其中m = 1/2(p+q)。

JS散度是KL散度一種改進。但兩種散度有存在一個問題,即如果兩個分 布p,q 個分布沒有重疊或者重疊非常少時,KL散度和JS散度都很難衡量兩個 分布的距離。

天才是百分之一的靈感,加百分之九十九的汗水,但那百分之一的靈感往往比百分之九十九的汗水來的重要

總結

以上是生活随笔為你收集整理的神经网络与深度学习_邱锡鹏——无监督学习和信息论的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。