當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AI - 深度学习之美十四章-概念摘要（8~14）

發布時間：2025/5/22 ChatGpt 173 豆豆

生活随笔收集整理的這篇文章主要介紹了 AI - 深度学习之美十四章-概念摘要（8~14）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文鏈接：https://yq.aliyun.com/topic/111
本文是對原文內容中部分概念的摘取記錄，可能有輕微改動，但不影響原文表達。

08 - BP算法雙向傳，鏈式求導最纏綿

反向傳播(Back Propagation，簡稱BP) 算法

在神經網絡（甚至深度學習）參數訓練中，BP算法占據舉足輕重的地位。
實際上BP算法是一個典型的雙向算法，但通常強調的是反向傳播。
工作流程分兩大步：

正向傳播輸入信號，輸出分類信息（對于有監督學習而言，基本上都可歸屬于分類算法）。簡單說來，就是把信號通過激活函數的加工，一層一層的向前“蔓延”，直到抵達輸出層。

反向傳播誤差信息，調整全網權值。如果沒有達到預期目的，重走回頭路（1）和（2），也就是通過微調網絡參數讓下一輪的輸出更加準確。

反向傳播演示

反向傳播演示：https://google-developers.appspot.com/machine-learning/crash-course/backprop-scroll/

BP算法的不足

會存在“梯度擴散（Gradient Diffusion）”現象，其根源在于對于非凸函數，梯度一旦消失，就沒有指導意義，導致它可能限于局部最優。
而且“梯度擴散”現象會隨著網絡層數增加而愈發嚴重，也就是說，隨著梯度的逐層消減，導致它對調整網絡權值的調整效益，作用越來越小。
故此BP算法多用于淺層網絡結構（通常小于等于3），這就限制了BP算法的數據表征能力，從而也就限制了BP的性能上限。

09 - 全面連接困何處，卷積網絡見解深

在本質上，BP算法是一種全連接神經網絡，雖然有很多成功的應用，但只能適用于“淺層”網絡。
因為“膚淺”，所以也就限制了它的特征表征能力，進而也就局限了它的應用范圍。

卷積神經網絡(Convolutional Neural Network，簡稱CNN)

當前適用在圖像、語音識別等眾多任務。
CNN能夠直接從原始圖像出發，經過非常少的預處理，就能從圖像中找出視覺規律，進而完成識別分類任務，其實這就是端到端（end-end）的含義。
避免了對圖像進行復雜的前期處理（即大量的人工圖像特征提取工作）
當前主流的卷積神經網絡結構，其精華大致體現在3個核心操作和3個概念。

3個核心是指：卷積（Convolution）、池化（Poling）和非線性處理（ReLU）。
3個概念是指：局部感受域（Local receptive filed）、權值共享（Weight sharing）和亞采樣（Subsampling）。

10 - 卷地風來忽吹散，積得飄零美如畫

卷積操作的數學意義：一個函數和另一個函數在某個維度上的加權“疊加”作用。

通常把函數f稱為輸入函數， g 稱為濾波器（filter，也稱為特征檢測器，feature detector）或卷積核（kernel），這兩個函數的疊加結果稱為特征圖或特征圖譜（feature map）
特征圖譜也被稱呼為做卷積特征（convolved feature）或激活圖（activation map）。

在本質上，離散卷積就是一個線性運算，因此離散卷積操作也被稱為線性濾波。

常用于圖像處理的卷積核

同一化核（Identity）
卷積后得到的圖像和原圖一樣。
只有中心點的值是1，鄰域點的權值都是0，所以對濾波后的取值沒有任何影響。

邊緣檢測核（Edge Detection）
也稱為高斯-拉普拉斯算子。
矩陣的元素總和為0（即中間元素為8，而周圍8個元素之和為-8），所以濾波后的圖像會很暗，而只有邊緣位置是有亮度的。

圖像銳化核（Sharpness Filter）
圖像的銳化和邊緣檢測比較相似。
首先找到邊緣，然后再把邊緣加到原來的圖像上面，強化了圖像的邊緣，使得圖像看起來更加銳利。

均值模糊（Box Blur /Averaging）
每個元素值都是1，它將當前像素和它的四鄰域的像素一起取平均，然后再除以9。
均值模糊比較簡單，但圖像處理得不夠平滑。因此，還可以采用高斯模糊核（Gaussian Blur），這個核被廣泛用在圖像降噪上。

11 - 局部連接來減參，權值共享肩并肩

相比于全連接的前饋網絡，卷積神經網絡的結構要簡潔，但并不簡單。

典型卷積神經網絡的結構

在不考慮輸入層的情況下，一個典型的卷積神經網絡通常由若干個卷積層、激活層、池化層及全連接層組成。

卷積層（Convolutional Layer）

- 是卷積神經網絡的核心所在。 - 在卷積層，通過實現“局部感知”和“權值共享”等系列的設計理念，可達到兩個重要的目的：對高維輸入數據實施降維處理和實現自動提取原始數據的核心特征。

激活層（Activation Layer）

- 作用是將前一層的線性輸出，通過非線性激活函數處理，從而可模擬任意函數，進而增強網絡的表征能力。 - 在深度學習領域，ReLU（Rectified-Linear Unit，修正線性單元）是目前使用較多的激活函數，原因是它收斂更快，且不會產生梯度消失問題。

池化層（Pooling Layer）

- 也稱為亞采樣層（Subsampling Layer）。 - 簡單來說，利用局部相關性，“采樣”在較少數據規模的同時保留了有用信息。 - 巧妙的采樣還具備局部線性轉換不變性，從而增強卷積神經網絡的泛化處理能力。

全連接層（Fully Connected Layer）

相當于傳統的多層感知機（Multi-Layer Perceptron，簡稱MLP）。通常來說，“卷積-激活-池化”是一個基本的處理棧，通過多個前棧處理之后，待處理的數據特性已有了顯著變化：一方面，輸入數據的維度已下降到可用“全連接”網絡來處理了；另一方面，此時全連接層的輸入數據已不再是“泥沙俱下、魚龍混雜”，而是經過反復提純過的結果，因此最后輸出的結果要可控得高。

常見架構模式

可以根據不同的業務需求，構建出不同拓撲結構的卷積神經網絡

例如，可以先由m個卷積層和激活層疊加，然后(可選)進行一次池化操作，重復這個結構n次，最后疊加k個全連接層（m, n, k ≥ 1）。

總體來講，卷積神經網絡通過多層處理，逐漸將初始的“低層”特征表示，轉化為“高層”特征表示，之后再用“簡單模型”即可完成復雜的分類等學習任務。
因此在本質上，深度學習就是一個“特征學習（feature learning）”或“表示學習（representation learning）”。

卷積層的3個核心概念

卷積層的三個核心概念：局部連接、空間位置排列及權值共享。

局部連接（Local Connectivity）

全連接的前饋神經網絡有個非常致命的缺點，那就是可擴展性（Scalability）非常差。原因非常簡單，網絡規模一大，需要調參的個數以神經元數的平方倍增，導致它難以承受參數太多之痛。局部連接（Local Connectivity）在能某種程度上緩解這個“參數之痛”。局部連接也被稱為“稀疏連接（Sparse Connectivity）”。對于卷積神經網絡而言，隱藏層的神經元僅僅需要與前一層的部分區域相連接。這個局部連接區域有個特別的名稱叫“感知域（receptive field）”，其大小等同于卷積核的大小。相比于原來的全連接，連接的數量自然是稀疏得多，因此，局部連接也被稱為“稀疏連接（Sparse Connectivity）”。但需要注意的是，這里的稀疏連接，僅僅是指卷積核的感知域相對于原始圖像的高度和寬度而言的。卷積核的深度（depth，在這里卷積核的深度實際上就是卷積核的個數。）則需要與原始數據保持一致，不能縮減。

空間排列（Spatial arrangement）

在構造卷積層時，對于給定的輸入數據，如果確定了卷積核的大小，卷積核的深度（個數）、步幅以及補零個數，那么卷積層的空間安排就能確定下來。也就是說固定4個參數：卷積核的大小、深度、步幅及補零。卷積核的深度（depth）卷積核的深度對應的是卷積核的個數。每個卷積核只能提取輸入數據的部分特征。每一個卷積核與原始輸入數據執行卷積操作，會得到一個卷積特征，這樣的多個特征匯集在一起，稱為特征圖譜。事實上，每個卷積核提取的特征都有各自的側重點。因此，通常說來，多個卷積核的疊加效果要比單個卷積核的分類效果要好得多。步幅（stride）即濾波矩陣在輸入矩陣上滑動跨越的單元個數。設步幅大小為S，當S為1時，濾波器每次移動一個像素的位置。當S為2時，每次移動濾波器會跳過2個像素。S越大，卷積得到特征圖就越小。補零（zero-padding）補零操作通常用于邊界處理。在有些場景下，卷積核的大小并不一定剛好就被輸入數據矩陣的維度大小整除，就會出現卷積核不能完全覆蓋邊界元素的情況。這時，就需要在輸入矩陣的邊緣使用零值進行填充，使得在輸入矩陣的邊界處的大小剛好和卷積核大小匹配。這樣做的結果，相當于對輸入圖像矩陣的邊緣進行了一次濾波。零填充的好處在于，它可以控制特征圖的大小。使用零填充的卷積叫做泛卷積（wide convolution），不適用零填充的叫做嚴格卷積（narrow convolution）。

權值共享（Shared Weights）

權值實際上就是不同神經元之間的連接參數，也稱為參數共享（Parameter Sharing）。局部連接雖然降低了連接的個數，但整體幅度并不大，需要調節的參數個數依然非常龐大，因此還是無法滿足高效訓練參數的需求。而權值共享能顯著降低參數的數量。對于同一個卷積核，它在一個區域提取到的特征，也能適用于于其他區域。基于權值共享策略，將卷積層神經元與輸入數據相連，同屬于一個特征圖譜的神經元，將共用一個權值參數矩陣。權值共享保證了在卷積時只需要學習一個參數集合即可，而不是對每個位置都再學習一個單獨的參數集合。因此參數共享也被稱為綁定的權值（tied weights）。

小結

空間位置排列確定了神經網絡的結構參數，而局部連接和權值共享等策略顯著降低了神經元之間的連接數。

示例：全連接（不包括偏置的權值連接）的參數為15個，局部連接為7個，而權值共享的參數為3個（即紅綠藍線分別共用一個參數）

12 - 激活引入非線性，池化預防過擬合

欠擬合與過擬合

欠擬合（underfitting）
樣本不夠，或學習算法不精，連已有數據中的特征都沒有學習好，自然當面對新樣本做預測時，效果肯定也好不到哪里去。
欠擬合比較容易克服，比如在神經網絡中增加訓練的輪數，從而可以更加“細膩”地學習樣本種的特征。

過擬合（overfitting）
構建的模型一絲不茍地反映已知的所有數據，但這樣一來，它對未知數據（新樣本）的預測能力就會比較差。

卷積神經網絡如何泛化（即防過擬合）

采樣（sampling）采樣的本質就是力圖以合理的方式“以偏概全”。在卷積神經網絡中，采樣是針對若干個相鄰的神經元而言的，因此也稱為“亞采樣（Subsampling）”，也就是“池化（Pooling）”。

激活層

激活層存在的最大目的，莫過于引入非線性因素(選取合適的“激活函數”)，以增加整個網絡的表征能力。

Sigmoid激活函數的缺點

導數值很小。比如說，Sigmoid的導數取值范圍僅為[0, 1/4]，且當輸入數據很大或者很小的時候，其導數趨都近于0。這就意味著，很容易產生所謂的梯度消失（vanishing gradient）現象。

激活函數修正線性單元(Rectified Linear Unit，簡稱ReLU)

標準的ReLU函數為f(x)=max(x,0)，即當x>0時，輸出x; 當x<=0時，輸出0。相比于Sigmoid類激活函數，ReLU激活函數的優點 - 單側抑制。當輸入小于0時，神經元處于抑制狀態。反之，當輸入大于0，神經元處于激活狀態。 - 相對寬闊的興奮邊界。Sigmoid的激活態（即f(x)的取值）集中在中間的狹小空間，而ReLU這不同，只要輸入大于0，神經元一直都處于激活狀態。 - 稀疏激活性。ReLU直接把抑制態的神經元“簡單粗暴”地設置為0，就使得這些神經元不再參與后續的計算，從而造成網絡的稀疏性，ReLU激活函數除了減少了計算量，還減少了參數的相互依存關系（網絡瘦身了不少），使其收斂速度遠遠快于其他激活函數，最后還在一定程度上緩解了過擬合問題的發生。LeRU的這種簡單直接的處理方式，也帶來一些副作用。最突出的問題就是，會導致網絡在訓練后期表現得非常脆弱，以至于這時的ReLU也被戲稱為“死掉的ReLU（dying ReLU）”。

池化層

池化層亦稱子采樣層。通常來說，當卷積層提取目標的某個特征之后，都要在兩個相鄰的卷積層之間安排一個池化層。池化層函數實際上是一個統計函數，常見的統計特性包括最大值、均值、累加和及L2范數等。池化層設計的目的主要有兩個：降低了下一層待處理的數據量、預防網絡過擬合。不同的池化策略在正向傳播和方向傳播中的差異最大池化函數（max pooling）- 前向傳播操作：取濾波器最大值作為輸出結果- 反向傳播操作：濾波器的最大值不變，其余元素置0 平均池化函數（average pooling）- 前向傳播操作：取濾波器范圍所有元素的平均值作為數據結果- 后向傳播操作：濾波器中所有元素的值，都取平均值對于處理圖片而言，通過池化操作后，原始圖像就好像被打上了一層馬賽克。但計算機的“視界”和人類完全不同，池化后的圖片，絲毫不會影響它們對圖片的特征提取。理論支撐就是局部線性變換的不變性（invariant）：如果輸入數據的局部進行了線性變換操作（如平移或旋轉等），那么經過池化操作后，輸出的結果并不會發生變化。池化綜合了（過濾核范圍內的）全部鄰居的反饋，即通過k個像素的統計特性而不是單個像素來提取特征，自然能夠大大提高神經網絡的性能。

全連接層（Fully Connected Layer，簡稱FC）

“全連接”意味著，前層網絡中的所有神經元都與下一層的所有神經元連接。全連接層設計目的在于，它將前面各個層學習到的“分布式特征表示”，映射到樣本標記空間，然后利用損失函數來調控學習過程，最后給出對象的分類預測。實際上，全連接層是就是傳統的多層感知器。不同于BP全連接網絡的是，卷積神經網絡在輸出層使用的激活函數不同，比如說它可能會使用Softmax函數。全連接層的參數冗余，導致該層的參數個數占據整個網絡參數的絕大部分。由于全連接層因為參數個數太多，容易出現過擬合的現象，可采取Dropout措施來弱化過擬合。

小結

卷積神經網絡的所有核心層

卷積層：從數據中提取有用的特征
激活層：為網絡中引入非線性，增強網絡表征能力
池化層：通過采樣減少特征維度，并保持這些特征具有某種程度上的尺度變化不變性
全連接層：實施對象的分類預測

13 - 循環遞歸RNN，序列建模套路深

馬爾科夫鏈思維

所謂馬爾科夫鏈，通俗來講，就是未來的一切，僅與當前有關，而與歷史無關。
人類不具備馬爾科夫鏈思維。
也就是說，人類不可避免地要受到歷史的影響，人們善于追求前后一致，首尾協調，邏輯一貫。
換句話說，人類的行為通常是歷史的產物、習慣的奴隸。

循環神經網絡（Recurrent Neural Network，RNN）

循環神經網絡（RNN）的輸出結果不僅和當前的輸入相關，還和過往的輸出相關，就是能將以往的信息連接到當前任務之中。
由于利用了歷史信息，當任務涉及到與時序或與上下文相關時（如語音識別、自然語言處理等），RNN就要比其他人工神經網絡（如CNN）的性能要好得多。
RNN最先應用在自然語言處理領域，后來應用在“機器翻譯”、“語音識別（如谷歌的語音搜索，蘋果的Siri應用等）”、“個性化推薦”等眾多領域。

RNN利用環路（即當前隱藏層的上次輸出）來當做本層的部分輸入。
循環神經網絡的網絡表現形式有循環結構，從而使得過去輸出的信息作為記憶而被保留下來，并可應用于當前輸出的計算中。
也就是說，RNN的同一隱層之間的節點是有連接的。

RNN中的“深度”，不同于傳統的深度神經網絡，它主要是指時間和空間（如網絡中的隱層個數）特性上的深度。

RNN通過使用帶有自反饋的神經元，能夠處理理論上任意長度的（存在時間關聯性的）序列數據。
相比于傳統的前饋神經網絡，它更符合生物神經元的連接方式。
也就是說，如果以模仿大腦來作為終極目標的話，它更有前途。

訓練RNN的算法叫做時間反向傳播（BackPropagation Through Time，簡稱BPTT）。
和傳統的反向傳播算法BP有類似之處，核心任務都是利用反向傳播調參，從而使得損失函數最小化。

14 - LSTM長短記，長序依賴可追憶

長短期記憶(Long Short-Term Memory，簡稱LSTM)

傳統RNN多采用反向傳播時間（BPTT）算法的弊端在于，隨著時間的流逝，網絡層數的增多，會產生梯度消失或梯度爆炸等問題。

“梯度消失”：如果梯度較小的話（<1），多層迭代以后，指數相乘，梯度很快就會下降到對調參幾乎就沒有影響了。
“梯度爆炸”：如果梯度較大的話（>1），多層迭代以后，又導致了梯度大的不得了。

LSTM的核心本質在于，通過引入巧妙的可控自循環，以產生讓梯度能夠得以長時間可持續流動的路徑。
具體說來，就是通過改造神經元，添加了遺忘門、輸入門和輸出門等結構，讓梯度能夠長時間的在路徑上流動，從而有效提升深度RNN的性能。

LSTM的參數訓練算法，依然是熟悉的反向傳播算法。

轉載于:https://www.cnblogs.com/anliven/p/6285378.html

總結

以上是生活随笔為你收集整理的AI - 深度学习之美十四章-概念摘要（8~14）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python写入txt文件正常，但是写入
下一篇：网易数据基础平台建设经验谈