日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AI - 深度学习之美十四章-概念摘要(8~14)

發布時間:2025/5/22 ChatGpt 173 豆豆
生活随笔 收集整理的這篇文章主要介紹了 AI - 深度学习之美十四章-概念摘要(8~14) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文鏈接:https://yq.aliyun.com/topic/111
本文是對原文內容中部分概念的摘取記錄,可能有輕微改動,但不影響原文表達。


08 - BP算法雙向傳,鏈式求導最纏綿

反向傳播(Back Propagation,簡稱BP) 算法

在神經網絡(甚至深度學習)參數訓練中,BP算法占據舉足輕重的地位。
實際上BP算法是一個典型的雙向算法,但通常強調的是反向傳播。
工作流程分兩大步:

  • 正向傳播輸入信號,輸出分類信息(對于有監督學習而言,基本上都可歸屬于分類算法)。簡單說來,就是把信號通過激活函數的加工,一層一層的向前“蔓延”,直到抵達輸出層。
  • 反向傳播誤差信息,調整全網權值。如果沒有達到預期目的,重走回頭路(1)和(2),也就是通過微調網絡參數讓下一輪的輸出更加準確。
  • 反向傳播演示

    反向傳播演示:https://google-developers.appspot.com/machine-learning/crash-course/backprop-scroll/

    BP算法的不足

    會存在“梯度擴散(Gradient Diffusion)”現象,其根源在于對于非凸函數,梯度一旦消失,就沒有指導意義,導致它可能限于局部最優。
    而且“梯度擴散”現象會隨著網絡層數增加而愈發嚴重,也就是說,隨著梯度的逐層消減,導致它對調整網絡權值的調整效益,作用越來越小。
    故此BP算法多用于淺層網絡結構(通常小于等于3),這就限制了BP算法的數據表征能力,從而也就限制了BP的性能上限。


    09 - 全面連接困何處,卷積網絡見解深

    在本質上,BP算法是一種全連接神經網絡,雖然有很多成功的應用,但只能適用于“淺層”網絡。
    因為“膚淺”,所以也就限制了它的特征表征能力,進而也就局限了它的應用范圍。

    卷積神經網絡(Convolutional Neural Network,簡稱CNN)

    當前適用在圖像、語音識別等眾多任務。
    CNN能夠直接從原始圖像出發,經過非常少的預處理,就能從圖像中找出視覺規律,進而完成識別分類任務,其實這就是端到端(end-end)的含義。
    避免了對圖像進行復雜的前期處理(即大量的人工圖像特征提取工作)
    當前主流的卷積神經網絡結構,其精華大致體現在3個核心操作和3個概念。

    • 3個核心是指:卷積(Convolution)、池化(Poling)和非線性處理(ReLU)。
    • 3個概念是指:局部感受域(Local receptive filed)、權值共享(Weight sharing)和亞采樣(Subsampling)。

    10 - 卷地風來忽吹散,積得飄零美如畫

    卷積操作的數學意義:一個函數和另一個函數在某個維度上的加權“疊加”作用。

    通常把函數f稱為輸入函數, g 稱為濾波器(filter,也稱為特征檢測器,feature detector)或卷積核(kernel),這兩個函數的疊加結果稱為特征圖或特征圖譜(feature map)
    特征圖譜也被稱呼為做卷積特征(convolved feature)或激活圖(activation map)。

    在本質上,離散卷積就是一個線性運算,因此離散卷積操作也被稱為線性濾波。

    常用于圖像處理的卷積核

  • 同一化核(Identity)
    卷積后得到的圖像和原圖一樣。
    只有中心點的值是1,鄰域點的權值都是0,所以對濾波后的取值沒有任何影響。

  • 邊緣檢測核(Edge Detection)
    也稱為高斯-拉普拉斯算子。
    矩陣的元素總和為0(即中間元素為8,而周圍8個元素之和為-8),所以濾波后的圖像會很暗,而只有邊緣位置是有亮度的。

  • 圖像銳化核(Sharpness Filter)
    圖像的銳化和邊緣檢測比較相似。
    首先找到邊緣,然后再把邊緣加到原來的圖像上面,強化了圖像的邊緣,使得圖像看起來更加銳利。

  • 均值模糊(Box Blur /Averaging)
    每個元素值都是1,它將當前像素和它的四鄰域的像素一起取平均,然后再除以9。
    均值模糊比較簡單,但圖像處理得不夠平滑。因此,還可以采用高斯模糊核(Gaussian Blur),這個核被廣泛用在圖像降噪上。


  • 11 - 局部連接來減參,權值共享肩并肩

    相比于全連接的前饋網絡,卷積神經網絡的結構要簡潔,但并不簡單。

    典型卷積神經網絡的結構

    在不考慮輸入層的情況下,一個典型的卷積神經網絡通常由若干個卷積層、激活層、池化層及全連接層組成。

    卷積層(Convolutional Layer)

    - 是卷積神經網絡的核心所在。 - 在卷積層,通過實現“局部感知”和“權值共享”等系列的設計理念,可達到兩個重要的目的:對高維輸入數據實施降維處理和實現自動提取原始數據的核心特征。

    激活層(Activation Layer)

    - 作用是將前一層的線性輸出,通過非線性激活函數處理,從而可模擬任意函數,進而增強網絡的表征能力。 - 在深度學習領域,ReLU(Rectified-Linear Unit,修正線性單元)是目前使用較多的激活函數,原因是它收斂更快,且不會產生梯度消失問題。

    池化層(Pooling Layer)

    - 也稱為亞采樣層(Subsampling Layer)。 - 簡單來說,利用局部相關性,“采樣”在較少數據規模的同時保留了有用信息。 - 巧妙的采樣還具備局部線性轉換不變性,從而增強卷積神經網絡的泛化處理能力。

    全連接層(Fully Connected Layer)

    相當于傳統的多層感知機(Multi-Layer Perceptron,簡稱MLP)。 通常來說,“卷積-激活-池化”是一個基本的處理棧,通過多個前棧處理之后,待處理的數據特性已有了顯著變化: 一方面,輸入數據的維度已下降到可用“全連接”網絡來處理了;另一方面,此時全連接層的輸入數據已不再是“泥沙俱下、魚龍混雜”,而是經過反復提純過的結果,因此最后輸出的結果要可控得高。

    常見架構模式

    可以根據不同的業務需求,構建出不同拓撲結構的卷積神經網絡

    例如,可以先由m個卷積層和激活層疊加,然后(可選)進行一次池化操作,重復這個結構n次,最后疊加k個全連接層(m, n, k ≥ 1)。

    總體來講,卷積神經網絡通過多層處理,逐漸將初始的“低層”特征表示,轉化為“高層”特征表示,之后再用“簡單模型”即可完成復雜的分類等學習任務。
    因此在本質上,深度學習就是一個“特征學習(feature learning)”或“表示學習(representation learning)”。

    卷積層的3個核心概念

    卷積層的三個核心概念:局部連接、空間位置排列及權值共享。

    局部連接(Local Connectivity)

    全連接的前饋神經網絡有個非常致命的缺點,那就是可擴展性(Scalability)非常差。 原因非常簡單,網絡規模一大,需要調參的個數以神經元數的平方倍增,導致它難以承受參數太多之痛。 局部連接(Local Connectivity)在能某種程度上緩解這個“參數之痛”。 局部連接也被稱為“稀疏連接(Sparse Connectivity)”。對于卷積神經網絡而言,隱藏層的神經元僅僅需要與前一層的部分區域相連接。 這個局部連接區域有個特別的名稱叫“感知域(receptive field)”,其大小等同于卷積核的大小 。 相比于原來的全連接,連接的數量自然是稀疏得多,因此,局部連接也被稱為“稀疏連接(Sparse Connectivity)”。但需要注意的是,這里的稀疏連接,僅僅是指卷積核的感知域相對于原始圖像的高度和寬度而言的。 卷積核的深度(depth,在這里卷積核的深度實際上就是卷積核的個數。)則需要與原始數據保持一致,不能縮減。

    空間排列(Spatial arrangement)

    在構造卷積層時,對于給定的輸入數據,如果確定了卷積核的大小,卷積核的深度(個數)、步幅以及補零個數,那么卷積層的空間安排就能確定下來。 也就是說固定4個參數:卷積核的大小、深度、步幅及補零。卷積核的深度(depth)卷積核的深度對應的是卷積核的個數。每個卷積核只能提取輸入數據的部分特征。每一個卷積核與原始輸入數據執行卷積操作,會得到一個卷積特征,這樣的多個特征匯集在一起,稱為特征圖譜。事實上,每個卷積核提取的特征都有各自的側重點。因此,通常說來,多個卷積核的疊加效果要比單個卷積核的分類效果要好得多。步幅(stride)即濾波矩陣在輸入矩陣上滑動跨越的單元個數。設步幅大小為S,當S為1時,濾波器每次移動一個像素的位置。當S為2時,每次移動濾波器會跳過2個像素。S越大,卷積得到特征圖就越小。補零(zero-padding)補零操作通常用于邊界處理。在有些場景下,卷積核的大小并不一定剛好就被輸入數據矩陣的維度大小整除,就會出現卷積核不能完全覆蓋邊界元素的情況。這時,就需要在輸入矩陣的邊緣使用零值進行填充,使得在輸入矩陣的邊界處的大小剛好和卷積核大小匹配。這樣做的結果,相當于對輸入圖像矩陣的邊緣進行了一次濾波。零填充的好處在于,它可以控制特征圖的大小。使用零填充的卷積叫做泛卷積(wide convolution),不適用零填充的叫做嚴格卷積(narrow convolution)。

    權值共享(Shared Weights)

    權值實際上就是不同神經元之間的連接參數,也稱為參數共享(Parameter Sharing)。 局部連接雖然降低了連接的個數,但整體幅度并不大,需要調節的參數個數依然非常龐大,因此還是無法滿足高效訓練參數的需求。 而權值共享能顯著降低參數的數量。對于同一個卷積核,它在一個區域提取到的特征,也能適用于于其他區域。 基于權值共享策略,將卷積層神經元與輸入數據相連,同屬于一個特征圖譜的神經元,將共用一個權值參數矩陣。權值共享保證了在卷積時只需要學習一個參數集合即可,而不是對每個位置都再學習一個單獨的參數集合。 因此參數共享也被稱為綁定的權值(tied weights)。

    小結

    空間位置排列確定了神經網絡的結構參數,而局部連接和權值共享等策略顯著降低了神經元之間的連接數。

    示例:全連接(不包括偏置的權值連接)的參數為15個,局部連接為7個,而權值共享的參數為3個(即紅綠藍線分別共用一個參數)


    12 - 激活引入非線性,池化預防過擬合

    欠擬合與過擬合

    欠擬合(underfitting)
    樣本不夠,或學習算法不精,連已有數據中的特征都沒有學習好,自然當面對新樣本做預測時,效果肯定也好不到哪里去。
    欠擬合比較容易克服,比如在神經網絡中增加訓練的輪數,從而可以更加“細膩”地學習樣本種的特征。

    過擬合(overfitting)
    構建的模型一絲不茍地反映已知的所有數據,但這樣一來,它對未知數據(新樣本)的預測能力就會比較差。

    卷積神經網絡如何泛化(即防過擬合)

    采樣(sampling) 采樣的本質就是力圖以合理的方式“以偏概全”。 在卷積神經網絡中,采樣是針對若干個相鄰的神經元而言的,因此也稱為“亞采樣(Subsampling)”,也就是“池化(Pooling)”。

    激活層

    激活層存在的最大目的,莫過于引入非線性因素(選取合適的“激活函數”),以增加整個網絡的表征能力。

    Sigmoid激活函數的缺點

    導數值很小。比如說,Sigmoid的導數取值范圍僅為[0, 1/4],且當輸入數據很大或者很小的時候,其導數趨都近于0。 這就意味著,很容易產生所謂的梯度消失(vanishing gradient)現象。

    激活函數修正線性單元(Rectified Linear Unit,簡稱ReLU)

    標準的ReLU函數為f(x)=max(x,0),即當x>0時,輸出x; 當x<=0時,輸出0。相比于Sigmoid類激活函數,ReLU激活函數的優點 - 單側抑制。當輸入小于0時,神經元處于抑制狀態。反之,當輸入大于0,神經元處于激活狀態。 - 相對寬闊的興奮邊界。Sigmoid的激活態(即f(x)的取值)集中在中間的狹小空間,而ReLU這不同,只要輸入大于0,神經元一直都處于激活狀態。 - 稀疏激活性。ReLU直接把抑制態的神經元“簡單粗暴”地設置為0,就使得這些神經元不再參與后續的計算,從而造成網絡的稀疏性,ReLU激活函數除了減少了計算量,還減少了參數的相互依存關系(網絡瘦身了不少),使其收斂速度遠遠快于其他激活函數,最后還在一定程度上緩解了過擬合問題的發生。LeRU的這種簡單直接的處理方式,也帶來一些副作用。 最突出的問題就是,會導致網絡在訓練后期表現得非常脆弱,以至于這時的ReLU也被戲稱為“死掉的ReLU(dying ReLU)”。

    池化層

    池化層亦稱子采樣層。 通常來說,當卷積層提取目標的某個特征之后,都要在兩個相鄰的卷積層之間安排一個池化層。 池化層函數實際上是一個統計函數,常見的統計特性包括最大值、均值、累加和及L2范數等。 池化層設計的目的主要有兩個:降低了下一層待處理的數據量、預防網絡過擬合。不同的池化策略在正向傳播和方向傳播中的差異 最大池化函數(max pooling)- 前向傳播操作:取濾波器最大值作為輸出結果- 反向傳播操作:濾波器的最大值不變,其余元素置0 平均池化函數(average pooling)- 前向傳播操作:取濾波器范圍所有元素的平均值作為數據結果- 后向傳播操作:濾波器中所有元素的值,都取平均值對于處理圖片而言,通過池化操作后,原始圖像就好像被打上了一層馬賽克。 但計算機的“視界”和人類完全不同,池化后的圖片,絲毫不會影響它們對圖片的特征提取。 理論支撐就是局部線性變換的不變性(invariant):如果輸入數據的局部進行了線性變換操作(如平移或旋轉等),那么經過池化操作后,輸出的結果并不會發生變化。池化綜合了(過濾核范圍內的)全部鄰居的反饋,即通過k個像素的統計特性而不是單個像素來提取特征,自然能夠大大提高神經網絡的性能。

    全連接層(Fully Connected Layer,簡稱FC)

    “全連接”意味著,前層網絡中的所有神經元都與下一層的所有神經元連接。 全連接層設計目的在于,它將前面各個層學習到的“分布式特征表示”,映射到樣本標記空間,然后利用損失函數來調控學習過程,最后給出對象的分類預測。實際上,全連接層是就是傳統的多層感知器。 不同于BP全連接網絡的是,卷積神經網絡在輸出層使用的激活函數不同,比如說它可能會使用Softmax函數。全連接層的參數冗余,導致該層的參數個數占據整個網絡參數的絕大部分。 由于全連接層因為參數個數太多,容易出現過擬合的現象,可采取Dropout措施來弱化過擬合。

    小結

    卷積神經網絡的所有核心層

    • 卷積層:從數據中提取有用的特征
    • 激活層:為網絡中引入非線性,增強網絡表征能力
    • 池化層:通過采樣減少特征維度,并保持這些特征具有某種程度上的尺度變化不變性
    • 全連接層:實施對象的分類預測

    13 - 循環遞歸RNN,序列建模套路深

    馬爾科夫鏈思維

    所謂馬爾科夫鏈,通俗來講,就是未來的一切,僅與當前有關,而與歷史無關。
    人類不具備馬爾科夫鏈思維。
    也就是說,人類不可避免地要受到歷史的影響,人們善于追求前后一致,首尾協調,邏輯一貫。
    換句話說,人類的行為通常是歷史的產物、習慣的奴隸。

    循環神經網絡(Recurrent Neural Network,RNN)

    循環神經網絡(RNN)的輸出結果不僅和當前的輸入相關,還和過往的輸出相關,就是能將以往的信息連接到當前任務之中。
    由于利用了歷史信息,當任務涉及到與時序或與上下文相關時(如語音識別、自然語言處理等),RNN就要比其他人工神經網絡(如CNN)的性能要好得多。
    RNN最先應用在自然語言處理領域,后來應用在“機器翻譯”、“語音識別(如谷歌的語音搜索,蘋果的Siri應用等)”、“個性化推薦”等眾多領域。

    RNN利用環路(即當前隱藏層的上次輸出)來當做本層的部分輸入。
    循環神經網絡的網絡表現形式有循環結構,從而使得過去輸出的信息作為記憶而被保留下來,并可應用于當前輸出的計算中。
    也就是說,RNN的同一隱層之間的節點是有連接的。

    RNN中的“深度”,不同于傳統的深度神經網絡,它主要是指時間和空間(如網絡中的隱層個數)特性上的深度。

    RNN通過使用帶有自反饋的神經元,能夠處理理論上任意長度的(存在時間關聯性的)序列數據。
    相比于傳統的前饋神經網絡,它更符合生物神經元的連接方式。
    也就是說,如果以模仿大腦來作為終極目標的話,它更有前途。

    訓練RNN的算法叫做時間反向傳播(BackPropagation Through Time,簡稱BPTT)。
    和傳統的反向傳播算法BP有類似之處,核心任務都是利用反向傳播調參,從而使得損失函數最小化。


    14 - LSTM長短記,長序依賴可追憶

    長短期記憶(Long Short-Term Memory,簡稱LSTM)

    傳統RNN多采用反向傳播時間(BPTT)算法的弊端在于,隨著時間的流逝,網絡層數的增多,會產生梯度消失或梯度爆炸等問題。

    “梯度消失”:如果梯度較小的話(<1),多層迭代以后,指數相乘,梯度很快就會下降到對調參幾乎就沒有影響了。
    “梯度爆炸”:如果梯度較大的話(>1),多層迭代以后,又導致了梯度大的不得了。

    LSTM的核心本質在于,通過引入巧妙的可控自循環,以產生讓梯度能夠得以長時間可持續流動的路徑 。
    具體說來,就是通過改造神經元,添加了遺忘門、輸入門和輸出門等結構,讓梯度能夠長時間的在路徑上流動,從而有效提升深度RNN的性能。

    LSTM的參數訓練算法,依然是熟悉的反向傳播算法。


    轉載于:https://www.cnblogs.com/anliven/p/6285378.html

    總結

    以上是生活随笔為你收集整理的AI - 深度学习之美十四章-概念摘要(8~14)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。