日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

2.1.1 正则化基本介绍

發(fā)布時間:2025/4/16 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2.1.1 正则化基本介绍 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

訓練/開發(fā)、測試集

最好驗證集合測試集來自同一分布。

在機器學習中驗證集合測試集的含義分別如下:

驗證集:對學習出來的模型,調整分類器的參數(shù),如在神經(jīng)網(wǎng)絡中選擇隱藏單元數(shù)。驗證集還用來確定網(wǎng)絡結構或者控制模型復雜程度的參數(shù)。

測試集:主要是測試訓練好的模型的分辨能力(識別率等)

對于深度學習而言,有的時候即使是沒有測試集也沒有什么關系。測試集的目的是對所選定的網(wǎng)絡系統(tǒng)進行無偏估計,如果你不需要無偏估計的話,就可以不用設置測試集。這樣我們就需要用訓練集來訓練處模型讓步用驗證集來評這些模型,然后不斷調整和改進參數(shù),迭代這個過程就可以了。

偏差/方差

如果一個數(shù)據(jù)在訓練集中擬合的不夠好,我們就稱為它是欠擬合,這種情況下訓練結果的 偏差(bias) 比較高。

如果數(shù)據(jù)在測試集而表現(xiàn)效果不夠好,我們就稱訓練結果的 方差(variance) 比較高

不過,我們上面所說的情況都是基于基本誤差很小,而且數(shù)據(jù)集和測試集都是來自同一分布的假設前提之下。其他更復雜的情況,我們會在稍后進一步說。

正則化

如果你覺得神經(jīng)網(wǎng)絡過度擬合了數(shù)據(jù),也就是存在高方差(variance) 的情況,那么你最先想想到的解決辦法可能是正則化。另一個解決高方差的情況就是準備更多數(shù)據(jù),這也是一個不錯的解決辦法。但不是什么情況下你都可能獲取到足夠的大范圍數(shù)據(jù),因此無論在什么情況下正則化都是一個不錯的解決辦法,下面我們來介紹一下正則化。

如圖所示,在邏輯回歸中加入正則化只需要加入正則化參數(shù)λ,圖的上面所使用的正則化稱為L2正則化。

為什么我在正則化的時候只加上了w而不加上b呢?

因為w通常是一個高維參數(shù)矢量,已經(jīng)可以表達高方差(variance)問題了,W可能含有很多參數(shù),我們不可能擬合所有的參數(shù)。而b只是一個數(shù)字,因此加入b可有可無,影響不大,所以我們通常就不加人b。

當然,你可能還聽過L1正則化,使用L1正則化的時候,w通常是稀疏的,也就是w向量里面有很多的0。人們在訓練模型的時候通常都更傾向于使用L2正則化,L1使用的比較少。

最后需要注意的是:lambda是python中的一個保留字段,因此我們在編程的時候使用lambd來代替lambda

在神經(jīng)網(wǎng)絡中有一個成本函數(shù)J,他等于損失函數(shù)L/m。如圖所示

這里的w使用Forbenius范數(shù)來定義,他等于矩陣中所有元素的平方和。

那么我們該如何實現(xiàn)梯度下降呢?

和之前更新dw的算法類似的,我們對J的后面新加的和w有關的項也去計算偏導數(shù)。

有的時候我們也稱此時的w為權重衰減。在圖片的最底端的式子中我們可以看出,不論w是什么數(shù),我們都在嘗試讓他變得更小。實際上相當于我們給矩陣乘以了1?αλm倍的權重。

為什么正則化可以減少過擬合

如圖所示,我們通過添加正則項來避免數(shù)據(jù)的權值過大。當正則化的λ足夠大的時候,最后隱藏層的w值會趨近于0。這樣,就會減少過擬合現(xiàn)象的發(fā)生了。但他并不是會簡單到像左下圖的邏輯回歸函數(shù)一樣簡單,實際上,雖然w的參數(shù)影響很小,但他還是有一定的影響,因此最后的結果會更像是中間的那個比較良好的效果。

我們再來直觀的理解一下,如圖所示,如果w的值很小的話,那么就集中在tanh函數(shù)中比較線性的一段。z=wx+b,那么z的數(shù)值也會變得比較小,整個神經(jīng)網(wǎng)絡就會變得更加線性,很容易就降低過擬合的現(xiàn)象了。

總結

以上是生活随笔為你收集整理的2.1.1 正则化基本介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。