日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2.1.1 正则化基本介绍

發布時間:2025/4/16 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2.1.1 正则化基本介绍 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

訓練/開發、測試集

最好驗證集合測試集來自同一分布。

在機器學習中驗證集合測試集的含義分別如下:

驗證集:對學習出來的模型,調整分類器的參數,如在神經網絡中選擇隱藏單元數。驗證集還用來確定網絡結構或者控制模型復雜程度的參數。

測試集:主要是測試訓練好的模型的分辨能力(識別率等)

對于深度學習而言,有的時候即使是沒有測試集也沒有什么關系。測試集的目的是對所選定的網絡系統進行無偏估計,如果你不需要無偏估計的話,就可以不用設置測試集。這樣我們就需要用訓練集來訓練處模型讓步用驗證集來評這些模型,然后不斷調整和改進參數,迭代這個過程就可以了。

偏差/方差

如果一個數據在訓練集中擬合的不夠好,我們就稱為它是欠擬合,這種情況下訓練結果的 偏差(bias) 比較高。

如果數據在測試集而表現效果不夠好,我們就稱訓練結果的 方差(variance) 比較高

不過,我們上面所說的情況都是基于基本誤差很小,而且數據集和測試集都是來自同一分布的假設前提之下。其他更復雜的情況,我們會在稍后進一步說。

正則化

如果你覺得神經網絡過度擬合了數據,也就是存在高方差(variance) 的情況,那么你最先想想到的解決辦法可能是正則化。另一個解決高方差的情況就是準備更多數據,這也是一個不錯的解決辦法。但不是什么情況下你都可能獲取到足夠的大范圍數據,因此無論在什么情況下正則化都是一個不錯的解決辦法,下面我們來介紹一下正則化。

如圖所示,在邏輯回歸中加入正則化只需要加入正則化參數λ,圖的上面所使用的正則化稱為L2正則化。

為什么我在正則化的時候只加上了w而不加上b呢?

因為w通常是一個高維參數矢量,已經可以表達高方差(variance)問題了,W可能含有很多參數,我們不可能擬合所有的參數。而b只是一個數字,因此加入b可有可無,影響不大,所以我們通常就不加人b。

當然,你可能還聽過L1正則化,使用L1正則化的時候,w通常是稀疏的,也就是w向量里面有很多的0。人們在訓練模型的時候通常都更傾向于使用L2正則化,L1使用的比較少。

最后需要注意的是:lambda是python中的一個保留字段,因此我們在編程的時候使用lambd來代替lambda

在神經網絡中有一個成本函數J,他等于損失函數L/m。如圖所示

這里的w使用Forbenius范數來定義,他等于矩陣中所有元素的平方和。

那么我們該如何實現梯度下降呢?

和之前更新dw的算法類似的,我們對J的后面新加的和w有關的項也去計算偏導數。

有的時候我們也稱此時的w為權重衰減。在圖片的最底端的式子中我們可以看出,不論w是什么數,我們都在嘗試讓他變得更小。實際上相當于我們給矩陣乘以了1?αλm倍的權重。

為什么正則化可以減少過擬合

如圖所示,我們通過添加正則項來避免數據的權值過大。當正則化的λ足夠大的時候,最后隱藏層的w值會趨近于0。這樣,就會減少過擬合現象的發生了。但他并不是會簡單到像左下圖的邏輯回歸函數一樣簡單,實際上,雖然w的參數影響很小,但他還是有一定的影響,因此最后的結果會更像是中間的那個比較良好的效果。

我們再來直觀的理解一下,如圖所示,如果w的值很小的話,那么就集中在tanh函數中比較線性的一段。z=wx+b,那么z的數值也會變得比較小,整個神經網絡就會變得更加線性,很容易就降低過擬合的現象了。

總結

以上是生活随笔為你收集整理的2.1.1 正则化基本介绍的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。