日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

正则化和范数

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 正则化和范数 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 預備知識
  • L0范數
  • L1正則化
  • L2正則化
  • 為什么參數越小越好

預備知識

在深度學習中,模型的參數優化可以看做最大后驗估計,損失函數即為似然函數。所謂正則化,可以視為給予了模型參數估計的一個先驗知識。而似然函數*先驗信息即為最大后驗估計。
θ?=argmaxθ(∏iP(Yi∣Xi,θ)∏iP(θi))=argminθ(∑i∣∣f(Xi)?Yi∣∣2+∑ilnP(θi))\theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=argmin_{\theta}(\sum_i ||f(X_i)-Y_i||^2+\sum_i \text{ln}P(\theta_i))θ?=argmaxθ?(i?P(Yi?Xi?,θ)i?P(θi?))=argminθ?(i?f(Xi?)?Yi?2+i?lnP(θi?))

L0范數

L0范數統計向量中非0元素的個數,非0元素越少,意味著越稀疏。模型越稀疏,則過擬合的風險越低,同時可以提高模型的可解釋性。

L1正則化

L1范數是L0范數的最優凸近似,比L0范數更利于優化求解。由于L1范數在0值處不可微,所以L1正則化會趨向于讓參數=0。L1正則化在損失函數中的形式表現為,在原損失函數上加上權重參數www的絕對值,這相當于賦予www拉普拉斯先驗,如果λ\lambdaλ越大,則www的分布越集中在0附近。
P(θi)=λ2exp(?λ∣θi∣)P(\theta_i)=\frac{\lambda}{2}\text{exp}(-\lambda|\theta_i|)P(θi?)=2λ?exp(?λθi?)

L2正則化

L2正則化又叫做嶺回歸,也叫作權重衰減。L2正則化會讓參數趨向于0,在損失函數中的形式表現為,在原損失函數上加上權重參數www的平方,這相當于賦予www高斯先驗。
P(θi)=λπexp(?λ∣∣θi∣∣2)P(\theta_i)=\frac{\lambda}{\sqrt{\pi}}\text{exp}(-\lambda||\theta_i||^2)P(θi?)=π?λ?exp(?λθi?2)

為什么參數越小越好

原因有二,一是奧卡姆剃刀原則,參照百度百科,可用八個字概括——“如無必要,勿增實體”;二是:在模型發生過擬合時,會導致模型在一個小區間,輸出存在劇烈變化。這意味著,模型在這個小區間內的導數值很大,而導數值由權重參數www決定,“大導數值”可以一定程度上等價于“大www”。也就是說,“大www”會導致過擬合,從而www越小越好。

總結

以上是生活随笔為你收集整理的正则化和范数的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。