當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

正则化和范数

發(fā)布時間：2025/3/15 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了正则化和范数小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

預(yù)備知識

在深度學(xué)習(xí)中，模型的參數(shù)優(yōu)化可以看做最大后驗(yàn)估計(jì)，損失函數(shù)即為似然函數(shù)。所謂正則化，可以視為給予了模型參數(shù)估計(jì)的一個先驗(yàn)知識。而似然函數(shù)*先驗(yàn)信息即為最大后驗(yàn)估計(jì)。
$θ?=argmaxθ(∏iP(Yi∣Xi,θ)∏iP(θi))=argminθ(∑i∣∣f(Xi)?Yi∣∣2+∑ilnP(θi))\theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=argmin_{\theta}(\sum_i ||f(X_i)-Y_i||^2+\sum_i \text{ln}P(\theta_i))$

L0范數(shù)

L0范數(shù)統(tǒng)計(jì)向量中非0元素的個數(shù)，非0元素越少，意味著越稀疏。模型越稀疏，則過擬合的風(fēng)險越低，同時可以提高模型的可解釋性。

L1正則化

L1范數(shù)是L0范數(shù)的最優(yōu)凸近似，比L0范數(shù)更利于優(yōu)化求解。由于L1范數(shù)在0值處不可微，所以L1正則化會趨向于讓參數(shù)=0。L1正則化在損失函數(shù)中的形式表現(xiàn)為，在原損失函數(shù)上加上權(quán)重參數(shù) $w$ 的絕對值，這相當(dāng)于賦予 $w$ 拉普拉斯先驗(yàn)，如果 $λ\lambda$ 越大，則 $w$ 的分布越集中在0附近。
$P(θi)=λ2exp(?λ∣θi∣)P(\theta_i)=\frac{\lambda}{2}\text{exp}(-\lambda|\theta_i|)$

L2正則化

L2正則化又叫做嶺回歸，也叫作權(quán)重衰減。L2正則化會讓參數(shù)趨向于0，在損失函數(shù)中的形式表現(xiàn)為，在原損失函數(shù)上加上權(quán)重參數(shù) $w$ 的平方，這相當(dāng)于賦予 $w$ 高斯先驗(yàn)。
$P(θi)=λπexp(?λ∣∣θi∣∣2)P(\theta_i)=\frac{\lambda}{\sqrt{\pi}}\text{exp}(-\lambda||\theta_i||^2)$

為什么參數(shù)越小越好

原因有二，一是奧卡姆剃刀原則，參照百度百科，可用八個字概括——“如無必要，勿增實(shí)體”；二是：在模型發(fā)生過擬合時，會導(dǎo)致模型在一個小區(qū)間，輸出存在劇烈變化。這意味著，模型在這個小區(qū)間內(nèi)的導(dǎo)數(shù)值很大，而導(dǎo)數(shù)值由權(quán)重參數(shù) $w$ 決定，“大導(dǎo)數(shù)值”可以一定程度上等價于“大 $w$ ”。也就是說，“大 $w$ ”會導(dǎo)致過擬合，從而 $w$ 越小越好。

總結(jié)

以上是生活随笔為你收集整理的正则化和范数的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

正则

上一篇：过拟合、欠拟合的原因和解决办法
下一篇： CVPR 2019 ATOM:《ATOM

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔