正则化和范数
目錄
- 預(yù)備知識
- L0范數(shù)
- L1正則化
- L2正則化
- 為什么參數(shù)越小越好
預(yù)備知識
在深度學(xué)習(xí)中,模型的參數(shù)優(yōu)化可以看做最大后驗(yàn)估計(jì),損失函數(shù)即為似然函數(shù)。所謂正則化,可以視為給予了模型參數(shù)估計(jì)的一個先驗(yàn)知識。而似然函數(shù)*先驗(yàn)信息即為最大后驗(yàn)估計(jì)。
θ?=argmaxθ(∏iP(Yi∣Xi,θ)∏iP(θi))=argminθ(∑i∣∣f(Xi)?Yi∣∣2+∑ilnP(θi))\theta^*=argmax_{\theta}(\prod_i P(Y_i|X_i,\theta)\prod_i P(\theta_i))=argmin_{\theta}(\sum_i ||f(X_i)-Y_i||^2+\sum_i \text{ln}P(\theta_i))θ?=argmaxθ?(i∏?P(Yi?∣Xi?,θ)i∏?P(θi?))=argminθ?(i∑?∣∣f(Xi?)?Yi?∣∣2+i∑?lnP(θi?))
L0范數(shù)
L0范數(shù)統(tǒng)計(jì)向量中非0元素的個數(shù),非0元素越少,意味著越稀疏。模型越稀疏,則過擬合的風(fēng)險越低,同時可以提高模型的可解釋性。
L1正則化
L1范數(shù)是L0范數(shù)的最優(yōu)凸近似,比L0范數(shù)更利于優(yōu)化求解。由于L1范數(shù)在0值處不可微,所以L1正則化會趨向于讓參數(shù)=0。L1正則化在損失函數(shù)中的形式表現(xiàn)為,在原損失函數(shù)上加上權(quán)重參數(shù)www的絕對值,這相當(dāng)于賦予www拉普拉斯先驗(yàn),如果λ\lambdaλ越大,則www的分布越集中在0附近。
P(θi)=λ2exp(?λ∣θi∣)P(\theta_i)=\frac{\lambda}{2}\text{exp}(-\lambda|\theta_i|)P(θi?)=2λ?exp(?λ∣θi?∣)
L2正則化
L2正則化又叫做嶺回歸,也叫作權(quán)重衰減。L2正則化會讓參數(shù)趨向于0,在損失函數(shù)中的形式表現(xiàn)為,在原損失函數(shù)上加上權(quán)重參數(shù)www的平方,這相當(dāng)于賦予www高斯先驗(yàn)。
P(θi)=λπexp(?λ∣∣θi∣∣2)P(\theta_i)=\frac{\lambda}{\sqrt{\pi}}\text{exp}(-\lambda||\theta_i||^2)P(θi?)=π?λ?exp(?λ∣∣θi?∣∣2)
為什么參數(shù)越小越好
原因有二,一是奧卡姆剃刀原則,參照百度百科,可用八個字概括——“如無必要,勿增實(shí)體”;二是:在模型發(fā)生過擬合時,會導(dǎo)致模型在一個小區(qū)間,輸出存在劇烈變化。這意味著,模型在這個小區(qū)間內(nèi)的導(dǎo)數(shù)值很大,而導(dǎo)數(shù)值由權(quán)重參數(shù)www決定,“大導(dǎo)數(shù)值”可以一定程度上等價于“大www”。也就是說,“大www”會導(dǎo)致過擬合,從而www越小越好。
總結(jié)
- 上一篇: 过拟合、欠拟合的原因和解决办法
- 下一篇: CVPR 2019 ATOM:《ATOM