L1范数与L2范数
L1范數與L2范數
L1范數
L1范數是指向量中各個元素絕對值之和,也叫“稀疏規則算子”(Lasso regularization)。稀疏的意思是可以讓權重矩陣的一部分值等于0,很粗暴。
L1范數可以實現稀疏,那么問題來了,實現參數稀疏有什么用?
可解釋性:可以看到到底是哪些特征和預測的信息有關。
特征選擇:輸入x的大部分特征與輸出y是沒有關系的,如果讓參數矩陣w中出現許多0,則可以直接干掉與y無關的元素,也就是選擇出x中真正與y有關的特征。如果不這么做,那么x中本來與y無關的特征也加入到模型中,雖然會更好的減小訓練誤差,但是在預測新樣本的時候會考慮到無關的信息,干擾了預測。
L2范數
L2范數是指向量中各元素的的平方和然后再求平方根。有人把它叫“嶺回歸”(Ridge Regression),有人也叫它“權值衰減weight decay”。
L2范數與L1不同,他不會讓參數等于0,而是讓每個參數都接近于0。那么L2范數又有什么好處呢?
防止過擬合。一般的用法是在損失函數后面加上w的L2范數,即||w||2?,這是一種規則化。
優化求解變得穩定快速。簡單地說他可以讓w在接近全局最優點w*的時候,還保持著較大的梯度。這樣可以跳出局部最優,也使得收斂速度變快。
?
總結
- 上一篇: 为什么只长胖不长高?
- 下一篇: Linux磁盘管理:lvcreate 常