當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习笔记week1——奥卡姆剃刀原则、L1与L2范数正则化、模型泛化性

發布時間：2023/12/16 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习笔记week1——奥卡姆剃刀原则、L1与L2范数正则化、模型泛化性小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本系列是學習伯禹《機器學習》的筆記，主要記錄自己在學習過程中的盲點和細節_{繼續加油叭fighting}

本篇目錄

- 1 奧卡姆剃刀原則
- 2 L1 與 L2 范數正則化
- - - 2.1 L1與L2范數正則化可以降低過擬合程度：
    - 2.2 L1正則化和L2正則化：
    - 2.3 L1正則化不能求導嗎？那怎么優化呀？
    - 2.4 為什么一般用L2比L1多?
- 3 模型泛化性
- - - 3.1 泛化能力
    - 3.2 泛化誤差
    - 3.3 泛化誤差上界

1 奧卡姆剃刀原則

奧卡姆剃刀原則，即“簡單有效原理”，“切勿浪費較多東西去做，用較少的東西，同樣可以做好的事情。”

李航《統計學方法》一書中，在應用于模型選擇時可以理解為：在所有可能選擇的模型中，能夠很好地解釋已知數據并且十分簡單才是最好的模型，也就是應該選擇的模型。正則化就符合奧卡姆剃刀原理。

舉個栗子。假如有一些連續點，可以用二次或更復雜的函數擬合，那么就用二次函數來擬合。

2 L1 與 L2 范數正則化

2.1 L1與L2范數正則化可以降低過擬合程度：

正則化之所以能夠降低過擬合的原因在于，正則化是結構風險最小化的一種策略實現。

給loss function加上正則化項，能使得新得到的優化目標函數h = f+normal，需要在f和normal中做一個權衡（trade-off），如果還像原來只優化f的情況下，那可能得到一組解比較復雜，使得正則項normal比較大，那么h就不是最優的，因此可以看出加正則項能讓解更加簡單，符合奧卡姆剃刀理論，同時也比較符合在偏差和方差（方差表示模型的復雜度）分析中，通過降低模型復雜度，得到更小的泛化誤差，降低過擬合程度。

2.2 L1正則化和L2正則化：

L1正則化就是在loss function后邊所加正則項為L1范數，加上L1范數容易得到稀疏解（0比較多）。L2正則化就是loss function后邊所加正則項為L2范數的平方，加上L2正則相比于L1正則來說，得到的解比較平滑（不是稀疏），但是同樣能夠保證解中接近于0（但不是等于0，所以相對平滑）的維度比較多，降低模型的復雜度。

詳細閱讀參考鏈接：https://zhuanlan.zhihu.com/p/35356992

2.3 L1正則化不能求導嗎？那怎么優化呀？

坐標軸下降法：沿著坐標軸的方向去下降，這和梯度下降不同。梯度下降是沿著梯度的負方向下降。不過梯度下降和坐標軸下降的共性就都是迭代法，通過啟發式的方式一步步迭代求解函數的最小值。

2.4 為什么一般用L2比L1多?

L1是在選特征，在當前的這個深度學習時代，其實并不喜歡把特征直接剪掉。因為一個特征除非是完全沒用，我們才把它刪掉，如果他能夠在某種情況下有任何一點用那我們會保留。因此一般工業是在不考慮一定要做特征選擇的時候用L2，如果說特征確實蠻大以至于最后要削掉一部分特征使內存以及訓練速度獲得優化那才用L1。另外一種情況，一些互聯網公司會同時使用L1和L2，一方面通過L1刪掉一部分沒有特別大用處的訓練特征，另外一個方面就是用L2的性質，使整個模型離原點的距離能夠得到保證。

3 模型泛化性

3.1 泛化能力

泛化能力指的是模型對未觀測數據的預測能力

3.2 泛化誤差

可以通過泛化誤差來評估，定義如下：

$R(f)=E[L(Y,f(X))]=∫X×YL(y,f(x))p(x,y)dxdyR(f)=\mathbb{E}[\mathcal{L}(Y, f(X))]=\int_{X \times Y} \mathcal{L}(y, f(x)) p(x, y) d x d y$
p(x,y) 是潛在的（可能是未知的）聯合數據分布

在訓練數據集上對泛化能力的經驗估計是：

$R^(f)=1N∑i=1NL(yi,f(xi))\widehat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} \mathcal{L}\left(y_{i}, f\left(x_{i}\right)\right)$

3.3 泛化誤差上界

對于泛化能力的分析通常是根據泛化誤差上界來確定的，因為它代表的是泛化能力的下界，也就是所謂的保底值，如果保底值能夠提升，那么模型的整體泛化能力就能夠得到提升。

泛化誤差上界的定義如下：對于二類分類問題

不等式中左側的 R(f) 是泛化誤差，右側的即是泛化誤差上界，其中的 R?(f) 是訓練過程中的誤差，而 ε(d,N,δ) 相當于一個糾正量，是 N 的單調遞減函數，當 N 趨近無窮時趨向 0，同時它也是 logd 階的函數，假設空間包含的函數越多時，d的值越大，即它的值也越大。
值得注意的是，該不等式是根據霍夫丁不等式推導而來。

具體推導參考鏈接：https://blog.csdn.net/qq_43872529/article/details/104362791

總結

以上是生活随笔為你收集整理的机器学习笔记week1——奥卡姆剃刀原则、L1与L2范数正则化、模型泛化性的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。