【机器学习基础】一文说透正则项与模型复杂度
上文留下一個問題,正則項到底是如何控制模型復雜度的?權值越小模型復雜度越小?為什么權值越小模型復雜度越小?
1、模型與模型復雜度
在數據挖掘或機器學習領域我們常聽到線性回歸模型、邏輯回歸模型、支持向量機、決策樹、隨機森林、XGBoost、LightGBM、神經網絡等等,通常這么說是指模型結構不同的模型,這個時候所說的模型既可以是一個確定的模型,也可是一個不確定的模型,或者說是一個已訓練好的模型,也可以是一個還未訓練的模型。訓練好的模型也就是模型參數已經確定了,可以用來預測了,這是一個確定的,具體的,可用的模型;未訓練好的模型也就是模型參數還沒確定,有待從模型假設空間中搜索(也就是訓練)出一個具體的模型。
一個確定的模型沒有復雜度的概念,一個權重為3,偏置為0的一元線性回歸模型和一個權重為2,偏置為0的一元線性回歸模型,二者的2范數分別是9和4,難道前者比后者更復雜?顯然不是。
通常所說的模型復雜度是指不確定的模型的模型復雜度。不確定的模型就是模型參數還沒確定,參數雖然沒有確定,但是肯定有一個取值范圍,這個取值范圍對應了模型的假設空間,取值范圍越大,假設空間越大,模型的表達能力就越強,也就是在假設空間搜索的時候更有可能搜索到一個過擬合訓練集的確定模型。所以模型復雜度是指非確定模型的假設空間的大小,假設空間越大,模型越復雜。
2、正則項與模型復雜度
首先放上范數等值線圖如下:
以右圖中的2范數為例,通常所說正則項越小即指圖中的圓的半徑越小,半徑越小模型越簡單是指權值的取值范圍在負半徑長度到正半徑長度之間,也就是說所有權值取值范圍長度都為圓的直徑,那么壓縮這個圓的直徑就是在壓縮模型的假設空間,也就是所謂的模型變得更簡單。
雖然直徑減小可以壓縮假設空間,但實際情況幾乎不可能退化到一個點,這樣模型很容易欠擬合,那么權值的取值為什么一定要在圓內?不可以在某個圓環內嗎?
3、貝葉斯概率與正則項
很多資料都只是介紹在目標函數中添加正則項可以控制模型復雜度,防止過擬合,那第一個想到在目標函數中添加正則項的人是如何想到的?一個如此妙的項應該不是一拍腦門就直接加上去的,這后面一定有可以挖的東西。
果然挖到了與貝葉斯概率有關的最大后驗估計與正則項的關系。在訓練集D上求模型參數可以用最大化后驗概率的方式來求解[1, 2]。
即:
取對數:
如果其中的先驗概率服從標準正態分布,那么
也就是說最大化先驗概率就是最小化權值向量的2范數,由于是標準正態分布所以正好是所有權值趨于0的時候概率最大,也就是說2范數的權值取值應該在圓內并且向圓心靠近。
如果其中的先驗概率服從標準拉普拉斯分布,那么
也就是最大化先驗概率就是最小化權值向量的1范數,由于是標準拉普拉斯分布,所以也是所有權值趨于0的時候概率最大,也就是說1范數的權值取值應該在菱形內并且向原點靠近。
參考文獻
[1]?https://zhuanlan.zhihu.com/p/55251269
[2]?https://zhuanlan.zhihu.com/p/35356992
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請掃碼進群:總結
以上是生活随笔為你收集整理的【机器学习基础】一文说透正则项与模型复杂度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习的书看不懂怎么办?看看大神怎么回
- 下一篇: 【NLP】6种用于文本分类的开源预训练模