机器学习回归算法—性能评估欠拟合与过拟合
機器學習中的泛化,泛化即是,模型學習到的概念在它處于學習的過程中時模型沒有遇見過的樣本時候的表現。在機器學習領域中,當我們討論一個機器學習模型學習和泛化的好壞時,我們通常使用術語:過擬合和欠擬合。我們知道模型訓練和測試的時候有兩套數據,訓練集和測試集。在對訓練數據進行擬合時,需要照顧到每個點,而其中有一些噪點,當某個模型過度的學習訓練數據中的細節和噪音,以至于模型在新的數據上表現很差,這樣的話模型容易復雜,擬合程度較高,造成過擬合。而相反如果值描繪了一部分數據那么模型復雜度過于簡單,欠擬合指的是模型在訓練和預測時表現都不好的情況,稱為欠擬合。
我們來看一下線性回歸中擬合的幾種情況圖示:
$$\theta_0+\theta_1{x}$$
$$\theta{0}+\theta{1}{x}+\theta_{2}x^{2}$$
$$\theta{0}+\theta{1}{x}+\theta{2}x^{2}+\theta{3}x^{3}+\theta_{4}x^{4}$$
還有在邏輯回歸分類中的擬合情況:
解決過擬合的方法
在線性回歸中,對于特征集過小的情況,容易造成欠擬合(underfitting),對于特征集過大的情況,容易造成過擬合(overfitting)。針對這兩種情況有了更好的解決辦法
欠擬合
欠擬合指的是模型在訓練和預測時表現都不好的情況,欠擬合通常不被討論,因為給定一個評估模型表現的指標的情況下,欠擬合很容易被發現。矯正方法是繼續學習并且試著更換機器學習算法。
過擬合
對于過擬合,特征集合數目過多,我們需要做的是盡量不讓回歸系數數量變多,對擬合(損失函數)加以限制。
(1)當然解決過擬合的問題可以減少特征數,顯然這只是權宜之計,因為特征意味著信息,放棄特征也就等同于丟棄信息,要知道,特征的獲取往往也是艱苦卓絕的。
(2)引入了 正則化 概念。
直觀上來看,如果我們想要解決上面回歸中的過擬合問題,我們最好就要消除$$x_3$$和$$x_4$$的影響,也就是想讓$$\theta_3{,}\theta_4$$都等于0,一個簡單的方法就是我們對$$\theta_3{,}\theta_4$$進行懲罰,增加一個很大的系數,這樣在優化的過程中就會使這兩個參數為零。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的机器学习回归算法—性能评估欠拟合与过拟合的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Notepad++的json 格式化
- 下一篇: 谈一谈HTTP中Get与Post的区别与