过拟合和欠拟合
圖解欠擬合和過擬合
1)橫軸為訓練樣本數量,縱軸為誤差
欠擬合:高偏差
過擬合:高方差
2)橫軸為模型復雜度,縱軸為誤差
A:欠擬合;C:過擬合;B:模型正常
3)橫軸為正則項系數,縱軸為誤差
?
????
降低過擬合的方法
1)重新清洗數據,數據不純會導致過擬合,此類情況需要重新清洗數據
2)數據增強(增加訓練樣本數量)
圖像:平移、旋轉、縮放
利用生成對抗網絡(GAN)生成新數據
NLP:利用機器翻譯生成新數據
3)降低模型復雜度
神經網絡:減少網絡層、神經元個數
決策樹:降低樹的深度、剪枝
4)權值約束(增大正則項系數)
L1 正則化
L2 正則化
4)集成學習
神經網絡:Dropout(在訓練的時候讓神經元以一定的概率不工作)
決策樹:隨機森林、GBDT
5)提前終止
6)減少迭代次數
7)增大學習率
8)添加噪聲數據
降低欠擬合的方法
1)加入新的特征
交叉特征、多項式特征、上下文特征.
深度學習:因子分解機、Deep-Crossing、自編碼器
2)增加模型復雜度
線性模型:添加高次項
神經網絡:增加網絡層數、神經元個數
3)減小正則化項的系數
添加正則化項是為了限制模型的學習能力,減小正則化項的系數則可以放寬這個限制
模型通常更傾向于更大的權重,更大的權重可以使模型更好的擬合數據
?
最后如果轉載,麻煩留個本文的鏈接,因為如果讀者或我自己發現文章有錯誤,我會在這里更正,留個本文的鏈接,防止我暫時的疏漏耽誤了他人寶貴的時間。
?
?
?
?
?
?
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
- 上一篇: 牛客网剑指offer编程实践51-66题
- 下一篇: 反向传播BP算法