【算法】集成学习原理
【博客地址】:https://blog.csdn.net/sunyaowu315
【博客大綱地址】:https://blog.csdn.net/sunyaowu315/article/details/82905347
集成學習的思路是通過合并多個模型來提升機器學習性能,這種方法相較于當個單個模型通常能夠獲得更好的預測結果。這也是集成學習在眾多高水平的比賽如奈飛比賽,KDD和Kaggle,被首先推薦使用的原因。
一 集成思想主要分為三大類:
① 用于減少方差的bagging。通過自助采樣的方法生成眾多并行式的分類器,通過“少數服從多數”的原則來確定最終的結果(典型算法為隨機森林)。
② 用于減少偏差的boosting,翻譯過來就是提升的意思,即通過將弱學習器集成在一起提升為強學習器來提高預測精度(典型算法為AdaBoost、GBDT、xgboost);
③ 用于提升預測結果的stacking,之后介紹。
二 集成學習方法可以歸為兩大類:
① 串行集成方法,這種方法串行地生成基礎模型(如AdaBoost)。串行集成的基本動機是利用基礎模型之間的依賴。通過給錯分樣本一個較大的權重來提升性能。
② 并行集成方法,這種方法并行地生成基礎模型(如Random Forest)。并行集成的基本動機是利用基礎模型的獨立性,因為通過平均能夠較大地降低誤差。
大部分集成模型都通過一個基礎學習算法來生成一個同質的基礎學習器,即同類型的學習器,也叫同質集成。
有同質集成就有異質集成,為了集成后的結果表現最好,異質基礎學習器需要盡可能準確并且差異性夠大。
參考:
機器學習集成學習–bagging、boosting、stacking
總結
以上是生活随笔為你收集整理的【算法】集成学习原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【算法】决策树原理
- 下一篇: 【风控流程】大数据风控代码逻辑