當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习】集成学习之boosting AdaBoost

發布時間：2023/12/20 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习】集成学习之boosting AdaBoost 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Boosting

Boosting策略在上一篇中有提到過，這里再說一遍。

Boosting策略的核心思想就是對錯誤分類的樣本投入更大的關注。采用的是加法模型和向前分步算法，向前分步算法中的每一步都會改變樣本的權重。

模型是加法模型、損失函數為指數函數、學習算法為前向分步算法的二類分類學習方法

一、AdaBoost簡介

? ? ? Boosting, 也稱為增強學習或提升法，是一種重要的集成學習技術，能夠將預測精度僅比隨機猜度略高的弱學習器增強為預測精度高的強學習器，這在直接構造強學習器非常困難的情況下，為學習算法的設計提供了一種有效的新思路和新方法。其中最為成功應用的是，Yoav Freund和Robert Schapire在1995年提出的AdaBoost算法。
? ? ? AdaBoost是英文"Adaptive Boosting"（自適應增強）的縮寫，它的自適應在于：前一個基本分類器被錯誤分類的樣本的權值會增大，而正確分類的樣本的權值會減小，并再次用來訓練下一個基本分類器。同時，在每一輪迭代中，加入一個新的弱分類器，直到達到某個預定的足夠小的錯誤率或達到預先指定的最大迭代次數才確定最終的強分類器。

弱分類器：

什么是弱分類器，只比隨機猜測好一點點的分類器叫弱分類器。就比如一個強分類器來判斷這是一只貓還是一只狗，它可能會給出，這張圖片有0.99的概率為狗。那么弱分類器就只能夠說這張圖片有0.55的概率是狗。只比隨機猜測要好一點點。

弱分類器的優勢是什么？弱分類器的特性就是high-bias & low variance（高偏差-低方差），其與生俱來的優點就是泛化性能好。因此，將多個算法組合起來之后，可以達到降偏差的效果，進而得到一個偏差小、方差小的泛化能力好的模型。

所以說Boosting與bagging很大不同的一點就是，boosting是通過集成模型來降低偏差，而bagging是通過集成模型來降低方差。

常用的弱分類器像決策樹樁，ID3，C4.5,CART因為決策樹很容易過擬合，所以說用這些樹模型的時候一定要預剪枝限制深度等或者后剪枝，總之要低方差，偏差高無所謂。

Adaboost算法流程：

初始化強分類器，樣本權重初始化為

構建最小化誤差的基分類器(決策樹樁，ID3，C4.5，CART)

計算錯分率，計算表決系數

更新權重（Z為歸一化因子，其實就是所有的和）

更新強分類器

重復2-5步驟，直到錯分率小于一定閾值或者迭代達到一定步數。

得到最終的分類器，(sign符號函數，>0為1，<0為-1)

另一種符號表示的

的推導訓練誤差界

最終得到的分類器是，如果，有，則，如果，有，則,那么有下式

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)

簡單說就是不想等的時候左邊為1，右邊>=1。想等的時候左邊為0，右邊>=0.

再根據權值的更新公式，變下型

有

接下來就可以開始正式的推導了。

（1）式右端項有

公式編輯器好蛋疼。直接上圖吧，符號有一點不一樣。

因此可以得出，Adaboost的誤差界為

它的就是我這里的

權值更新也可以重新推導，不再需要去復雜的計算。縮放就可以得到下一步迭代的新的權重。

戲稱為Thank God Hole

AdaBoost應到到多分類場景

最簡單的方法就是One Vs One 或者One Vs All

或者也可以用softmax

也有針對多分類的Adaboost模型如Adaboost M1,Adaboost M2,Adaboost MH,Adaboost MR

M1,M2:https://blog.csdn.net/tyh70537/article/details/76675098

掌握上面這些推導理論基本上算是穩了。接下來講一下adaboost的優缺點和應用場景。

Adaboost的回歸算法

Adaboost R2：

其實大體的思路與分類算法一樣，就是一些系數的計算更新公式變了，多分類也是這樣的。

二分類的一個實例

https://blog.csdn.net/hffhjh111/article/details/72348378

優缺點和應用場景

優點

用于二分類或多分類的應用場景

在Adaboost的框架下，可以使用各種回歸分類模型來構建弱學習器，非常靈活。

無腦化，簡單，不會overfitting，不用調分類器

泛化錯誤率低，精度高，可應用在大部分分類器上，無需調整參數?

用于特征選擇（feature selection)

缺點

AdaBoost迭代次數也就是弱分類器數目不太好設定，可以使用交叉驗證來進行確定。

數據不平衡導致分類精度下降。

訓練比較耗時，每次重新選擇當前分類器最好切分點。

對離群點敏感

在Adaboost訓練過程中，Adaboost會使得難于分類樣本的權值呈指數增長，訓練將會過于偏向這類困難的樣本，導致Adaboost算法易受噪聲干擾

參考：http://www.csuldw.com/2016/08/28/2016-08-28-adaboost-algorithm-theory/

總結

以上是生活随笔為你收集整理的【机器学习】集成学习之boosting AdaBoost的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【机器学习】集成学习ensemble之随
下一篇：【机器学习】集成学习之梯度提升树GBDT