《统计学习方法》(李航)读书笔记(转)
《統計學習方法》(李航)讀書筆記(轉)
http://www.cnblogs.com/limitlessun/p/8611103.html#_label4閱讀目錄
- 知識點
- 感知機
- k近鄰法
- 樸素貝葉斯
- 決策樹
- logistic回歸和最大熵模型
- 支持向量機
- 提升方法
- EM算法
- 隱馬爾可夫模型(HMM)
- 統計學習方法總結
- 神經網絡
- K-Means
- Bagging
- Apriori
- 降維方法
- 引用
因為要準備面試,本文以李航的《統計學習方法》為主,結合西瓜書等其他資料對機器學習知識做一個整理.
回到頂部知識點
- 進程和線程:進程和線程都是一個時間段的描述,是CPU工作時間段的描述,不過是顆粒大小不同.進程就是包換上下文切換的程序執行時間總和 = CPU加載上下文+CPU執行+CPU保存上下文.線程是共享了進程的上下文環境的更為細小的CPU時間段。
- 判別式模型和生成式模型:
- 概率質量函數,概率密度函數,累積分布函數:
- 極大似然估計:已知某個參數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以干脆就把這個參數作為估計的真實值
- 最小二乘法:二乘的英文是least?square,找一個(組)估計值,使得實際值與估計值之差的平方加總之后的值最小.求解方式是對參數求偏導,令偏導為0即可.樣本量小時速度快.
- 梯度下降法:負梯度方向是函數值下降最快的方向,每次更新值都等于原值加學習率(步長)乘損失函數的梯度.每次都試一個步長看會不會下降一定的程度,如果沒有的話就按比例減小步長.不斷應用該公式直到收斂,可以得到局部最小值.初始值的不同組合可以得到不同局部最小值.在最優點時會有震蕩.
- 牛頓法:牛頓法是二次收斂,因此收斂速度快.從幾何上看是每次用一個二次曲面來擬合當前所處位置的局部曲面,而梯度下降法是用一個平面來擬合.紅色的是牛頓法的迭代路徑,綠色的是梯度下降法的迭代路徑.牛頓法起始點不能離極小點太遠,否則很可能不會擬合.
- 擬牛頓法:用一個n階正定矩陣Gk=G(x(k))來近似代替黑塞矩陣的逆矩陣就是擬牛頓法的基本思想.在牛頓法中黑塞矩陣滿足的條件如下:,令,則有,稱為擬牛頓條件.根據選擇Gk方法的不同有多種具體實現方法.
?BFGS算法:?最流行的擬牛頓算法.考慮用Bk逼近黑塞矩陣,此時相應的擬牛頓條件是,假設每一步,則Pk和Qk滿足,,類似得到迭代公式.
- 先驗概率和后驗概率:
- 偏差,方差,噪聲:
- 對偶原理:一個優化問題可以從主問題和對偶問題兩個方面考慮.在推導對偶問題時,通過將拉格朗日函數對x求導并使導數為0來獲得對偶函數.對偶函數給出了主問題最優解的下界,因此對偶問題一般是凸問題,那么只需求解對偶函數的最優解就可以了.
- KKT條件:通常我們要求解的最優化條件有如下三種:
- 性能度量:
- 損失函數和風險函數:
- 經驗風險最小化和結構風險最小化:
- 過擬合是指學習時選擇的模型所包含的參數過多,以致于對已知數據預測得很好,但對未知數據預測很差的現象.模型選擇旨在避免過擬合并提高模型的預測能力.
- 正則化是模型選擇的典型方法.正則化項一般是模型復雜度的單調遞增函數,比如模型參數向量的范數.
- 交叉驗證是另一常用的模型選擇方法,可分為簡單交叉驗證,K折交叉驗證,留一交叉驗證等.
感知機
- 感知機是二類分類的線性模型,屬于判別模型.感知機學習旨在求出將訓練數據進行線性劃分的分離超平面.是神經網絡和支持向量機的基礎.
- 模型:,w叫作權值向量,b叫做偏置,sign是符號函數.
?
- 感知機的幾何解釋:wx+b對應于特征空間中的一個分離超平面S,其中w是S的法向量,b是S的截距.S將特征空間劃分為兩個部分,位于兩個部分的點分別被分為正負兩類.
- 策略:假設訓練數據集是線性可分的,感知機的損失函數是誤分類點到超平面S的總距離.因為誤分類點到超平面S的距離是,且對于誤分類的數據來說,總有成立,因此不考慮1/||w||,就得到感知機的損失函數:,其中M是誤分類點的集合.感知機學習的策略就是選取使損失函數最小的模型參數.
-
算法:感知機的最優化方法采用隨機梯度下降法.首先任意選取一個超平面w0,b0,然后不斷地極小化目標函數.在極小化過程中一次隨機選取一個誤分類點更新w,b,直到損失函數為0.,其中η表示步長.該算法的直觀解釋是:當一個點被誤分類,就調整w,b使分離超平面向該誤分類點接近.感知機的解可以不同.
-
對偶形式:假設原始形式中的w0和b0均為0,設逐步修改w和b共n次,令a=nη,最后學習到的w,b可以表示為.那么對偶算法就變為設初始a和b均為0,每次選取數據更新a和b直至沒有誤分類點為止.對偶形式的意義在于可以將訓練集中實例間的內積計算出來,存在Gram矩陣中,可以大大加快訓練速度.
k近鄰法
- k近鄰法根據其k個最近鄰的訓練實例的類別,通過多數表決等方式進行預測.k值的選擇,距離度量及分類決策規則是k近鄰法的三個基本要素.當k=1時稱為最近鄰算法.
- 模型:當訓練集,距離度量,k值以及分類決策規則確定后,特征空間已經根據這些要素被劃分為一些子空間,且子空間里每個點所屬的類也已被確定.
- 策略:
- 算法:根據給定的距離度量,在訓練集中找出與x最鄰近的k個點,根據分類規則決定x的類別y.
- kd樹:
樸素貝葉斯
- 樸素貝葉斯是基于貝葉斯定理和特征條件獨立假設的分類方法.首先學習輸入/輸出的聯合概率分布,然后基于此模型,對給定的輸入x,利用貝葉斯定理求出后驗概率最大的輸出y.屬于生成模型.
- 模型:首先學習先驗概率分布,然后學習條件概率分布.如果估計實際,需要指數級的計算,所以樸素貝葉斯法對條件概率分布作了條件獨立性的假設,上式變成.在分類時,通過學習到的模型計算后驗概率分布,由貝葉斯定理得到,將條件獨立性假設得到的等式代入,并且注意到分母都是相同的,所以得到樸素貝葉斯分類器:
- 樸素貝葉斯將實例分到后驗概率最大的類中,這等價于期望風險最小化.
- 算法:使用極大似然估計法估計相應的先驗概率和條件概率,計算條件獨立性假設下的實例各個取值的可能性,選取其中的最大值作為輸出.
- 用極大似然估計可能會出現所要估計的概率值為0的情況,在累乘后會影響后驗概率的計算結果,使分類產生偏差.可以采用貝葉斯估計,在隨機變量各個取值的頻數上賦予一個正數..Sj為j屬性可能取值數量,當λ=0時就是極大似然估計.常取λ=1,稱為拉普拉斯平滑.
- 如果是連續值的情況,可以假設連續變量服從高斯分布,然后用訓練數據估計參數.
?
決策樹
- 決策樹是一種基本的分類與回歸方法.它可以認為是if-then規則的集合,也可以認為是定義在特征空間與類空間上的條件概率分布.主要優點是模型具有可讀性,分類速度快.
- 模型:分類決策樹由結點和有向邊組成.結點分為內部結點(表示一個特征或屬性)和葉結點(表示一個類).決策樹的路徑具有互斥且完備的性質.
- 策略:決策樹學習本質上是從訓練數據集中歸納出一組分類規則.我們需要的是一個與訓練數據矛盾較小,同時具有很好的泛化能力的決策樹.從所有可能的決策樹中選取最優決策樹是NP完全問題,所以現實中常采用啟發式方法近似求解.
- 算法:決策樹學習算法包含特征選擇,決策樹的生成與決策樹的剪枝過程.生成只考慮局部最優,剪枝則考慮全局最優.
- 特征選擇:如果利用一個特征進行分類的結果與隨機分類的結果沒有很大差別,則稱這個特征是沒有分類能力的.扔掉這樣的特征對決策樹學習的精度影響不大.
?
- 決策樹的生成:
- 決策樹的剪枝:
- CART算法:
分類樹的生成:從根結點開始,遞歸進行以下操作:設結點的訓練數據集為D,對每個特征A和其可能取的每個值a,計算A=a時的基尼指數,選擇基尼指數最小的特征及其對應的切分點作為最優特征與最優切分點,生成兩個子結點,直至滿足停止條件.停止條件一般是結點中的樣本個數小于閾值,或樣本集的基尼指數小于閾值,或沒有更多特征.
Tt表示以t為根結點的子樹,|Tt|是Tt的葉結點個數.可以證明當時,Tt與t有相同的損失函數值,且t的結點少,因此t比Tt更可取,對Tt進行剪枝.自下而上地對各內部結點t計算,并令a=min(g(t)),自上而下地訪問內部節點t,如果有g(t)=a,進行剪枝,并對t以多數表決法決定其類,得到子樹T,如此循環地生成一串子樹序列,直到新生成的T是由根結點單獨構成的樹為止.利用交叉驗證法在子樹序列中選取最優子樹.
- 如果是連續值的情況,一般用二分法作為結點來劃分.
logistic回歸和最大熵模型
- 邏輯斯諦分布:分布函數f(x)以點(μ,1/2)為中心對稱,γ的值越小,曲線在中心附近增長得越快.
- 邏輯斯諦回歸模型:對于給定的輸入x,根據和計算出兩個條件概率值的大小,將x分到概率值較大的那一類.將偏置b加入到權值向量w中,并在x的最后添加常數項1,得到和.如果某事件發生的概率是p,則該事件發生的幾率(此處幾率指該事件發生概率與不發生概率之比)是p/1-p,對數幾率是log(p/1-p),那么,也就是說在邏輯斯諦回歸模型中,輸出Y=1的對數幾率是輸入x的線性函數,線性函數值越接近正無窮,概率值就越接近1,反之則越接近0.
- 似然估計:給定x的情況下參數θ是真實參數的可能性.
- 模型參數估計:對于給定的二分類訓練數據集,對數似然函數為,也就是損失函數.其中P(Y=1|x)=π(x),對L(w)求極大值,就可以得到w的估計值.問題變成了以對數似然函數為目標函數的最優化問題.
-
多項邏輯斯諦回歸:?當問題是多分類問題時,可以作如下推廣:設Y有K類可能取值,,,實際上就是one-vs-all的思想,將其他所有類當作一個類,問題轉換為二分類問題.
-
最大熵原理:學習概率模型時,在所有可能的概率模型中,熵最大的模型是最好的模型.直觀地,最大熵原理認為模型首先要滿足已有的事實,即約束條件.在沒有更多信息的情況下,那些不確定的部分都是"等可能的".
- 最大熵模型:給定訓練數據集,可以確定聯合分布P(X,Y)的經驗分布和邊緣分布P(X)的經驗分布,其中v表示頻數,N表示樣本容量.用特征函數f(x,y)=1描述x與y滿足某一事實,可以得到特征函數關于P(X,Y)的經驗分布的期望值和關于模型P(Y|X)與P(X)的經驗分布的期望值,假設兩者相等,就得到了約束條件.定義在條件概率分布P(Y|X)上的條件熵為,則條件熵最大的模型稱為最大熵模型.
-
最大熵模型的學習就是求解最大熵模型的過程.等價于約束最優化問題,將求最大值問題改為等價的求最小值問題.引入拉格朗日乘子將原始問題轉換為無約束最優化的對偶問題.首先求解內部的極小化問題,即求L(P,W)對P(y|x)的偏導數,并令偏導數等于0,解得.可以證明對偶函數等價于對數似然函數,那么對偶函數極大化等價于最大熵模型的極大似然估計.之后可以用最優化算法求解得到w.
-
最大熵模型與邏輯斯諦回歸模型有類似的形式,它們又稱為對數線性模型.模型學習就是在給定的訓練數據條件下對模型進行極大似然估計或正則化的極大似然估計.
- 算法:似然函數是光滑的凸函數,因此多種最優化方法都適用.
支持向量機
- 模型:支持向量機(SVM)是一種二類分類模型.它的基本模型是定義在特征空間上的間隔最大的線性分類器.支持向量機還包括核技巧,使它成為實質上的非線性分類器.分離超平面,分類決策函數.
- 策略:間隔最大化,可形式化為一個求解凸二次規劃的問題,也等價于正則化的合頁損失函數的最小化問題.
- 當訓練數據線性可分時,通過硬間隔最大化,學習出線性可分支持向量機.當訓練數據近似線性可分時,通過軟間隔最大化,學習出線性支持向量機.當訓練數據線性不可分時,通過使用核技巧及軟間隔最大化,學習非線性支持向量機.
- 核技巧:當輸入空間為歐式空間或離散集合,特征空間為希爾伯特空間時,核函數表示將輸入從輸入空間映射到特征空間得到的特征向量之間的內積.通過核函數學習非線性支持向量機等價于在高維的特征空間中學習線性支持向量機.這樣的方法稱為核技巧.
- 考慮一個二類分類問題,假設輸入空間與特征空間為兩個不同的空間,輸入空間為歐氏空間或離散集合,特征空間為歐氏空間或希爾伯特空間.支持向量機都將輸入映射為特征向量,所以支持向量機的學習是在特征空間進行的.
- 支持向量機的最優化問題一般通過對偶問題化為凸二次規劃問題求解,具體步驟是將等式約束條件代入優化目標,通過求偏導求得優化目標在不等式約束條件下的極值.
- 線性可分支持向量機:
幾何間隔:一般地,當樣本點被超平面正確分類時,點x與超平面的距離是,其中||w||是w的l2范數.這就是幾何間隔的定義.定義超平面關于訓練數據集T的幾何間隔為超平面關于T中所有樣本點的幾何間隔之最小值.可知,當||w||=1時幾何間隔和函數間隔相等.
硬間隔最大化:對線性可分的訓練集而言,這里的間隔最大化又稱為硬間隔最大化.直觀解釋是對訓練集找到幾何間隔最大的超平面意味著以充分大的確信度對訓練數據進行分類.求最大間隔分離超平面即約束最優化問題:,將幾何間隔用函數間隔表示,并且注意到函數間隔的取值并不影響最優化問題的解,不妨令函數間隔=1,并讓最大化1/||w||等價為最小化||w||^2/2,問題變為凸二次規劃問題.
支持向量和間隔邊界:與分離超平面距離最近的樣本點的實例稱為支持向量.支持向量是使最優化問題中的約束條件等號成立的點.因此對y=+1的正例點和y=-1的負例點,支持向量分別在超平面H1:wx+b=+1和H2:wx+b=-1.H1和H2平行,兩者之間形成一條長帶,長帶的寬度稱為間隔,H1和H2稱為間隔邊界.在決定分離超平面時只有支持向量起作用,所以支持向量機是由很少的"重要的"訓練樣本確定的.由對偶問題同樣可以得到支持向量一定在間隔邊界上.
對偶算法:?引進拉格朗日乘子,定義拉格朗日函數,根據拉格朗日對偶性,原始問題的對偶問題是極大極小問題:.先求對w,b的極小值.將L(w,b,a)分別對w,b求偏導數并令其等于0,得,代入拉格朗日函數得
,這就是極小值.接下來對極小值求對a的極大,即是對偶問題.將求極大轉換為求極小.由KKT條件成立得到,其中j為使aj*>0的下標之一.所以問題就變為求對偶問題的解a*,再求得原始問題的解w*,b*,從而得分離超平面及分類決策函數可以看出w*和b*都只依賴訓練數據中ai*>0的樣本點(xi,yi),這些實例點xi被稱為支持向量.
- 線性支持向量機:
軟間隔最大化:學習問題變成如下凸二次規劃問題:,可以證明w的解是唯一的,但b的解存在一個區間.線性支持向量機包含線性可分支持向量機,因此適用性更廣.
對偶算法:?原始問題的對偶問題是,構造拉格朗日函數,先求對w,b,ξ的極小值,分別求偏導并令導數為0,得,代入原函數,再對極小值求a的極大值,得到,利用后三條約束消去μ,再將求極大轉換為求極小,得到對偶問題.由KKT條件成立可以得到,j是滿足0<aj*<C的下標之一.問題就變為選擇懲罰參數C>0,求得對偶問題(凸二次規劃問題)的最優解a*,代入計算w*和b*,求得分離超平面和分類決策函數.因為b的解并不唯一,所以實際計算b*時可以取所有樣本點上的平均值.
支持向量:在線性不可分的情況下,將對應與ai*>0的樣本點(xi,yi)的實例點xi稱為支持向量.軟間隔的支持向量或者在間隔邊界上,或者在間隔邊界與分類超平面之間,或者再分離超平面誤分一側.
合頁損失函數:可以認為是0-1損失函數的上界,而線性支持向量機可以認為是優化合頁損失函數構成的目標函數.
- 非線性支持向量機:
- 常用核函數:
高斯核函數(Gaussian?krenel?function):,對應的支持向量機是高斯徑向基函數(RBF)分類器.分類決策函數為.
字符串核函數(string kernel function):?核函數不僅可以定義在歐氏空間上,還可以定義在離散數據的集合上.字符串核函數給出了字符串中長度等于n的所有子串組成的特征向量的余弦相似度.
- 序列最小最優化(SMO)算法:
提升方法
- 提升(boosting)是一種常用的統計學習方法,是集成學習的一種.它通過改變訓練樣本的權重(概率分布),學習多個弱分類器(基本分類器),并將這些分類器線性組合來構成一個強分類器提高分類的性能.
- AdaBoost:
- 前向分步算法:考慮加法模型,其中b(x,γm)為基函數,γm為基函數的參數,βm為基函數的系數.在給定損失函數L(y,f(x))的條件下,學習加法模型就是求解損失函數極小化問題前向分步算法求解的想法是:從前往后,每一步只學習一個基函數及其系數,優化,得到參數βm和γm,更新,逐步逼近優化目標.最終得到加法模型.
- 提升樹:
二類分類問題:只需將AdaBoost算法中的基本分類器限制為二類分類數即可.
回歸問題:如果將輸入空間劃分為J個互不相交的區域,并且在每個區域上確定輸出的常量Cj,那么樹可表示為,其中.提升樹采用前向分步算法:.當采用平方誤差損失函數時,損失變為,其中r是當前模型擬合數據的殘差.每一步都只需擬合殘差學習一個回歸樹即可.
梯度提升樹(GBDT):?利用最速下降法的近似方法來實現每一步的優化,關鍵在于用損失函數的負梯度在當前模型的值作為回歸問題中提升樹算法中的殘差的近似值,每一步以此來估計回歸樹葉結點區域以擬合殘差的近似值,并利用線性搜索估計葉結點區域的值使損失函數最小化,然后更新回歸樹即可.
- AdaBoost產生的基礎學習器有好有壞,因此加入權重.提升樹產生的基礎學習器是一個不斷減少殘差的過程,并不是一個單獨的分類器,因此一般不加權重.
- XGBoost:相比傳統GBDT有以下優點:
EM算法
- EM算法是一種迭代算法,用于含有隱變量的概率模型參數的極大似然估計.每次迭代由兩步組成:E步,求期望(expectation),M步,求極大值(maximization),直至收斂為止.
- 隱變量:不能被直接觀察到,但是對系統的狀態和能觀察到的輸出存在影響的一種東西.
- 算法:
- EM算法是通過不斷求解下界的極大化逼近求解對數似然函數極大化的算法.可以用于生成模型的非監督學習.生成模型由聯合概率分布P(X,Y)表示.X為觀測數據,Y為未觀測數據.
- 高斯混合模型(GMM):高斯混合模型是指具有如下形式的概率分布模型:.其中,稱為第k個分模型.
-
高斯混合模型參數估計的EM算法:
?取參數的初始值開始迭代
E步:計算分模型k對觀測數據yj的響應度
?
M步:計算新一輪迭代的模型參數
?重復2和3直到對數似然函數收斂.
隱馬爾可夫模型(HMM)
- 隱馬爾可夫模型是關于時序的概率模型,描述由一個隱藏的馬爾可夫鏈隨機生成不可觀測的狀態序列,再由各個狀態生成一個觀測而產生觀測隨機序列的過程.
- 設Q是所有可能的狀態的集合,V是所有可能的觀測的集合,I是長度為T的狀態序列,O是對應的觀測序列,A是狀態轉移概率矩陣,aij表示在時刻t處于狀態qi的條件下在時刻t+1轉移到狀態qj的概率.B是觀測概率矩陣,bij是在時刻t處于狀態qj的條件下生成觀測vk的概率.π是初始狀態概率向量,πi表示時刻t=1處于狀態qi的概率.隱馬爾可夫模型由初始狀態概率向量π,狀態轉移概率矩陣A以及觀測概率矩陣B確定.π和A決定即隱藏的馬爾可夫鏈,生成不可觀測的狀態序列.B決定如何從狀態生成觀測,與狀態序列綜合確定了觀測序列.因此,隱馬爾可夫模型可以用三元符號表示.
-
隱馬爾可夫模型作了兩個基本假設:
- 隱馬爾可夫模型有三個基本問題,即概率計算問題,學習問題,預測問題.
- 概率計算問題:給定模型和觀測序列,計算在模型λ下觀測序列O出現的概率P(O|λ).
后向算法:定義在時刻t狀態為qi的條件下,從t+1到T的部分觀測序列為oi+1~oT的概率為后向概率,記作.初始化后向概率,遞推,對t=T-1~1,,得到.
-
學習算法:已知觀測序列,估計模型的參數,使得在該模型下觀測序列概率P(O|λ)最大.根據訓練數據是否包括觀察序列對應的狀態序列分別由監督學習與非監督學習實現.
非監督學習(Baum-Welch算法):將觀測序列數據看作觀測數據O,狀態序列數據看作不可觀測的隱數據I.首先確定完全數據的對數似然函數.求Q函數,用拉格朗日乘子法極大化Q函數求模型參數,,.
-
預測問題:也稱為解碼問題.已知模型和觀測序列,求對給定觀測序列條件概率P(I|O)最大的狀態序列.
近似算法:?在每個時刻t選擇在該時刻最有可能出現的狀態it*,從而得到一個狀態序列作為預測的結果.優點是計算簡單,缺點是不能保證狀態序列整體是最有可能的狀態序列.
統計學習方法總結
?
?
-------------------------------------------------?以下內容并非出自《統計學習方法》-------------------------------------------------
?
回到頂部神經網絡
- 神經元(感知器)接收到來自n個其他神經元傳遞過來的輸入信號,這些輸入信號通過帶權重的連接進行傳遞,神經元將接收到的總輸入值與神經元的閾值進行比較,然后通過激活函數處理以產生神經元的輸出.把許多個這樣的神經元按一定的層次結構連接起來就得到了神經網絡.一般使用反向傳播(BP)算法來進行訓練.
- 反向傳播(BP)算法:
- 深度神經網絡(DNN):可以理解為有很多隱藏層的神經網絡.DNN內部分為輸入層(第一層),隱藏層,輸出層(最后一層).層與層之間是全連接的.
- 卷積神經網絡(CNN):一般用于圖像識別.通過卷積核和感受野的乘積形成卷積后的輸出.在每一個卷積層之后,通常會使用一個ReLU(修正線性單元)函數來把所有的負激活都變為零.在幾個卷積層之后也許會用一個池化層(采樣層)來輸出過濾器卷積計算的每個子區域中的最大數字或平均值.
- 循環神經網絡(RNN):如果訓練樣本輸入是連續序列,則DNN和CNN不好解決.RNN假設樣本是基于序列的,對應的輸入是樣本序列中的x(t),而模型在序列索引號t位置的隱藏狀態h(t)由x(t)和h(t-1)共同決定.在任意序列索引號t有對應的模型預測輸出o(t).也就是說,RNN是包含循環的網絡,允許信息的持久化.
?
- 長短期記憶網絡(LSTM):一種特殊的RNN,可以學習長期依賴信息.
K-Means
- K-Means是無監督的聚類算法.思想是對于給定的樣本集,按照樣本之間的距離大小將樣本集劃分為K個簇,讓簇內的點盡量緊密地連在一起,而讓簇間的距離盡量的大.
- 傳統算法:
- K-Means++:用于優化隨機初始化質心的方法
- Elkan K-Means:利用兩邊之和大于第三邊以及兩邊之差小于第三邊來減少距離的計算.不適用于特征稀疏的情況.
- Mini?Batch?K-Means:樣本量很大時,只用其中的一部分來做傳統的K-Means.一般多用幾次該算法,從不同的隨即采樣中選擇最優的聚類簇.
Bagging
- Bagging的弱學習器之間沒有boosting那樣的聯系,它的特點在于"隨機采樣",也就是有放回采樣.因此泛化能力很強.一般會隨機采集和訓練集樣本數一樣個數的樣本.假設有m個樣本,且采集m次,當m趨向無窮大時不被采集到的數據占1/e,也就是36.8%,稱為袋外數據,可以用來檢測模型的泛化能力.Bagging對于弱學習器沒有限制,一般采用決策樹和神經網絡.
- 算法:
- 隨機森林:使用CART決策樹作為弱學習器,然后每次不從n個樣本特征中選擇最優特征,而是從隨機選擇的nsub個樣本特征中來選擇.一般用交叉驗證來獲取合適的nsub值.
Apriori
- Apriori是常用的挖掘出數據關聯規則的算法,用于找出數據值中頻繁出現的數據集合.一般使用支持度或者支持度與置信度的組合作為評估標準.
- 支持度:幾個關聯的數據在數據集中出現的次數占總數據集的比重
- 置信度:一個數據出現后.另一個數據出現的概率
- Apriori算法的目標是找到最大的K項頻繁集.假設使用支持度來作為評估標準,首先搜索出候選1項集及對應的支持度,剪枝去掉低于支持度的1項集,得到頻繁1項集.然后對剩下的頻繁1項集進行連接,得到候選的頻繁2項集......以此類推,不斷迭代,直到無法找到頻繁k+1項集為止,對應的頻繁k項集的集合即為輸出結果.
降維方法
- 主成分分析(PCA):降維,不斷選擇與已有坐標軸正交且方差最大的坐標軸.
- 奇異值分解(SVD):矩陣分解,降維,推薦系統.??
- 線性判別分析(LDA)
引用
轉載于:https://www.cnblogs.com/ciao/articles/10888593.html
總結
以上是生活随笔為你收集整理的《统计学习方法》(李航)读书笔记(转)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 文件操作练习
- 下一篇: catia逆向建模步骤_catia与逆向