《统计学习方法》(李航)读书笔记(转)
《統(tǒng)計(jì)學(xué)習(xí)方法》(李航)讀書筆記(轉(zhuǎn))
http://www.cnblogs.com/limitlessun/p/8611103.html#_label4閱讀目錄
- 知識(shí)點(diǎn)
- 感知機(jī)
- k近鄰法
- 樸素貝葉斯
- 決策樹
- logistic回歸和最大熵模型
- 支持向量機(jī)
- 提升方法
- EM算法
- 隱馬爾可夫模型(HMM)
- 統(tǒng)計(jì)學(xué)習(xí)方法總結(jié)
- 神經(jīng)網(wǎng)絡(luò)
- K-Means
- Bagging
- Apriori
- 降維方法
- 引用
因?yàn)橐獪?zhǔn)備面試,本文以李航的《統(tǒng)計(jì)學(xué)習(xí)方法》為主,結(jié)合西瓜書等其他資料對(duì)機(jī)器學(xué)習(xí)知識(shí)做一個(gè)整理.
回到頂部知識(shí)點(diǎn)
- 進(jìn)程和線程:進(jìn)程和線程都是一個(gè)時(shí)間段的描述,是CPU工作時(shí)間段的描述,不過是顆粒大小不同.進(jìn)程就是包換上下文切換的程序執(zhí)行時(shí)間總和 = CPU加載上下文+CPU執(zhí)行+CPU保存上下文.線程是共享了進(jìn)程的上下文環(huán)境的更為細(xì)小的CPU時(shí)間段。
- 判別式模型和生成式模型:
- 概率質(zhì)量函數(shù),概率密度函數(shù),累積分布函數(shù):
- 極大似然估計(jì):已知某個(gè)參數(shù)能使這個(gè)樣本出現(xiàn)的概率最大,我們當(dāng)然不會(huì)再去選擇其他小概率的樣本,所以干脆就把這個(gè)參數(shù)作為估計(jì)的真實(shí)值
- 最小二乘法:二乘的英文是least?square,找一個(gè)(組)估計(jì)值,使得實(shí)際值與估計(jì)值之差的平方加總之后的值最小.求解方式是對(duì)參數(shù)求偏導(dǎo),令偏導(dǎo)為0即可.樣本量小時(shí)速度快.
- 梯度下降法:負(fù)梯度方向是函數(shù)值下降最快的方向,每次更新值都等于原值加學(xué)習(xí)率(步長(zhǎng))乘損失函數(shù)的梯度.每次都試一個(gè)步長(zhǎng)看會(huì)不會(huì)下降一定的程度,如果沒有的話就按比例減小步長(zhǎng).不斷應(yīng)用該公式直到收斂,可以得到局部最小值.初始值的不同組合可以得到不同局部最小值.在最優(yōu)點(diǎn)時(shí)會(huì)有震蕩.
- 牛頓法:牛頓法是二次收斂,因此收斂速度快.從幾何上看是每次用一個(gè)二次曲面來擬合當(dāng)前所處位置的局部曲面,而梯度下降法是用一個(gè)平面來擬合.紅色的是牛頓法的迭代路徑,綠色的是梯度下降法的迭代路徑.牛頓法起始點(diǎn)不能離極小點(diǎn)太遠(yuǎn),否則很可能不會(huì)擬合.
- 擬牛頓法:用一個(gè)n階正定矩陣Gk=G(x(k))來近似代替黑塞矩陣的逆矩陣就是擬牛頓法的基本思想.在牛頓法中黑塞矩陣滿足的條件如下:,令,則有,稱為擬牛頓條件.根據(jù)選擇Gk方法的不同有多種具體實(shí)現(xiàn)方法.
?BFGS算法:?最流行的擬牛頓算法.考慮用Bk逼近黑塞矩陣,此時(shí)相應(yīng)的擬牛頓條件是,假設(shè)每一步,則Pk和Qk滿足,,類似得到迭代公式.
- 先驗(yàn)概率和后驗(yàn)概率:
- 偏差,方差,噪聲:
- 對(duì)偶原理:一個(gè)優(yōu)化問題可以從主問題和對(duì)偶問題兩個(gè)方面考慮.在推導(dǎo)對(duì)偶問題時(shí),通過將拉格朗日函數(shù)對(duì)x求導(dǎo)并使導(dǎo)數(shù)為0來獲得對(duì)偶函數(shù).對(duì)偶函數(shù)給出了主問題最優(yōu)解的下界,因此對(duì)偶問題一般是凸問題,那么只需求解對(duì)偶函數(shù)的最優(yōu)解就可以了.
- KKT條件:通常我們要求解的最優(yōu)化條件有如下三種:
- 性能度量:
- 損失函數(shù)和風(fēng)險(xiǎn)函數(shù):
- 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化和結(jié)構(gòu)風(fēng)險(xiǎn)最小化:
- 過擬合是指學(xué)習(xí)時(shí)選擇的模型所包含的參數(shù)過多,以致于對(duì)已知數(shù)據(jù)預(yù)測(cè)得很好,但對(duì)未知數(shù)據(jù)預(yù)測(cè)很差的現(xiàn)象.模型選擇旨在避免過擬合并提高模型的預(yù)測(cè)能力.
- 正則化是模型選擇的典型方法.正則化項(xiàng)一般是模型復(fù)雜度的單調(diào)遞增函數(shù),比如模型參數(shù)向量的范數(shù).
- 交叉驗(yàn)證是另一常用的模型選擇方法,可分為簡(jiǎn)單交叉驗(yàn)證,K折交叉驗(yàn)證,留一交叉驗(yàn)證等.
感知機(jī)
- 感知機(jī)是二類分類的線性模型,屬于判別模型.感知機(jī)學(xué)習(xí)旨在求出將訓(xùn)練數(shù)據(jù)進(jìn)行線性劃分的分離超平面.是神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的基礎(chǔ).
- 模型:,w叫作權(quán)值向量,b叫做偏置,sign是符號(hào)函數(shù).
?
- 感知機(jī)的幾何解釋:wx+b對(duì)應(yīng)于特征空間中的一個(gè)分離超平面S,其中w是S的法向量,b是S的截距.S將特征空間劃分為兩個(gè)部分,位于兩個(gè)部分的點(diǎn)分別被分為正負(fù)兩類.
- 策略:假設(shè)訓(xùn)練數(shù)據(jù)集是線性可分的,感知機(jī)的損失函數(shù)是誤分類點(diǎn)到超平面S的總距離.因?yàn)檎`分類點(diǎn)到超平面S的距離是,且對(duì)于誤分類的數(shù)據(jù)來說,總有成立,因此不考慮1/||w||,就得到感知機(jī)的損失函數(shù):,其中M是誤分類點(diǎn)的集合.感知機(jī)學(xué)習(xí)的策略就是選取使損失函數(shù)最小的模型參數(shù).
-
算法:感知機(jī)的最優(yōu)化方法采用隨機(jī)梯度下降法.首先任意選取一個(gè)超平面w0,b0,然后不斷地極小化目標(biāo)函數(shù).在極小化過程中一次隨機(jī)選取一個(gè)誤分類點(diǎn)更新w,b,直到損失函數(shù)為0.,其中η表示步長(zhǎng).該算法的直觀解釋是:當(dāng)一個(gè)點(diǎn)被誤分類,就調(diào)整w,b使分離超平面向該誤分類點(diǎn)接近.感知機(jī)的解可以不同.
-
對(duì)偶形式:假設(shè)原始形式中的w0和b0均為0,設(shè)逐步修改w和b共n次,令a=nη,最后學(xué)習(xí)到的w,b可以表示為.那么對(duì)偶算法就變?yōu)樵O(shè)初始a和b均為0,每次選取數(shù)據(jù)更新a和b直至沒有誤分類點(diǎn)為止.對(duì)偶形式的意義在于可以將訓(xùn)練集中實(shí)例間的內(nèi)積計(jì)算出來,存在Gram矩陣中,可以大大加快訓(xùn)練速度.
k近鄰法
- k近鄰法根據(jù)其k個(gè)最近鄰的訓(xùn)練實(shí)例的類別,通過多數(shù)表決等方式進(jìn)行預(yù)測(cè).k值的選擇,距離度量及分類決策規(guī)則是k近鄰法的三個(gè)基本要素.當(dāng)k=1時(shí)稱為最近鄰算法.
- 模型:當(dāng)訓(xùn)練集,距離度量,k值以及分類決策規(guī)則確定后,特征空間已經(jīng)根據(jù)這些要素被劃分為一些子空間,且子空間里每個(gè)點(diǎn)所屬的類也已被確定.
- 策略:
- 算法:根據(jù)給定的距離度量,在訓(xùn)練集中找出與x最鄰近的k個(gè)點(diǎn),根據(jù)分類規(guī)則決定x的類別y.
- kd樹:
樸素貝葉斯
- 樸素貝葉斯是基于貝葉斯定理和特征條件獨(dú)立假設(shè)的分類方法.首先學(xué)習(xí)輸入/輸出的聯(lián)合概率分布,然后基于此模型,對(duì)給定的輸入x,利用貝葉斯定理求出后驗(yàn)概率最大的輸出y.屬于生成模型.
- 模型:首先學(xué)習(xí)先驗(yàn)概率分布,然后學(xué)習(xí)條件概率分布.如果估計(jì)實(shí)際,需要指數(shù)級(jí)的計(jì)算,所以樸素貝葉斯法對(duì)條件概率分布作了條件獨(dú)立性的假設(shè),上式變成.在分類時(shí),通過學(xué)習(xí)到的模型計(jì)算后驗(yàn)概率分布,由貝葉斯定理得到,將條件獨(dú)立性假設(shè)得到的等式代入,并且注意到分母都是相同的,所以得到樸素貝葉斯分類器:
- 樸素貝葉斯將實(shí)例分到后驗(yàn)概率最大的類中,這等價(jià)于期望風(fēng)險(xiǎn)最小化.
- 算法:使用極大似然估計(jì)法估計(jì)相應(yīng)的先驗(yàn)概率和條件概率,計(jì)算條件獨(dú)立性假設(shè)下的實(shí)例各個(gè)取值的可能性,選取其中的最大值作為輸出.
- 用極大似然估計(jì)可能會(huì)出現(xiàn)所要估計(jì)的概率值為0的情況,在累乘后會(huì)影響后驗(yàn)概率的計(jì)算結(jié)果,使分類產(chǎn)生偏差.可以采用貝葉斯估計(jì),在隨機(jī)變量各個(gè)取值的頻數(shù)上賦予一個(gè)正數(shù)..Sj為j屬性可能取值數(shù)量,當(dāng)λ=0時(shí)就是極大似然估計(jì).常取λ=1,稱為拉普拉斯平滑.
- 如果是連續(xù)值的情況,可以假設(shè)連續(xù)變量服從高斯分布,然后用訓(xùn)練數(shù)據(jù)估計(jì)參數(shù).
?
決策樹
- 決策樹是一種基本的分類與回歸方法.它可以認(rèn)為是if-then規(guī)則的集合,也可以認(rèn)為是定義在特征空間與類空間上的條件概率分布.主要優(yōu)點(diǎn)是模型具有可讀性,分類速度快.
- 模型:分類決策樹由結(jié)點(diǎn)和有向邊組成.結(jié)點(diǎn)分為內(nèi)部結(jié)點(diǎn)(表示一個(gè)特征或?qū)傩?和葉結(jié)點(diǎn)(表示一個(gè)類).決策樹的路徑具有互斥且完備的性質(zhì).
- 策略:決策樹學(xué)習(xí)本質(zhì)上是從訓(xùn)練數(shù)據(jù)集中歸納出一組分類規(guī)則.我們需要的是一個(gè)與訓(xùn)練數(shù)據(jù)矛盾較小,同時(shí)具有很好的泛化能力的決策樹.從所有可能的決策樹中選取最優(yōu)決策樹是NP完全問題,所以現(xiàn)實(shí)中常采用啟發(fā)式方法近似求解.
- 算法:決策樹學(xué)習(xí)算法包含特征選擇,決策樹的生成與決策樹的剪枝過程.生成只考慮局部最優(yōu),剪枝則考慮全局最優(yōu).
- 特征選擇:如果利用一個(gè)特征進(jìn)行分類的結(jié)果與隨機(jī)分類的結(jié)果沒有很大差別,則稱這個(gè)特征是沒有分類能力的.扔掉這樣的特征對(duì)決策樹學(xué)習(xí)的精度影響不大.
?
- 決策樹的生成:
- 決策樹的剪枝:
- CART算法:
分類樹的生成:從根結(jié)點(diǎn)開始,遞歸進(jìn)行以下操作:設(shè)結(jié)點(diǎn)的訓(xùn)練數(shù)據(jù)集為D,對(duì)每個(gè)特征A和其可能取的每個(gè)值a,計(jì)算A=a時(shí)的基尼指數(shù),選擇基尼指數(shù)最小的特征及其對(duì)應(yīng)的切分點(diǎn)作為最優(yōu)特征與最優(yōu)切分點(diǎn),生成兩個(gè)子結(jié)點(diǎn),直至滿足停止條件.停止條件一般是結(jié)點(diǎn)中的樣本個(gè)數(shù)小于閾值,或樣本集的基尼指數(shù)小于閾值,或沒有更多特征.
Tt表示以t為根結(jié)點(diǎn)的子樹,|Tt|是Tt的葉結(jié)點(diǎn)個(gè)數(shù).可以證明當(dāng)時(shí),Tt與t有相同的損失函數(shù)值,且t的結(jié)點(diǎn)少,因此t比Tt更可取,對(duì)Tt進(jìn)行剪枝.自下而上地對(duì)各內(nèi)部結(jié)點(diǎn)t計(jì)算,并令a=min(g(t)),自上而下地訪問內(nèi)部節(jié)點(diǎn)t,如果有g(shù)(t)=a,進(jìn)行剪枝,并對(duì)t以多數(shù)表決法決定其類,得到子樹T,如此循環(huán)地生成一串子樹序列,直到新生成的T是由根結(jié)點(diǎn)單獨(dú)構(gòu)成的樹為止.利用交叉驗(yàn)證法在子樹序列中選取最優(yōu)子樹.
- 如果是連續(xù)值的情況,一般用二分法作為結(jié)點(diǎn)來劃分.
logistic回歸和最大熵模型
- 邏輯斯諦分布:分布函數(shù)f(x)以點(diǎn)(μ,1/2)為中心對(duì)稱,γ的值越小,曲線在中心附近增長(zhǎng)得越快.
- 邏輯斯諦回歸模型:對(duì)于給定的輸入x,根據(jù)和計(jì)算出兩個(gè)條件概率值的大小,將x分到概率值較大的那一類.將偏置b加入到權(quán)值向量w中,并在x的最后添加常數(shù)項(xiàng)1,得到和.如果某事件發(fā)生的概率是p,則該事件發(fā)生的幾率(此處幾率指該事件發(fā)生概率與不發(fā)生概率之比)是p/1-p,對(duì)數(shù)幾率是log(p/1-p),那么,也就是說在邏輯斯諦回歸模型中,輸出Y=1的對(duì)數(shù)幾率是輸入x的線性函數(shù),線性函數(shù)值越接近正無窮,概率值就越接近1,反之則越接近0.
- 似然估計(jì):給定x的情況下參數(shù)θ是真實(shí)參數(shù)的可能性.
- 模型參數(shù)估計(jì):對(duì)于給定的二分類訓(xùn)練數(shù)據(jù)集,對(duì)數(shù)似然函數(shù)為,也就是損失函數(shù).其中P(Y=1|x)=π(x),對(duì)L(w)求極大值,就可以得到w的估計(jì)值.問題變成了以對(duì)數(shù)似然函數(shù)為目標(biāo)函數(shù)的最優(yōu)化問題.
-
多項(xiàng)邏輯斯諦回歸:?當(dāng)問題是多分類問題時(shí),可以作如下推廣:設(shè)Y有K類可能取值,,,實(shí)際上就是one-vs-all的思想,將其他所有類當(dāng)作一個(gè)類,問題轉(zhuǎn)換為二分類問題.
-
最大熵原理:學(xué)習(xí)概率模型時(shí),在所有可能的概率模型中,熵最大的模型是最好的模型.直觀地,最大熵原理認(rèn)為模型首先要滿足已有的事實(shí),即約束條件.在沒有更多信息的情況下,那些不確定的部分都是"等可能的".
- 最大熵模型:給定訓(xùn)練數(shù)據(jù)集,可以確定聯(lián)合分布P(X,Y)的經(jīng)驗(yàn)分布和邊緣分布P(X)的經(jīng)驗(yàn)分布,其中v表示頻數(shù),N表示樣本容量.用特征函數(shù)f(x,y)=1描述x與y滿足某一事實(shí),可以得到特征函數(shù)關(guān)于P(X,Y)的經(jīng)驗(yàn)分布的期望值和關(guān)于模型P(Y|X)與P(X)的經(jīng)驗(yàn)分布的期望值,假設(shè)兩者相等,就得到了約束條件.定義在條件概率分布P(Y|X)上的條件熵為,則條件熵最大的模型稱為最大熵模型.
-
最大熵模型的學(xué)習(xí)就是求解最大熵模型的過程.等價(jià)于約束最優(yōu)化問題,將求最大值問題改為等價(jià)的求最小值問題.引入拉格朗日乘子將原始問題轉(zhuǎn)換為無約束最優(yōu)化的對(duì)偶問題.首先求解內(nèi)部的極小化問題,即求L(P,W)對(duì)P(y|x)的偏導(dǎo)數(shù),并令偏導(dǎo)數(shù)等于0,解得.可以證明對(duì)偶函數(shù)等價(jià)于對(duì)數(shù)似然函數(shù),那么對(duì)偶函數(shù)極大化等價(jià)于最大熵模型的極大似然估計(jì).之后可以用最優(yōu)化算法求解得到w.
-
最大熵模型與邏輯斯諦回歸模型有類似的形式,它們又稱為對(duì)數(shù)線性模型.模型學(xué)習(xí)就是在給定的訓(xùn)練數(shù)據(jù)條件下對(duì)模型進(jìn)行極大似然估計(jì)或正則化的極大似然估計(jì).
- 算法:似然函數(shù)是光滑的凸函數(shù),因此多種最優(yōu)化方法都適用.
支持向量機(jī)
- 模型:支持向量機(jī)(SVM)是一種二類分類模型.它的基本模型是定義在特征空間上的間隔最大的線性分類器.支持向量機(jī)還包括核技巧,使它成為實(shí)質(zhì)上的非線性分類器.分離超平面,分類決策函數(shù).
- 策略:間隔最大化,可形式化為一個(gè)求解凸二次規(guī)劃的問題,也等價(jià)于正則化的合頁損失函數(shù)的最小化問題.
- 當(dāng)訓(xùn)練數(shù)據(jù)線性可分時(shí),通過硬間隔最大化,學(xué)習(xí)出線性可分支持向量機(jī).當(dāng)訓(xùn)練數(shù)據(jù)近似線性可分時(shí),通過軟間隔最大化,學(xué)習(xí)出線性支持向量機(jī).當(dāng)訓(xùn)練數(shù)據(jù)線性不可分時(shí),通過使用核技巧及軟間隔最大化,學(xué)習(xí)非線性支持向量機(jī).
- 核技巧:當(dāng)輸入空間為歐式空間或離散集合,特征空間為希爾伯特空間時(shí),核函數(shù)表示將輸入從輸入空間映射到特征空間得到的特征向量之間的內(nèi)積.通過核函數(shù)學(xué)習(xí)非線性支持向量機(jī)等價(jià)于在高維的特征空間中學(xué)習(xí)線性支持向量機(jī).這樣的方法稱為核技巧.
- 考慮一個(gè)二類分類問題,假設(shè)輸入空間與特征空間為兩個(gè)不同的空間,輸入空間為歐氏空間或離散集合,特征空間為歐氏空間或希爾伯特空間.支持向量機(jī)都將輸入映射為特征向量,所以支持向量機(jī)的學(xué)習(xí)是在特征空間進(jìn)行的.
- 支持向量機(jī)的最優(yōu)化問題一般通過對(duì)偶問題化為凸二次規(guī)劃問題求解,具體步驟是將等式約束條件代入優(yōu)化目標(biāo),通過求偏導(dǎo)求得優(yōu)化目標(biāo)在不等式約束條件下的極值.
- 線性可分支持向量機(jī):
幾何間隔:一般地,當(dāng)樣本點(diǎn)被超平面正確分類時(shí),點(diǎn)x與超平面的距離是,其中||w||是w的l2范數(shù).這就是幾何間隔的定義.定義超平面關(guān)于訓(xùn)練數(shù)據(jù)集T的幾何間隔為超平面關(guān)于T中所有樣本點(diǎn)的幾何間隔之最小值.可知,當(dāng)||w||=1時(shí)幾何間隔和函數(shù)間隔相等.
硬間隔最大化:對(duì)線性可分的訓(xùn)練集而言,這里的間隔最大化又稱為硬間隔最大化.直觀解釋是對(duì)訓(xùn)練集找到幾何間隔最大的超平面意味著以充分大的確信度對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類.求最大間隔分離超平面即約束最優(yōu)化問題:,將幾何間隔用函數(shù)間隔表示,并且注意到函數(shù)間隔的取值并不影響最優(yōu)化問題的解,不妨令函數(shù)間隔=1,并讓最大化1/||w||等價(jià)為最小化||w||^2/2,問題變?yōu)?strong>凸二次規(guī)劃問題.
支持向量和間隔邊界:與分離超平面距離最近的樣本點(diǎn)的實(shí)例稱為支持向量.支持向量是使最優(yōu)化問題中的約束條件等號(hào)成立的點(diǎn).因此對(duì)y=+1的正例點(diǎn)和y=-1的負(fù)例點(diǎn),支持向量分別在超平面H1:wx+b=+1和H2:wx+b=-1.H1和H2平行,兩者之間形成一條長(zhǎng)帶,長(zhǎng)帶的寬度稱為間隔,H1和H2稱為間隔邊界.在決定分離超平面時(shí)只有支持向量起作用,所以支持向量機(jī)是由很少的"重要的"訓(xùn)練樣本確定的.由對(duì)偶問題同樣可以得到支持向量一定在間隔邊界上.
對(duì)偶算法:?引進(jìn)拉格朗日乘子,定義拉格朗日函數(shù),根據(jù)拉格朗日對(duì)偶性,原始問題的對(duì)偶問題是極大極小問題:.先求對(duì)w,b的極小值.將L(w,b,a)分別對(duì)w,b求偏導(dǎo)數(shù)并令其等于0,得,代入拉格朗日函數(shù)得
,這就是極小值.接下來對(duì)極小值求對(duì)a的極大,即是對(duì)偶問題.將求極大轉(zhuǎn)換為求極小.由KKT條件成立得到,其中j為使aj*>0的下標(biāo)之一.所以問題就變?yōu)榍髮?duì)偶問題的解a*,再求得原始問題的解w*,b*,從而得分離超平面及分類決策函數(shù)可以看出w*和b*都只依賴訓(xùn)練數(shù)據(jù)中ai*>0的樣本點(diǎn)(xi,yi),這些實(shí)例點(diǎn)xi被稱為支持向量.
- 線性支持向量機(jī):
軟間隔最大化:學(xué)習(xí)問題變成如下凸二次規(guī)劃問題:,可以證明w的解是唯一的,但b的解存在一個(gè)區(qū)間.線性支持向量機(jī)包含線性可分支持向量機(jī),因此適用性更廣.
對(duì)偶算法:?原始問題的對(duì)偶問題是,構(gòu)造拉格朗日函數(shù),先求對(duì)w,b,ξ的極小值,分別求偏導(dǎo)并令導(dǎo)數(shù)為0,得,代入原函數(shù),再對(duì)極小值求a的極大值,得到,利用后三條約束消去μ,再將求極大轉(zhuǎn)換為求極小,得到對(duì)偶問題.由KKT條件成立可以得到,j是滿足0<aj*<C的下標(biāo)之一.問題就變?yōu)檫x擇懲罰參數(shù)C>0,求得對(duì)偶問題(凸二次規(guī)劃問題)的最優(yōu)解a*,代入計(jì)算w*和b*,求得分離超平面和分類決策函數(shù).因?yàn)閎的解并不唯一,所以實(shí)際計(jì)算b*時(shí)可以取所有樣本點(diǎn)上的平均值.
支持向量:在線性不可分的情況下,將對(duì)應(yīng)與ai*>0的樣本點(diǎn)(xi,yi)的實(shí)例點(diǎn)xi稱為支持向量.軟間隔的支持向量或者在間隔邊界上,或者在間隔邊界與分類超平面之間,或者再分離超平面誤分一側(cè).
合頁損失函數(shù):可以認(rèn)為是0-1損失函數(shù)的上界,而線性支持向量機(jī)可以認(rèn)為是優(yōu)化合頁損失函數(shù)構(gòu)成的目標(biāo)函數(shù).
- 非線性支持向量機(jī):
- 常用核函數(shù):
高斯核函數(shù)(Gaussian?krenel?function):,對(duì)應(yīng)的支持向量機(jī)是高斯徑向基函數(shù)(RBF)分類器.分類決策函數(shù)為.
字符串核函數(shù)(string kernel function):?核函數(shù)不僅可以定義在歐氏空間上,還可以定義在離散數(shù)據(jù)的集合上.字符串核函數(shù)給出了字符串中長(zhǎng)度等于n的所有子串組成的特征向量的余弦相似度.
- 序列最小最優(yōu)化(SMO)算法:
提升方法
- 提升(boosting)是一種常用的統(tǒng)計(jì)學(xué)習(xí)方法,是集成學(xué)習(xí)的一種.它通過改變訓(xùn)練樣本的權(quán)重(概率分布),學(xué)習(xí)多個(gè)弱分類器(基本分類器),并將這些分類器線性組合來構(gòu)成一個(gè)強(qiáng)分類器提高分類的性能.
- AdaBoost:
- 前向分步算法:考慮加法模型,其中b(x,γm)為基函數(shù),γm為基函數(shù)的參數(shù),βm為基函數(shù)的系數(shù).在給定損失函數(shù)L(y,f(x))的條件下,學(xué)習(xí)加法模型就是求解損失函數(shù)極小化問題前向分步算法求解的想法是:從前往后,每一步只學(xué)習(xí)一個(gè)基函數(shù)及其系數(shù),優(yōu)化,得到參數(shù)βm和γm,更新,逐步逼近優(yōu)化目標(biāo).最終得到加法模型.
- 提升樹:
二類分類問題:只需將AdaBoost算法中的基本分類器限制為二類分類數(shù)即可.
回歸問題:如果將輸入空間劃分為J個(gè)互不相交的區(qū)域,并且在每個(gè)區(qū)域上確定輸出的常量Cj,那么樹可表示為,其中.提升樹采用前向分步算法:.當(dāng)采用平方誤差損失函數(shù)時(shí),損失變?yōu)?其中r是當(dāng)前模型擬合數(shù)據(jù)的殘差.每一步都只需擬合殘差學(xué)習(xí)一個(gè)回歸樹即可.
梯度提升樹(GBDT):?利用最速下降法的近似方法來實(shí)現(xiàn)每一步的優(yōu)化,關(guān)鍵在于用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值作為回歸問題中提升樹算法中的殘差的近似值,每一步以此來估計(jì)回歸樹葉結(jié)點(diǎn)區(qū)域以擬合殘差的近似值,并利用線性搜索估計(jì)葉結(jié)點(diǎn)區(qū)域的值使損失函數(shù)最小化,然后更新回歸樹即可.
- AdaBoost產(chǎn)生的基礎(chǔ)學(xué)習(xí)器有好有壞,因此加入權(quán)重.提升樹產(chǎn)生的基礎(chǔ)學(xué)習(xí)器是一個(gè)不斷減少殘差的過程,并不是一個(gè)單獨(dú)的分類器,因此一般不加權(quán)重.
- XGBoost:相比傳統(tǒng)GBDT有以下優(yōu)點(diǎn):
EM算法
- EM算法是一種迭代算法,用于含有隱變量的概率模型參數(shù)的極大似然估計(jì).每次迭代由兩步組成:E步,求期望(expectation),M步,求極大值(maximization),直至收斂為止.
- 隱變量:不能被直接觀察到,但是對(duì)系統(tǒng)的狀態(tài)和能觀察到的輸出存在影響的一種東西.
- 算法:
- EM算法是通過不斷求解下界的極大化逼近求解對(duì)數(shù)似然函數(shù)極大化的算法.可以用于生成模型的非監(jiān)督學(xué)習(xí).生成模型由聯(lián)合概率分布P(X,Y)表示.X為觀測(cè)數(shù)據(jù),Y為未觀測(cè)數(shù)據(jù).
- 高斯混合模型(GMM):高斯混合模型是指具有如下形式的概率分布模型:.其中,稱為第k個(gè)分模型.
-
高斯混合模型參數(shù)估計(jì)的EM算法:
?取參數(shù)的初始值開始迭代
E步:計(jì)算分模型k對(duì)觀測(cè)數(shù)據(jù)yj的響應(yīng)度
?
M步:計(jì)算新一輪迭代的模型參數(shù)
?重復(fù)2和3直到對(duì)數(shù)似然函數(shù)收斂.
隱馬爾可夫模型(HMM)
- 隱馬爾可夫模型是關(guān)于時(shí)序的概率模型,描述由一個(gè)隱藏的馬爾可夫鏈隨機(jī)生成不可觀測(cè)的狀態(tài)序列,再由各個(gè)狀態(tài)生成一個(gè)觀測(cè)而產(chǎn)生觀測(cè)隨機(jī)序列的過程.
- 設(shè)Q是所有可能的狀態(tài)的集合,V是所有可能的觀測(cè)的集合,I是長(zhǎng)度為T的狀態(tài)序列,O是對(duì)應(yīng)的觀測(cè)序列,A是狀態(tài)轉(zhuǎn)移概率矩陣,aij表示在時(shí)刻t處于狀態(tài)qi的條件下在時(shí)刻t+1轉(zhuǎn)移到狀態(tài)qj的概率.B是觀測(cè)概率矩陣,bij是在時(shí)刻t處于狀態(tài)qj的條件下生成觀測(cè)vk的概率.π是初始狀態(tài)概率向量,πi表示時(shí)刻t=1處于狀態(tài)qi的概率.隱馬爾可夫模型由初始狀態(tài)概率向量π,狀態(tài)轉(zhuǎn)移概率矩陣A以及觀測(cè)概率矩陣B確定.π和A決定即隱藏的馬爾可夫鏈,生成不可觀測(cè)的狀態(tài)序列.B決定如何從狀態(tài)生成觀測(cè),與狀態(tài)序列綜合確定了觀測(cè)序列.因此,隱馬爾可夫模型可以用三元符號(hào)表示.
-
隱馬爾可夫模型作了兩個(gè)基本假設(shè):
- 隱馬爾可夫模型有三個(gè)基本問題,即概率計(jì)算問題,學(xué)習(xí)問題,預(yù)測(cè)問題.
- 概率計(jì)算問題:給定模型和觀測(cè)序列,計(jì)算在模型λ下觀測(cè)序列O出現(xiàn)的概率P(O|λ).
后向算法:定義在時(shí)刻t狀態(tài)為qi的條件下,從t+1到T的部分觀測(cè)序列為oi+1~oT的概率為后向概率,記作.初始化后向概率,遞推,對(duì)t=T-1~1,,得到.
-
學(xué)習(xí)算法:已知觀測(cè)序列,估計(jì)模型的參數(shù),使得在該模型下觀測(cè)序列概率P(O|λ)最大.根據(jù)訓(xùn)練數(shù)據(jù)是否包括觀察序列對(duì)應(yīng)的狀態(tài)序列分別由監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)實(shí)現(xiàn).
非監(jiān)督學(xué)習(xí)(Baum-Welch算法):將觀測(cè)序列數(shù)據(jù)看作觀測(cè)數(shù)據(jù)O,狀態(tài)序列數(shù)據(jù)看作不可觀測(cè)的隱數(shù)據(jù)I.首先確定完全數(shù)據(jù)的對(duì)數(shù)似然函數(shù).求Q函數(shù),用拉格朗日乘子法極大化Q函數(shù)求模型參數(shù),,.
-
預(yù)測(cè)問題:也稱為解碼問題.已知模型和觀測(cè)序列,求對(duì)給定觀測(cè)序列條件概率P(I|O)最大的狀態(tài)序列.
近似算法:?在每個(gè)時(shí)刻t選擇在該時(shí)刻最有可能出現(xiàn)的狀態(tài)it*,從而得到一個(gè)狀態(tài)序列作為預(yù)測(cè)的結(jié)果.優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單,缺點(diǎn)是不能保證狀態(tài)序列整體是最有可能的狀態(tài)序列.
統(tǒng)計(jì)學(xué)習(xí)方法總結(jié)
?
?
-------------------------------------------------?以下內(nèi)容并非出自《統(tǒng)計(jì)學(xué)習(xí)方法》-------------------------------------------------
?
回到頂部神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)元(感知器)接收到來自n個(gè)其他神經(jīng)元傳遞過來的輸入信號(hào),這些輸入信號(hào)通過帶權(quán)重的連接進(jìn)行傳遞,神經(jīng)元將接收到的總輸入值與神經(jīng)元的閾值進(jìn)行比較,然后通過激活函數(shù)處理以產(chǎn)生神經(jīng)元的輸出.把許多個(gè)這樣的神經(jīng)元按一定的層次結(jié)構(gòu)連接起來就得到了神經(jīng)網(wǎng)絡(luò).一般使用反向傳播(BP)算法來進(jìn)行訓(xùn)練.
- 反向傳播(BP)算法:
- 深度神經(jīng)網(wǎng)絡(luò)(DNN):可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò).DNN內(nèi)部分為輸入層(第一層),隱藏層,輸出層(最后一層).層與層之間是全連接的.
- 卷積神經(jīng)網(wǎng)絡(luò)(CNN):一般用于圖像識(shí)別.通過卷積核和感受野的乘積形成卷積后的輸出.在每一個(gè)卷積層之后,通常會(huì)使用一個(gè)ReLU(修正線性單元)函數(shù)來把所有的負(fù)激活都變?yōu)榱?在幾個(gè)卷積層之后也許會(huì)用一個(gè)池化層(采樣層)來輸出過濾器卷積計(jì)算的每個(gè)子區(qū)域中的最大數(shù)字或平均值.
- 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):如果訓(xùn)練樣本輸入是連續(xù)序列,則DNN和CNN不好解決.RNN假設(shè)樣本是基于序列的,對(duì)應(yīng)的輸入是樣本序列中的x(t),而模型在序列索引號(hào)t位置的隱藏狀態(tài)h(t)由x(t)和h(t-1)共同決定.在任意序列索引號(hào)t有對(duì)應(yīng)的模型預(yù)測(cè)輸出o(t).也就是說,RNN是包含循環(huán)的網(wǎng)絡(luò),允許信息的持久化.
?
- 長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM):一種特殊的RNN,可以學(xué)習(xí)長(zhǎng)期依賴信息.
K-Means
- K-Means是無監(jiān)督的聚類算法.思想是對(duì)于給定的樣本集,按照樣本之間的距離大小將樣本集劃分為K個(gè)簇,讓簇內(nèi)的點(diǎn)盡量緊密地連在一起,而讓簇間的距離盡量的大.
- 傳統(tǒng)算法:
- K-Means++:用于優(yōu)化隨機(jī)初始化質(zhì)心的方法
- Elkan K-Means:利用兩邊之和大于第三邊以及兩邊之差小于第三邊來減少距離的計(jì)算.不適用于特征稀疏的情況.
- Mini?Batch?K-Means:樣本量很大時(shí),只用其中的一部分來做傳統(tǒng)的K-Means.一般多用幾次該算法,從不同的隨即采樣中選擇最優(yōu)的聚類簇.
Bagging
- Bagging的弱學(xué)習(xí)器之間沒有boosting那樣的聯(lián)系,它的特點(diǎn)在于"隨機(jī)采樣",也就是有放回采樣.因此泛化能力很強(qiáng).一般會(huì)隨機(jī)采集和訓(xùn)練集樣本數(shù)一樣個(gè)數(shù)的樣本.假設(shè)有m個(gè)樣本,且采集m次,當(dāng)m趨向無窮大時(shí)不被采集到的數(shù)據(jù)占1/e,也就是36.8%,稱為袋外數(shù)據(jù),可以用來檢測(cè)模型的泛化能力.Bagging對(duì)于弱學(xué)習(xí)器沒有限制,一般采用決策樹和神經(jīng)網(wǎng)絡(luò).
- 算法:
- 隨機(jī)森林:使用CART決策樹作為弱學(xué)習(xí)器,然后每次不從n個(gè)樣本特征中選擇最優(yōu)特征,而是從隨機(jī)選擇的nsub個(gè)樣本特征中來選擇.一般用交叉驗(yàn)證來獲取合適的nsub值.
Apriori
- Apriori是常用的挖掘出數(shù)據(jù)關(guān)聯(lián)規(guī)則的算法,用于找出數(shù)據(jù)值中頻繁出現(xiàn)的數(shù)據(jù)集合.一般使用支持度或者支持度與置信度的組合作為評(píng)估標(biāo)準(zhǔn).
- 支持度:幾個(gè)關(guān)聯(lián)的數(shù)據(jù)在數(shù)據(jù)集中出現(xiàn)的次數(shù)占總數(shù)據(jù)集的比重
- 置信度:一個(gè)數(shù)據(jù)出現(xiàn)后.另一個(gè)數(shù)據(jù)出現(xiàn)的概率
- Apriori算法的目標(biāo)是找到最大的K項(xiàng)頻繁集.假設(shè)使用支持度來作為評(píng)估標(biāo)準(zhǔn),首先搜索出候選1項(xiàng)集及對(duì)應(yīng)的支持度,剪枝去掉低于支持度的1項(xiàng)集,得到頻繁1項(xiàng)集.然后對(duì)剩下的頻繁1項(xiàng)集進(jìn)行連接,得到候選的頻繁2項(xiàng)集......以此類推,不斷迭代,直到無法找到頻繁k+1項(xiàng)集為止,對(duì)應(yīng)的頻繁k項(xiàng)集的集合即為輸出結(jié)果.
降維方法
- 主成分分析(PCA):降維,不斷選擇與已有坐標(biāo)軸正交且方差最大的坐標(biāo)軸.
- 奇異值分解(SVD):矩陣分解,降維,推薦系統(tǒng).??
- 線性判別分析(LDA)
引用
轉(zhuǎn)載于:https://www.cnblogs.com/ciao/articles/10888593.html
總結(jié)
以上是生活随笔為你收集整理的《统计学习方法》(李航)读书笔记(转)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 文件操作练习
- 下一篇: catia逆向建模步骤_catia与逆向