模式识别之基础---常用分类算法特性归纳
生活随笔
收集整理的這篇文章主要介紹了
模式识别之基础---常用分类算法特性归纳
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
常用的分類(lèi)算法主要有決策樹(shù),貝葉斯,KNN,SVM,神經(jīng)網(wǎng)絡(luò)以及基于規(guī)則的分類(lèi)算法。
本文主要對(duì)各種分類(lèi)算法的特性做一下總結(jié)。
1. 決策樹(shù)算法
- 決策樹(shù)算法是一種構(gòu)建分類(lèi)模型的非參數(shù)方法,它不要求任何先驗(yàn)假設(shè),不假定類(lèi)和其他屬性服從一定的概率分布。
- 找到最佳決策樹(shù)是NP完全問(wèn)題,許多決策樹(shù)算法都采取啟發(fā)式的方法指導(dǎo)對(duì)假定空間的搜索。
- 現(xiàn)有的決策樹(shù)構(gòu)建技術(shù)不需要昂貴的計(jì)算代價(jià),即使訓(xùn)練集非常大,也可以快速建立模型。同時(shí),決策樹(shù)一旦建立,未知樣本分類(lèi)非常快,最壞情況下的時(shí)間復(fù)雜度為o(w),其中 w是樹(shù)的最大深度。
- 決策樹(shù)相對(duì)容易理解,并且在很多數(shù)據(jù)集上,決策樹(shù)的準(zhǔn)確率可以與其他分類(lèi)算法媲美。
- 決策樹(shù)是學(xué)習(xí)離散值函數(shù)的代表,但不能很好的推廣到某些特定的布爾問(wèn)題。
- 決策樹(shù)算法對(duì)噪聲的干擾有很好的魯棒性,當(dāng)采用避免過(guò)分?jǐn)M合的方法后尤其如此。
- 冗余屬性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利影響。
- 由于大多數(shù)的決策樹(shù)都采自頂向下的遞歸方式進(jìn)行劃分,因此沿著樹(shù)向下,記錄會(huì)越來(lái)越少。在葉節(jié)點(diǎn),記錄可能太少,對(duì)于葉節(jié)點(diǎn)代表的類(lèi),不能做出具有統(tǒng)計(jì)意義的判決,這就是所謂的數(shù)據(jù)碎片問(wèn)題。解決該類(lèi)問(wèn)題的一種方法是,當(dāng)樣本數(shù)小于某個(gè)特定閾值時(shí),停止分裂。
- 子樹(shù)可能在決策樹(shù)中重復(fù)多次。當(dāng)決策樹(shù)的每個(gè)內(nèi)部節(jié)點(diǎn)都依賴(lài)單個(gè)屬性的測(cè)試條件時(shí)(相同的測(cè)試條件),就會(huì)出現(xiàn)這種情形。
2. 基于規(guī)則的分類(lèi)器算法
- 規(guī)則集的表達(dá)能力幾乎等同于決策樹(shù),因?yàn)闆Q策樹(shù)可以用互斥和窮舉的規(guī)則集表示。基于規(guī)則的分類(lèi)器和決策樹(shù)分類(lèi)器都對(duì)屬性空間進(jìn)行直線劃分,并將類(lèi)指派到每個(gè)劃分。
- 基于規(guī)則的分類(lèi)器通常被用來(lái)產(chǎn)生易于理解的描述性模型,而模型的性能可以與決策樹(shù)媲美。
- 基于規(guī)則的分類(lèi)器使用的基于類(lèi)的規(guī)則定序方法非常適用于處理類(lèi)分布不平衡的數(shù)據(jù)集。
3. 最近鄰分類(lèi)算法(KNN)
- 最近鄰分類(lèi)屬于基于實(shí)例的學(xué)習(xí)技術(shù),他使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)。
- 最近鄰分類(lèi)屬于消極學(xué)習(xí)方法,不必預(yù)先建立模型。但分類(lèi)測(cè)試樣例的開(kāi)銷(xiāo)卻很大,因?yàn)樾枰饌€(gè)計(jì)算測(cè)試樣例和訓(xùn)練樣例之間的相似度。相反,積極學(xué)習(xí)方法通常需要花費(fèi)大量計(jì)算資源來(lái)建立模型,模型一旦建立,分類(lèi)測(cè)試樣例就會(huì)非常快。
- 最近鄰分類(lèi)器基于局部信息進(jìn)行預(yù)測(cè),因此他對(duì)噪聲數(shù)據(jù)非常敏感。
- 最近鄰分類(lèi)器可以生成任意形狀的決策邊界,這樣的決策邊界與決策樹(shù)相比,能提供更加靈活的模型表示。
4. 樸素貝葉斯分類(lèi)算法
- 面對(duì)孤立的噪聲點(diǎn),貝葉斯分類(lèi)器是健壯的,因?yàn)閺臄?shù)據(jù)中估計(jì)條件概率時(shí),這些點(diǎn)被平均。
- 通過(guò)在建模和分類(lèi)時(shí)忽略樣例,貝葉斯分類(lèi)器可以處理屬性值遺漏問(wèn)題。
- 面對(duì)無(wú)關(guān)屬性,分類(lèi)器是健壯的。如果x是無(wú)關(guān)屬性,那么p(x|Y)幾乎變成的均勻分布,x的條件概率不會(huì)對(duì)總的后驗(yàn)概率產(chǎn)生影響。
- 相關(guān)屬性會(huì)降低分類(lèi)器的性能,因?yàn)檫@對(duì)于條件獨(dú)立的假設(shè)不成立。
5. 貝葉斯信念網(wǎng)(BNN)
- BNN提供了一種用圖形模型來(lái)捕獲特定領(lǐng)域的先驗(yàn)知識(shí)的方法。網(wǎng)絡(luò)還可以對(duì)變量間的因果依賴(lài)關(guān)系進(jìn)行編碼。
- 構(gòu)造網(wǎng)絡(luò)可能既費(fèi)時(shí)又費(fèi)力。然而一旦網(wǎng)絡(luò)結(jié)構(gòu)確定下來(lái),新添加變量就十分容易。
- BNN很適合處理不完整的數(shù)據(jù),對(duì)有屬性遺漏的實(shí)例可以通過(guò)對(duì)該屬性的所有可能取值的概率求和或者求積分來(lái)加以處理。
- 對(duì)過(guò)分?jǐn)M合問(wèn)題非常魯棒。
因?yàn)閷?duì)人工神經(jīng)網(wǎng)絡(luò)沒(méi)有深入學(xué)習(xí)過(guò),因此這里引用他人的總結(jié)。
人工神經(jīng)網(wǎng)絡(luò)
- 至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)是一種普適近似,即可以用來(lái)近似任何目標(biāo)函數(shù)。由于ANN具有豐富的假設(shè)空間,因此對(duì)于給定的問(wèn)題,選擇合適的拓?fù)浣Y(jié)構(gòu)來(lái)防止模型的過(guò)分?jǐn)M合是非常重要的。
- ANN可以處理冗余特征,因?yàn)闄?quán)值在訓(xùn)練過(guò)程中自動(dòng)學(xué)習(xí),冗余特征的權(quán)值非常小。
- 神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常敏感。
- ANN權(quán)值學(xué)習(xí)使用的梯度下降方法經(jīng)常會(huì)收斂到局部極小值。
- 訓(xùn)練ANN是非常耗時(shí)的。
?
參考《數(shù)據(jù)挖掘?qū)д摗?/p>
http://www.pluscn.net/?p=1553
?
轉(zhuǎn)載于:https://www.cnblogs.com/pengkunfan/p/3950716.html
總結(jié)
以上是生活随笔為你收集整理的模式识别之基础---常用分类算法特性归纳的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: html中样式控制的问题
- 下一篇: acl 日志记录方式介绍