當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

模式识别之基础---常用分类算法特性归纳

發(fā)布時(shí)間：2025/3/21 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了模式识别之基础---常用分类算法特性归纳小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

常用的分類(lèi)算法主要有決策樹(shù)，貝葉斯，KNN，SVM，神經(jīng)網(wǎng)絡(luò)以及基于規(guī)則的分類(lèi)算法。

本文主要對(duì)各種分類(lèi)算法的特性做一下總結(jié)。

1. 決策樹(shù)算法

決策樹(shù)算法是一種構(gòu)建分類(lèi)模型的非參數(shù)方法，它不要求任何先驗(yàn)假設(shè)，不假定類(lèi)和其他屬性服從一定的概率分布。
找到最佳決策樹(shù)是NP完全問(wèn)題，許多決策樹(shù)算法都采取啟發(fā)式的方法指導(dǎo)對(duì)假定空間的搜索。
現(xiàn)有的決策樹(shù)構(gòu)建技術(shù)不需要昂貴的計(jì)算代價(jià)，即使訓(xùn)練集非常大，也可以快速建立模型。同時(shí)，決策樹(shù)一旦建立，未知樣本分類(lèi)非常快，最壞情況下的時(shí)間復(fù)雜度為o(w),其中 w是樹(shù)的最大深度。
決策樹(shù)相對(duì)容易理解，并且在很多數(shù)據(jù)集上，決策樹(shù)的準(zhǔn)確率可以與其他分類(lèi)算法媲美。
決策樹(shù)是學(xué)習(xí)離散值函數(shù)的代表，但不能很好的推廣到某些特定的布爾問(wèn)題。
決策樹(shù)算法對(duì)噪聲的干擾有很好的魯棒性，當(dāng)采用避免過(guò)分?jǐn)M合的方法后尤其如此。
冗余屬性不會(huì)對(duì)決策樹(shù)的準(zhǔn)確率造成不利影響。
由于大多數(shù)的決策樹(shù)都采自頂向下的遞歸方式進(jìn)行劃分，因此沿著樹(shù)向下，記錄會(huì)越來(lái)越少。在葉節(jié)點(diǎn)，記錄可能太少，對(duì)于葉節(jié)點(diǎn)代表的類(lèi)，不能做出具有統(tǒng)計(jì)意義的判決，這就是所謂的數(shù)據(jù)碎片問(wèn)題。解決該類(lèi)問(wèn)題的一種方法是，當(dāng)樣本數(shù)小于某個(gè)特定閾值時(shí)，停止分裂。
子樹(shù)可能在決策樹(shù)中重復(fù)多次。當(dāng)決策樹(shù)的每個(gè)內(nèi)部節(jié)點(diǎn)都依賴(lài)單個(gè)屬性的測(cè)試條件時(shí)（相同的測(cè)試條件），就會(huì)出現(xiàn)這種情形。

2. 基于規(guī)則的分類(lèi)器算法

規(guī)則集的表達(dá)能力幾乎等同于決策樹(shù)，因?yàn)闆Q策樹(shù)可以用互斥和窮舉的規(guī)則集表示。基于規(guī)則的分類(lèi)器和決策樹(shù)分類(lèi)器都對(duì)屬性空間進(jìn)行直線劃分，并將類(lèi)指派到每個(gè)劃分。
基于規(guī)則的分類(lèi)器通常被用來(lái)產(chǎn)生易于理解的描述性模型，而模型的性能可以與決策樹(shù)媲美。
基于規(guī)則的分類(lèi)器使用的基于類(lèi)的規(guī)則定序方法非常適用于處理類(lèi)分布不平衡的數(shù)據(jù)集。

3. 最近鄰分類(lèi)算法(KNN)

最近鄰分類(lèi)屬于基于實(shí)例的學(xué)習(xí)技術(shù)，他使用具體的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)。
最近鄰分類(lèi)屬于消極學(xué)習(xí)方法，不必預(yù)先建立模型。但分類(lèi)測(cè)試樣例的開(kāi)銷(xiāo)卻很大，因?yàn)樾枰饌€(gè)計(jì)算測(cè)試樣例和訓(xùn)練樣例之間的相似度。相反，積極學(xué)習(xí)方法通常需要花費(fèi)大量計(jì)算資源來(lái)建立模型，模型一旦建立，分類(lèi)測(cè)試樣例就會(huì)非常快。
最近鄰分類(lèi)器基于局部信息進(jìn)行預(yù)測(cè)，因此他對(duì)噪聲數(shù)據(jù)非常敏感。
最近鄰分類(lèi)器可以生成任意形狀的決策邊界，這樣的決策邊界與決策樹(shù)相比，能提供更加靈活的模型表示。

4. 樸素貝葉斯分類(lèi)算法

面對(duì)孤立的噪聲點(diǎn)，貝葉斯分類(lèi)器是健壯的，因?yàn)閺臄?shù)據(jù)中估計(jì)條件概率時(shí)，這些點(diǎn)被平均。
通過(guò)在建模和分類(lèi)時(shí)忽略樣例，貝葉斯分類(lèi)器可以處理屬性值遺漏問(wèn)題。
面對(duì)無(wú)關(guān)屬性，分類(lèi)器是健壯的。如果x是無(wú)關(guān)屬性，那么p(x|Y)幾乎變成的均勻分布，x的條件概率不會(huì)對(duì)總的后驗(yàn)概率產(chǎn)生影響。
相關(guān)屬性會(huì)降低分類(lèi)器的性能，因?yàn)檫@對(duì)于條件獨(dú)立的假設(shè)不成立。

5. 貝葉斯信念網(wǎng)(BNN)

BNN提供了一種用圖形模型來(lái)捕獲特定領(lǐng)域的先驗(yàn)知識(shí)的方法。網(wǎng)絡(luò)還可以對(duì)變量間的因果依賴(lài)關(guān)系進(jìn)行編碼。
構(gòu)造網(wǎng)絡(luò)可能既費(fèi)時(shí)又費(fèi)力。然而一旦網(wǎng)絡(luò)結(jié)構(gòu)確定下來(lái)，新添加變量就十分容易。
BNN很適合處理不完整的數(shù)據(jù)，對(duì)有屬性遺漏的實(shí)例可以通過(guò)對(duì)該屬性的所有可能取值的概率求和或者求積分來(lái)加以處理。
對(duì)過(guò)分?jǐn)M合問(wèn)題非常魯棒。

因?yàn)閷?duì)人工神經(jīng)網(wǎng)絡(luò)沒(méi)有深入學(xué)習(xí)過(guò)，因此這里引用他人的總結(jié)。

人工神經(jīng)網(wǎng)絡(luò)

至少含有一個(gè)隱藏層的多層神經(jīng)網(wǎng)絡(luò)是一種普適近似，即可以用來(lái)近似任何目標(biāo)函數(shù)。由于ANN具有豐富的假設(shè)空間，因此對(duì)于給定的問(wèn)題，選擇合適的拓?fù)浣Y(jié)構(gòu)來(lái)防止模型的過(guò)分?jǐn)M合是非常重要的。
ANN可以處理冗余特征，因?yàn)闄?quán)值在訓(xùn)練過(guò)程中自動(dòng)學(xué)習(xí)，冗余特征的權(quán)值非常小。
神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)中的噪聲非常敏感。
ANN權(quán)值學(xué)習(xí)使用的梯度下降方法經(jīng)常會(huì)收斂到局部極小值。
訓(xùn)練ANN是非常耗時(shí)的。

參考《數(shù)據(jù)挖掘?qū)д摗?/p>

http://www.pluscn.net/?p=1553

轉(zhuǎn)載于:https://www.cnblogs.com/pengkunfan/p/3950716.html

總結(jié)

以上是生活随笔為你收集整理的模式识别之基础---常用分类算法特性归纳的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。