RIPPER算法原理
生活随笔
收集整理的這篇文章主要介紹了
RIPPER算法原理
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
在眾多分類算法中,決策樹作為一種基于有監(jiān)督學(xué)習(xí)的層次模型被大量使用,其有一種其他算法難以比擬的優(yōu)點(diǎn):可解釋性強(qiáng)——通過將學(xué)習(xí)到的決策樹可以很輕易的轉(zhuǎn)換成“如果…那么”形式的規(guī)則。但決策樹規(guī)則的建立依賴于樹的生成,樹的建立過程是對(duì)整個(gè)空間的遞歸劃分、建立局部模型的過程,往往比較耗時(shí),那么有沒有方法可以跳過這一過程呢?答案就是規(guī)則歸納算法。不同于樹歸納,其不需要建立搜索樹而是采用深度優(yōu)先搜索策略直接從數(shù)據(jù)集生成規(guī)則且每次生成一條,在構(gòu)造規(guī)則的過程中利用了決策樹的特點(diǎn),通過諸如比較每個(gè)屬性的信息增益不斷貪心地添加規(guī)則前件,并且在每條規(guī)則的建立過程中使用后剪枝對(duì)規(guī)則進(jìn)行裁剪,每條規(guī)則逐次生成然后加入到規(guī)則庫(kù)中直到無法再添加更多規(guī)則。為了盡可能減少過擬合現(xiàn)象,在規(guī)則加入到規(guī)則庫(kù)以后一樣有剪枝步,這使得歸納算法有較好的過擬合現(xiàn)象。規(guī)則歸納算法的一個(gè)例子是RIPPER算法,其從一系列算法的基礎(chǔ)上發(fā)展而來,與傳統(tǒng)決策樹算法如C4.5相比,其算法效率大大提升,而正確率相差不大。 先從一個(gè)很基礎(chǔ)的規(guī)則算法REP說起,REP的意思是Reduced Error Pruning,意即減少錯(cuò)誤剪枝,其把訓(xùn)練集分成獨(dú)立的生長(zhǎng)集和剪枝集,在生長(zhǎng)集上貪心地產(chǎn)生規(guī)則并在剪枝集上不斷被簡(jiǎn)化直到規(guī)則的準(zhǔn)確性下降。作為一個(gè)很基礎(chǔ)的算法其滿足規(guī)則歸納的各個(gè)要件,描繪了RIPPER算法大體框架。然后是在REP算法上發(fā)展起來的IREP,其最主要的改變是使用了先剪枝與后剪枝結(jié)合的辦法。接下來是IREP*算法,相比于IREP,其引入了最小描述長(zhǎng)度用于判斷停止條件,并且在剪枝時(shí)使用了新的度量標(biāo)準(zhǔn)1。而RIPPER算法則是在IREP*的基礎(chǔ)上加入了優(yōu)化階段,其產(chǎn)生在IREP*產(chǎn)生的規(guī)則上進(jìn)一步調(diào)整后的結(jié)果。 首先從最簡(jiǎn)單的二分類問題開始介紹RIPPER,先明確下若干概念:
<
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀
總結(jié)
以上是生活随笔為你收集整理的RIPPER算法原理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用PCA对特征数据进行降维
- 下一篇: 人工智能各种技术与算法