回归树与基于规则的模型(part1)--if-then语句
學(xué)習(xí)筆記,僅供參考,有錯(cuò)必糾
回歸樹與基于規(guī)則的模型
if-then語(yǔ)句
基于樹的模型由一個(gè)或多個(gè)針對(duì)預(yù)測(cè)變量的if?thenif-thenif?then語(yǔ)句組成,它們被用來(lái)對(duì)數(shù)據(jù)進(jìn)行劃分,基于這些劃分,一個(gè)特定的模型將用來(lái)對(duì)結(jié)果變量進(jìn)行預(yù)測(cè)。
例如,一個(gè)簡(jiǎn)單的樹模型可以定義為:
在這個(gè)例子中,二維的預(yù)測(cè)變量空間被分為了三塊區(qū)域,并且在每一塊區(qū)域中,結(jié)果變量將被預(yù)測(cè)為同一個(gè)數(shù)字。
下圖將這些規(guī)則表達(dá)在了預(yù)測(cè)變量空間中:
利用樹模型的術(shù)語(yǔ),我們稱數(shù)據(jù)進(jìn)行了兩次切分,并形成了3個(gè)最終節(jié)點(diǎn)(葉)。最終節(jié)點(diǎn)中的模型表達(dá)式將被用來(lái)計(jì)算預(yù)測(cè)值,表達(dá)式可以簡(jiǎn)單,可以復(fù)雜。
注意到一棵樹生成的if?thenif-thenif?then語(yǔ)句定義了樣本到任何一個(gè)最終節(jié)點(diǎn)唯一的一條路徑。一條規(guī)則就是一系列的if?thenif-thenif?then語(yǔ)句,并且它們被展開成了若干相互獨(dú)立的條件,對(duì)于上述例子,共有三條規(guī)則:
當(dāng)樣本被多條規(guī)則覆蓋時(shí),規(guī)則可以在一定程度上被簡(jiǎn)化或進(jìn)行剪枝。這種方法相對(duì)于簡(jiǎn)單的樹模型有若干優(yōu)勢(shì)。
樹模型和規(guī)則模型之所以成為非常流行的建模工具,是基于以下幾個(gè)原因:
①首先,它們生成的條件極富解釋力,并且易于實(shí)現(xiàn);
②其次,根據(jù)它們建立模型時(shí)采用的邏輯,它們能有效地處理各種類型的預(yù)測(cè)變量(比如稀疏的、偏態(tài)的、連續(xù)的和分類的),而不需要對(duì)這些變量事先進(jìn)行預(yù)處理;
③此外,這些模型不需要用戶對(duì)響應(yīng)變量與預(yù)測(cè)變量之間的關(guān)系進(jìn)行指定;
④最后,這些模型可以有效地處理缺失值。
然而,由單一的樹或規(guī)則建立的模型也具有一些特定的缺點(diǎn):
①模型的不穩(wěn)定性(數(shù)據(jù)中的微小變動(dòng)可能會(huì)引起樹或規(guī)則結(jié)構(gòu)的巨大變化,從而影響解釋性);
②次優(yōu)的預(yù)測(cè)能力,因?yàn)槟P投x了一系列的矩形區(qū)域,從而,它們得到的結(jié)果具有一定的同質(zhì)性。如果響應(yīng)變量與預(yù)測(cè)變量之間的關(guān)系不能充分地通過矩形子空間來(lái)進(jìn)行表達(dá),那么樹模型和規(guī)則模型將產(chǎn)生比其他模型更大的預(yù)測(cè)誤差。
為了克服這些問題,研究者提出了集成模型,它們將許多棵樹(或規(guī)則)進(jìn)行組合。集成模型通常具有比單一的樹模型好得多的預(yù)測(cè)表現(xiàn)。
總結(jié)
以上是生活随笔為你收集整理的回归树与基于规则的模型(part1)--if-then语句的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网易闪电邮如何导入/导出/同步联系人
- 下一篇: 回归树与基于规则的模型(part2)--