回归树与基于规则的模型(part1)--if-then语句
學習筆記,僅供參考,有錯必糾
回歸樹與基于規則的模型
if-then語句
基于樹的模型由一個或多個針對預測變量的if?thenif-thenif?then語句組成,它們被用來對數據進行劃分,基于這些劃分,一個特定的模型將用來對結果變量進行預測。
例如,一個簡單的樹模型可以定義為:
在這個例子中,二維的預測變量空間被分為了三塊區域,并且在每一塊區域中,結果變量將被預測為同一個數字。
下圖將這些規則表達在了預測變量空間中:
利用樹模型的術語,我們稱數據進行了兩次切分,并形成了3個最終節點(葉)。最終節點中的模型表達式將被用來計算預測值,表達式可以簡單,可以復雜。
注意到一棵樹生成的if?thenif-thenif?then語句定義了樣本到任何一個最終節點唯一的一條路徑。一條規則就是一系列的if?thenif-thenif?then語句,并且它們被展開成了若干相互獨立的條件,對于上述例子,共有三條規則:
當樣本被多條規則覆蓋時,規則可以在一定程度上被簡化或進行剪枝。這種方法相對于簡單的樹模型有若干優勢。
樹模型和規則模型之所以成為非常流行的建模工具,是基于以下幾個原因:
①首先,它們生成的條件極富解釋力,并且易于實現;
②其次,根據它們建立模型時采用的邏輯,它們能有效地處理各種類型的預測變量(比如稀疏的、偏態的、連續的和分類的),而不需要對這些變量事先進行預處理;
③此外,這些模型不需要用戶對響應變量與預測變量之間的關系進行指定;
④最后,這些模型可以有效地處理缺失值。
然而,由單一的樹或規則建立的模型也具有一些特定的缺點:
①模型的不穩定性(數據中的微小變動可能會引起樹或規則結構的巨大變化,從而影響解釋性);
②次優的預測能力,因為模型定義了一系列的矩形區域,從而,它們得到的結果具有一定的同質性。如果響應變量與預測變量之間的關系不能充分地通過矩形子空間來進行表達,那么樹模型和規則模型將產生比其他模型更大的預測誤差。
為了克服這些問題,研究者提出了集成模型,它們將許多棵樹(或規則)進行組合。集成模型通常具有比單一的樹模型好得多的預測表現。
總結
以上是生活随笔為你收集整理的回归树与基于规则的模型(part1)--if-then语句的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网易闪电邮如何导入/导出/同步联系人
- 下一篇: 回归树与基于规则的模型(part2)--