當前位置：首頁 >

随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性

發布時間：2025/3/12 27 豆豆

生活随笔收集整理的這篇文章主要介紹了随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

原文鏈接：

http://tecdat.cn/?p=13546?tecdat.cn

變量重要性圖是查看模型中哪些變量有趣的好工具。由于我們通常在隨機森林中使用它，因此它看起來非常適合非常大的數據集。大型數據集的問題在于許多特征是“相關的”，在這種情況下，很難比較可變重要性圖的值的解釋。例如，考慮一個非常簡單的線性模型

在這里，我們使用一個隨機森林的特征之間的關系模型，但實際上，我們考慮另一個特點-不用于產生數據-

，即相關

。我們考慮這三個特征的隨機森林

。

為了獲得更可靠的結果，我生成了100個大小為1,000的數據集。

library(mnormt)

RF=randomForest(Y~.,data=db)

plot(C,VI[1,],type="l",col="red")

lines(C,VI[2,],col="blue")

lines(C,VI[3,],col="purple")

頂部的紫色線是的可變重要性值

，該值相當穩定（作為一階近似值，幾乎恒定）。紅線是的變量重要性函數，

藍線是的變量重要性函數

。例如，具有兩個高度相關變量的重要性函數為

看起來比其他兩個

要重要得多，但事實并非如此。只是模型無法在

和之間選擇

：有時會

被選擇，有時會被選擇

。我想我發現圖形混亂，因為我可能會想到的重要性的

恒定。考慮到其他變量的存在，我們已經掌握了每個變量的重要性。

實際上，我想到的是當我們考慮逐步過程時以及從集合中刪除每個變量時得到的結果，

apply(IMP,1,mean)}

在這里，如果我們使用與以前相同的代碼，

我們得到以下圖

plot(C,VI[2,],type="l",col="red")

lines(C,VI2[3,],col="blue")

lines(C,VI2[4,],col="purple")

刪除時會顯示紫線

然而，當我們擁有很多相關特征時，討論特征的重要性并不是那么直觀。

總結

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。