日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性

發(fā)布時間:2025/3/12 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原文鏈接:

http://tecdat.cn/?p=13546?tecdat.cn

變量重要性圖是查看模型中哪些變量有趣的好工具。由于我們通常在隨機森林中使用它,因此它看起來非常適合非常大的數(shù)據(jù)集。大型數(shù)據(jù)集的問題在于許多特征是“相關(guān)的”,在這種情況下,很難比較可變重要性圖的值的解釋。例如,考慮一個非常簡單的線性模型

在這里,我們使用一個隨機森林的特征之間的關(guān)系模型,但實際上,我們考慮另一個特點-不用于產(chǎn)生數(shù)據(jù)-

,即相關(guān)

。我們考慮這三個特征的隨機森林

為了獲得更可靠的結(jié)果,我生成了100個大小為1,000的數(shù)據(jù)集。


  • library(mnormt)

  • RF=randomForest(Y~.,data=db)

  • plot(C,VI[1,],type="l",col="red")

  • lines(C,VI[2,],col="blue")

  • lines(C,VI[3,],col="purple")
  • 頂部的紫色線是的可變重要性值

    ,該值相當穩(wěn)定(作為一階近似值,幾乎恒定)。紅線是的變量重要性函數(shù),

    藍線是的變量重要性函數(shù)

    。例如,具有兩個高度相關(guān)變量的重要性函數(shù)為

    看起來 比其他兩個

    要 重要得多,但事實并非如此。只是模型無法在

    和 之間選擇

    :有時會

    被選擇,有時會被選擇

    。我想我發(fā)現(xiàn)圖形混亂,因為我可能會想到的 重要性 的

    恒定。考慮到其他變量的存在,我們已經(jīng)掌握了每個變量的重要性。

    實際上,我想到的是當我們考慮逐步過程時以及從集合中刪除每個變量時得到的結(jié)果,

    apply(IMP,1,mean)}

    在這里,如果我們使用與以前相同的代碼,

    我們得到以下圖


  • plot(C,VI[2,],type="l",col="red")

  • lines(C,VI2[3,],col="blue")

  • lines(C,VI2[4,],col="purple")
  • 刪除時會顯示紫線

    然而,當我們擁有很多相關(guān)特征時,討論特征的重要性并不是那么直觀。

    總結(jié)

    以上是生活随笔為你收集整理的随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。