日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python随机森林特征重要性原理_随机森林进行特征重要性度量的详细说明

發布時間:2023/12/8 python 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python随机森林特征重要性原理_随机森林进行特征重要性度量的详细说明 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

特征選擇方法中,有一種方法是利用隨機森林,進行特征的重要性度量,選擇重要性較高的特征。下面對如何計算重要性進行說明。

1 特征重要性?度量

計算某個特征X的重要性時,具體步驟如下:

1)對每一顆決策樹,選擇相應的袋外數據(out of bag,OOB)?計算袋外數據誤差,記為errOOB1.

所謂袋外數據是指,每次建立決策樹時,通過重復抽樣得到一個數據用于訓練?決策樹,這時還有大約1/3的數據沒有被利用,沒有參與決策樹的建立。這部分數據可以用于對決策樹的性能進行評估,計算模型的預測錯誤率,稱為袋外數據誤差。

?這已經經過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。

?2)隨機對袋外數據OOB所有樣本的特征X加入噪聲干擾(可以隨機改變樣本在特征X處的值),再次計算袋外數據誤差,記為errOOB2。

3)?假設森林中有N棵樹,則特征X的重要性=∑(errOOB2-errOOB1)/N。這個數值之所以能夠說明特征的重要性是因為,如果加入隨機噪聲后,袋外數據準確率大幅度下降(即errOOB2上升),說明這個特征對于樣本的預測結果有很大影響,進而說明重要程度比較高。

?2 特征選擇

在特征重要性的基礎上,特征選擇的步驟如下:

1)計算每個特征的重要性,并按降序排序

2)確定要剔除的比例,依據特征重要性剔除相應比例的特征,得到一個新的特征集

3)用新的特征集重復上述過程,直到剩下m個特征(m為提前設定的值)。

4)根據上述過程中得到的各個特征集和特征集對應的袋外誤差率,選擇袋外誤差率最低的特征集

總結

以上是生活随笔為你收集整理的python随机森林特征重要性原理_随机森林进行特征重要性度量的详细说明的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。