日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习之随机森林模型

發布時間:2023/12/9 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习之随机森林模型 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

隨機森林

1.什么是集成模型

①集成模型:大白話就是把若干個決策樹合到一起的模型(三個臭皮匠頂個諸葛亮)
②優勢:1)效果好,穩定;2)可解釋性強
③集成模型的分類:
1)Bagging:隨機森林;
基于Bagging的構造,預測過程:

2)Boosting:GBDT,XGBOOST
下篇Blog介紹,本節以隨機森林為主

2.舉例:

問題:假設邀請了9位專家,而且每一位專家在決策上犯錯誤的概率位0.4,那么他們共同決策時最終犯錯誤的概率是多少?


通過這個例子我們可以看到一個人決策時犯錯誤的概率為0.4,而大家一起決策時犯錯誤的概率位0.25241
所以為什么說集成模型的穩定性高呢,通過集成模型做預測可以降低方差,而方差越低說明模型越穩定這是一種原因

3.隨機森林的訓練

隨機森林的核心:

1)隨機:1)訓練樣本的隨機化(穩定性的基礎是多樣性)
2)森林:多顆決策樹

隨機森林的構造:

1)構造隨機森林需要考慮的點:①只有一份訓練數據;②確保多顆決策樹要優于但棵決策樹
2)隨機森林的構造:

對訓練數據進行抽樣:Bootstrap(可以重復抽樣同樣的樣本)

隨機森林的預測:
分類問題:少數服從多數,比如說隨機森林由三棵樹構成,兩棵樹分類為同意,一棵樹分類為不同意,那么最終結果為不同意
回歸問題:取平均值

隨機森林的demo

# 導入數字識別數據集,這個數據集已經集成在了sklearn里 from sklearn.datasets import load_digits # 導入隨機森林分類器 from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split import pandas as pd import numpy as np # 導入數據 digits = load_digits() X = digits.data y = digits.target X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=42) # 創建隨機森林,參數可以適當修改一下。 # https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html clf = RandomForestClassifier(n_estimators=400, criterion='entropy',max_depth=5, min_samples_split=3, max_features='sqrt',random_state=0) clf.fit(X_train, y_train) print ("訓練集上的準確率為:%.2f, 測試數據上的準確率為:%.2f"% (clf.score(X_train, y_train), clf.score(X_test, y_test)))結果:訓練集上的準確率為:0.98, 測試數據上的準確率為:0.95

寫在最后:
如果有些地方理解的不對,大家可以積極評論,學習本身就是一個不斷糾錯的過程,發現問題不管是對我還是對大家都是一種進步

總結

以上是生活随笔為你收集整理的机器学习之随机森林模型的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。