當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网格搜索算法与K折交叉验证

發(fā)布時間：2023/12/16 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了网格搜索算法与K折交叉验证小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

網(wǎng)格搜索算法和K折交叉驗證法是機器學(xué)習(xí)入門的時候遇到的重要的概念。

網(wǎng)格搜索算法是一種通過遍歷給定的參數(shù)組合來優(yōu)化模型表現(xiàn)的方法。

以決策樹為例，當我們確定了要使用決策樹算法的時候，為了能夠更好地擬合和預(yù)測，我們需要調(diào)整它的參數(shù)。在決策樹算法中，我們通常選擇的參數(shù)是決策樹的最大深度。

于是我們會給出一系列的最大深度的值，比如 {'max_depth': [1,2,3,4,5]}，我們會盡可能包含最優(yōu)最大深度。

不過，我們?nèi)绾沃滥囊粋€最大深度的模型是最好的呢？我們需要一種可靠的評分方法，對每個最大深度的決策樹模型都進行評分，這其中非常經(jīng)典的一種方法就是交叉驗證，下面我們就以K折交叉驗證為例，詳細介紹它的算法過程。

首先我們先看一下數(shù)據(jù)集是如何分割的。我們拿到的原始數(shù)據(jù)集首先會按照一定的比例劃分成訓(xùn)練集和測試集。比如下圖，以8:2分割的數(shù)據(jù)集：

訓(xùn)練集用來訓(xùn)練我們的模型，它的作用就像我們平時做的練習(xí)題；測試集用來評估我們訓(xùn)練好的模型表現(xiàn)如何，它的作用像我們做的高考題，這是要絕對保密不能提前被模型看到的。

因此，在K折交叉驗證中，我們用到的數(shù)據(jù)是訓(xùn)練集中的所有數(shù)據(jù)。我們將訓(xùn)練集的所有數(shù)據(jù)平均劃分成K份（通常選擇K=10），取第K份作為驗證集，它的作用就像我們用來估計高考分數(shù)的模擬題，余下的K-1份作為交叉驗證的訓(xùn)練集。

對于我們最開始選擇的決策樹的5個最大深度，以 max_depth=1 為例，我們先用第2-10份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型，用第1份數(shù)據(jù)作為驗證集對這次訓(xùn)練的模型進行評分，得到第一個分數(shù)；然后重新構(gòu)建一個 max_depth=1 的決策樹，用第1和3-10份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型，用第2份數(shù)據(jù)作為驗證集對這次訓(xùn)練的模型進行評分，得到第二個分數(shù)……以此類推，最后構(gòu)建一個 max_depth=1 的決策樹用第1-9份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型，用第10份數(shù)據(jù)作為驗證集對這次訓(xùn)練的模型進行評分，得到第十個分數(shù)。于是對于 max_depth=1 的決策樹模型，我們訓(xùn)練了10次，驗證了10次，得到了10個驗證分數(shù)，然后計算這10個驗證分數(shù)的平均分數(shù)，就是 max_depth=1 的決策樹模型的最終驗證分數(shù)。

對于 max_depth = 2,3,4,5 時，分別進行和 max_depth=1 相同的交叉驗證過程，得到它們的最終驗證分數(shù)。然后我們就可以對這5個最大深度的決策樹的最終驗證分數(shù)進行比較，分數(shù)最高的那一個就是最優(yōu)最大深度，對應(yīng)的模型就是最優(yōu)模型。

下面提供一個簡單的利用決策樹預(yù)測乳腺癌的例子：

from sklearn.model_selection import GridSearchCV, KFold, train_test_split from sklearn.metrics import make_scorer, accuracy_score from sklearn.tree import DecisionTreeClassifier from sklearn.datasets import load_breast_cancerdata = load_breast_cancer()X_train, X_test, y_train, y_test = train_test_split(data['data'], data['target'], train_size=0.8, random_state=0)regressor = DecisionTreeClassifier(random_state=0) parameters = {'max_depth': range(1, 6)} scoring_fnc = make_scorer(accuracy_score) kfold = KFold(n_splits=10)grid = GridSearchCV(regressor, parameters, scoring_fnc, cv=kfold) grid = grid.fit(X_train, y_train) reg = grid.best_estimator_print('best score: %f'%grid.best_score_) print('best parameters:') for key in parameters.keys():print('%s: %d'%(key, reg.get_params()[key]))print('test score: %f'%reg.score(X_test, y_test))import pandas as pd pd.DataFrame(grid.cv_results_).T

直接用決策樹得到的分數(shù)大約是92%，經(jīng)過網(wǎng)格搜索優(yōu)化以后，我們可以在測試集得到95.6%的準確率：

best score: 0.938462 best parameters: max_depth: 4 test score: 0.956140

總結(jié)

以上是生活随笔為你收集整理的网格搜索算法与K折交叉验证的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Rust Atomic总结笔记
下一篇： win2003终端服务器超出了最大允许连