當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

GradSearchCv 自定义验证集

發布時間：2024/4/17 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 GradSearchCv 自定义验证集小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

首先解釋一下什么叫使用自定義驗證集進行模型調參。GridSearchCV默認使用的模型驗證方法是KFold交叉驗證，但很多時候我們自己已經預先分配好了驗證集，我們就要在這個驗證集上評價模型好壞（有些任性），所以我們并不需要GridSearchCV為我們自動產生驗證集，這就是所謂的使用自定義驗證集進行模型調參。好了，我們首先簡單認識一下GridSearchCV的使用。

1. 問題背景
現在假設我有一個訓練集，特征為數組train_features，標簽為數組train_labels。我還有一個測試集，特征為數組test_features，沒有標簽。我希望在訓練集上學習一個線性SVM，來預測測試集標簽。我們知道，SVM有一些超參數需要人工設置，對于線性SVM，最關鍵的應該就是懲罰參數C。如何找到最優的C呢？通常情況下，我們使用KFold交叉驗證。下面就簡單介紹一下。

2. GridSearchCV使用簡介
直接上代碼：

import numpy as np
from sklearn.grid_search import GridSearchCV
from sklearn.svm import LinearSVC
from sklearn.externals import joblib

train_features = np.load('train_features.npy')
train_labels = np.load('train_labels.npy')
test_features = np.load('test_features.npy')

clf = LinearSVC(random_state=0)
params_search = {'C':[1,10,100,1000]} # 我們想要優化的參數
grid_search_params = {'estimator': clf, # 目標分類器
'param_grid': params_search, # 前面定義的我們想要優化的參數
'cv': 3, # 交叉驗證split策略
'n_jobs': -1, # 并行運行的任務數，-1表示使用所有CPU
'verbose': 32} # 輸出信息，數字越大輸出信息越多
grsearch = GridSearchCV(**grid_search_params)
grsearch.fit(train_features, train_labels)
joblib.dump(grsearch, 'grsearch.model')

bst = grsearch.best_estimator_
preds = bst.predict(test_features)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
在上面的代碼中，我們使用3-fold交叉驗證策略需找C的最優取值，每次的驗證集從總的訓練集中隨機產生。

3. 使用自定義驗證集
現在假設我們已經通過某種方式自己定義了訓練集和驗證集的劃分方式,分別為train_features和val_features，我們并不想使用隨機的劃分，這時候要怎么辦呢？可以使用PredefinedSplit。

import numpy as np
from sklearn.grid_search import GridSearchCV
from sklearn.cross_validation import PredefinedSplit
from sklearn.svm import LinearSVC
from sklearn.externals import joblib

train_features = np.load('train_features.npy')
train_labels = np.load('train_labels.npy')
val_features = np.load('val_features.npy')
val_labels = np.load('val_labels.npy')
test_features = np.load('test_features.npy')

# 合并訓練集和驗證集
train_val_features = np.concatenate((train_features,val_features ),axis=0)
train_val_labels = np.concatenate((train_labels,val_labels ),axis=0)

clf = LinearSVC(random_state=0)
test_fold = np.zeros(train_val_features.shape[0]) # 將所有index初始化為0,0表示第一輪的驗證集
test_fold[:train_features.shape[0]] = -1 # 將訓練集對應的index設為-1，表示永遠不劃分到驗證集中
ps = PredefinedSplit(test_fold=test_fold)
params_search = {'C':[1,10,100,1000]}
grid_search_params = {'estimator': clf, # 目標分類器
'param_grid': params_search, # 前面定義的我們想要優化的參數
'cv': ps, # 使用前面自定義的split驗證策略
'n_jobs': -1, # 并行運行的任務數，-1表示使用所有CPU
'verbose': 32} # 輸出信息，數字越大輸出信息越多
print train_features.shape
print train_labels.shape
grsearch = GridSearchCV(**grid_search_params)
grsearch.fit(train_test_features, train_test_labels)

joblib.dump(grsearch, model_save_path)
bst = grsearch.best_estimator_
preds = bst.predict(test_features)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
這里test_fold是一個索引list，用于劃分數據集。除了上面使用的固定一個驗證集，還可以劃分多重驗證集。加入數據集中有4個樣本，那么test_fold = [0, 1, -1, 1]就表示在第一個驗證集包含索引值為0的樣本，第二個驗證集包含引值為1的樣本，以此類推，從而建立自定義的多重驗證集。
這里有一段代碼展示了這種劃分方式：

>>> from sklearn.cross_validation import PredefinedSplit
>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
>>> y = np.array([0, 0, 1, 1])
>>> ps = PredefinedSplit(test_fold=[0, 1, -1, 1])
>>> len(ps)
2
>>> print(ps)
sklearn.cross_validation.PredefinedSplit(test_fold=[ 0 1 -1 1])
>>> for train_index, test_index in ps:
... print("TRAIN:", train_index, "TEST:", test_index)
... X_train, X_test = X[train_index], X[test_index]
... y_train, y_test = y[train_index], y[test_index]
TRAIN: [1 2 3] TEST: [0]
TRAIN: [0 2] TEST: [1 3]
---------------------
作者：isMarvellous
來源：CSDN
原文：https://blog.csdn.net/isMarvellous/article/details/78195010
版權聲明：本文為博主原創文章，轉載請附上博文鏈接！

轉載于:https://www.cnblogs.com/fujian-code/p/9823441.html

總結

以上是生活随笔為你收集整理的GradSearchCv 自定义验证集的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：欢迎来到我的第一个个人laravel尝试
下一篇： P2572 [SCOI2010]序列操作