日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python网格搜索核函数_(转载)Python机器学习笔记GridSearchCV(网格搜索)

發(fā)布時間:2025/3/12 python 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python网格搜索核函数_(转载)Python机器学习笔记GridSearchCV(网格搜索) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

轉(zhuǎn)載聲明

介紹

在機(jī)器學(xué)習(xí)模型中,需要人工選擇的參數(shù)稱為超參數(shù)。比如隨機(jī)森林中決策樹的個數(shù),人工神經(jīng)網(wǎng)絡(luò)模型中隱藏層層數(shù)和每層的節(jié)點個數(shù),正則項中常數(shù)大小等等,他們都需要事先指定。超參數(shù)選擇不恰當(dāng),就會出現(xiàn)欠擬合或者過擬合的問題。而在選擇超參數(shù)的時候,有兩個途徑,一個是憑經(jīng)驗微調(diào),另一個就是選擇不同大小的參數(shù),帶入模型中,挑選表現(xiàn)最好的參數(shù)。

微調(diào)的一種方法是手工調(diào)制超參數(shù),直到找到一個好的超參數(shù)組合,這么做的話會非常冗長,你也可能沒有時間探索多種組合,所以可以使用Scikit-Learn的GridSearchCV來做這項搜索工作。下面讓我們一一探索。

為什么叫網(wǎng)格搜索(GridSearchCV)?

GridSearchCV的名字其實可以拆分為兩部分,GridSearch和CV,即網(wǎng)格搜索和交叉驗證。這兩個名字都非常好理解。網(wǎng)格搜索,搜索的是參數(shù),即在指定的參數(shù)范圍內(nèi),按步長依次調(diào)整參數(shù),利用調(diào)整的參數(shù)訓(xùn)練學(xué)習(xí)器,從所有的參數(shù)中找到在驗證集上精度最高的參數(shù),這其實是一個訓(xùn)練和比較的過程。

GridSearchCV可以保證在指定的參數(shù)范圍內(nèi)找到精度最高的參數(shù),但是這也是網(wǎng)格搜索的缺陷所在,他要求遍歷所有可能參數(shù)的組合,在面對大數(shù)據(jù)集和多參數(shù)的情況下,非常耗時。

什么是Grid Search網(wǎng)格搜索?

Grid Search:一種調(diào)參手段;窮舉搜索:在所有候選的參數(shù)選擇中,通過循環(huán)遍歷,嘗試每一種可能性,表現(xiàn)最好的參數(shù)就是最終的結(jié)果。其原理就像是在數(shù)組里找到最大值。這種方法的主要缺點是比較耗時!

所以網(wǎng)格搜索適用于三四個(或者更少)的超參數(shù)(當(dāng)超參數(shù)的數(shù)量增長時,網(wǎng)格搜索的計算復(fù)雜度會呈現(xiàn)指數(shù)增長,這時候則使用隨機(jī)搜索),用戶列出一個較小的超參數(shù)值域,這些超參數(shù)至于的笛卡爾積(排列組合)為一組組超參數(shù)。網(wǎng)格搜索算法使用每組超參數(shù)訓(xùn)練模型并挑選驗證集誤差最小的超參數(shù)組合。

以隨機(jī)森林為例說明GridSearch網(wǎng)格搜索

下面代碼,我們要搜索兩種網(wǎng)格,一種是n_estimators,一種是max_features。GridSearch會挑選出最適合的超參數(shù)值。1

2

3

4

5

6

7

8

9

10

11from sklearn.model_selection import GridSearchCV

param_grid = [

{'n_estimators': [3, 10, 30], 'max_features': [2, 4, 6, 8]},

{'bootstrap': [False], 'n_estimators': [3, 10], 'max_features': [2, 3, 4]},

]

forest_reg = RandomForestRegressor()

grid_search = GridSearchCV(forest_reg, param_grid, cv=5,

scoring='neg_mean_squared_error')

grid_search.fit(housing_prepared, housing_labels)

sklearn 根據(jù)param_grid的值,首先會評估3×4=12種n_estimators和max_features的組合方式,接下來在會在bootstrap=False的情況下(默認(rèn)該值為True),評估2×3=6種12種n_estimators和max_features的組合方式,所以最終會有12+6=18種不同的超參數(shù)組合方式,而每一種組合方式要在訓(xùn)練集上訓(xùn)練5次, 所以一共要訓(xùn)練18×5=90 次,當(dāng)訓(xùn)練結(jié)束后,你可以通過best_params_獲得最好的組合方式。1grid_search.best_params_

輸出結(jié)果如下:1{‘max_features’: 8, ‘n_estimators’: 30}

得到最好的模型1grid_search.best_estimator_

輸出如下:1

2

3

4

5

6RandomForestRegressor(bootstrap=True, criterion=‘mse’, max_depth=None,

max_features=8, max_leaf_nodes=None, min_impurity_decrease=0.0,

min_impurity_split=None, min_samples_leaf=1,

min_samples_split=2, min_weight_fraction_leaf=0.0,

n_estimators=30, n_jobs=1, oob_score=False, random_state=None,

verbose=0, warm_start=False)

如果GridSearchCV初始化時,refit=True(默認(rèn)的初始化值),在交叉驗證時,一旦發(fā)現(xiàn)最好的模型(estimator),將會在整個訓(xùn)練集上重新訓(xùn)練,這通常是一個好主意,因為使用更多的數(shù)據(jù)集會提升模型的性能。

以上面有兩個參數(shù)的模型為例,參數(shù)a有3中可能,參數(shù)b有4種可能,把所有可能性列出來,可以表示成一個3*4的表格,其中每個cell就是一個網(wǎng)格,循環(huán)過程就像是在每個網(wǎng)格里遍歷,搜索,所以叫g(shù)rid search。

以Xgboost為例說明GridSearch網(wǎng)格搜索

下面以阿里IJCAI廣告推薦數(shù)據(jù)集與XgboostClassifier分類器為例,用代碼形式說明sklearn中GridSearchCV的使用方法。(此小例的代碼是參考這里:請點擊我)1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41import numpy as np

import pandas as pd

import xgboost as xgb

from sklearn.grid_search import GridSearchCV

#導(dǎo)入訓(xùn)練數(shù)據(jù)

traindata = pd.read_csv("/traindata_4_3.txt",sep = ',')

traindata = traindata.set_index('instance_id')

trainlabel = traindata['is_trade']

del traindata['is_trade']

print(traindata.shape,trainlabel.shape)

#分類器使用 xgboost

clf1 = xgb.XGBClassifier()

#設(shè)定網(wǎng)格搜索的xgboost參數(shù)搜索范圍,值搜索XGBoost的主要6個參數(shù)

param_dist = {

'n_estimators':range(80,200,4),

'max_depth':range(2,15,1),

'learning_rate':np.linspace(0.01,2,20),

'subsample':np.linspace(0.7,0.9,20),

'colsample_bytree':np.linspace(0.5,0.98,10),

'min_child_weight':range(1,9,1)

}

#GridSearchCV參數(shù)說明,clf1設(shè)置訓(xùn)練的學(xué)習(xí)器

#param_dist字典類型,放入?yún)?shù)搜索范圍

#scoring = 'neg_log_loss',精度評價方式設(shè)定為“neg_log_loss“

#n_iter=300,訓(xùn)練300次,數(shù)值越大,獲得的參數(shù)精度越大,但是搜索時間越長

#n_jobs = -1,使用所有的CPU進(jìn)行訓(xùn)練,默認(rèn)為1,使用1個CPU

grid = GridSearchCV(clf1,param_dist,cv = 3,scoring = 'neg_log_loss',n_iter=300,n_jobs = -1)

#在訓(xùn)練集上訓(xùn)練

grid.fit(traindata.values,np.ravel(trainlabel.values))

#返回最優(yōu)的訓(xùn)練器

best_estimator = grid.best_estimator_

print(best_estimator)

#輸出最優(yōu)訓(xùn)練器的精度

這里關(guān)于網(wǎng)格搜索的幾個參數(shù)在說明一下,評分參數(shù)“scoring”,需要根據(jù)實際的評價標(biāo)準(zhǔn)設(shè)定,阿里的IJCAI的標(biāo)準(zhǔn)時“neg_log_loss”,所以這里設(shè)定為“neg_log_loss”,sklearn中備選的評價標(biāo)準(zhǔn)如下:在一些情況下,sklearn中沒有現(xiàn)成的評價函數(shù),sklearn是允許我們自定義的,但是需要注意格式。

接下來看一下我們定義的評價函數(shù):1

2

3

4

5

6

7

8

9

10

11

12

13

14import numpy as np

from sklearn.metrics import make_scorer

def logloss(act, pred):

epsilon = 1e-15

pred = sp.maximum(epsilon, pred)

pred = sp.minimum(1-epsilon, pred)

ll = sum(act*sp.log(pred) + sp.subtract(1, act)*sp.log(sp.subtract(1, pred)))

ll = ll * -1.0/len(act)

return ll

#這里的greater_is_better參數(shù)決定了自定義的評價指標(biāo)是越大越好還是越小越好

loss = make_scorer(logloss, greater_is_better=False)

score = make_scorer(logloss, greater_is_better=True)

定義好以后,再將其帶入GridSearchCV函數(shù)就好。

這里再貼一下常用的集成學(xué)習(xí)算法比較重要的需要調(diào)參的參數(shù):

以SVR為例說明GridSearch網(wǎng)格搜索

以兩個參數(shù)的調(diào)優(yōu)過程為例:1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22from sklearn.datasets import load_iris

from sklearn.svm import SVC

from sklearn.model_selection import train_test_split

iris_data = load_iris()

X_train,X_test,y_train,y_test = train_test_split(iris_data.data,iris_data.target,random_state=0)

# grid search start

best_score = 0

for gamma in [0.001,0.01,1,10,100]:

for c in [0.001,0.01,1,10,100]:

# 對于每種參數(shù)可能的組合,進(jìn)行一次訓(xùn)練

svm = SVC(gamma=gamma,C=c)

svm.fit(X_train,y_train)

score = svm.score(X_test,y_test)

# 找到表現(xiàn)最好的參數(shù)

if score > best_score:

best_score = score

best_parameters = {'gamma':gamma,"C":c}

print('Best socre:{:.2f}'.format(best_score))

print('Best parameters:{}'.format(best_parameters))

輸出結(jié)果:1

2Best socre:0.97

Best parameters:{'gamma': 0.001, 'C': 100}

2.4 上面調(diào)參存在的問題是什么呢?

原始數(shù)據(jù)集劃分成訓(xùn)練集和測試集以后,其中測試集除了用作調(diào)整參數(shù),也用來測量模型的好壞;這樣做導(dǎo)致最終的評分結(jié)果比實際效果好。(因為測試集在調(diào)參過程中,送到了模型里,而我們的目的是將訓(xùn)練模型應(yīng)用到unseen data上)。

2.5 解決方法是什么呢?

對訓(xùn)練集再進(jìn)行一次劃分,分為訓(xùn)練集和驗證集,這樣劃分的結(jié)果就是:原始數(shù)據(jù)劃分為3份,分別為:訓(xùn)練集,驗證集和測試集;其中訓(xùn)練集用來模型訓(xùn)練,驗證集用來調(diào)整參數(shù),而測試集用來衡量模型表現(xiàn)好壞。

代碼:1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33from sklearn.datasets import load_iris

from sklearn.svm import SVC

from sklearn.model_selection import train_test_split

iris_data = load_iris()

# X_train,X_test,y_train,y_test = train_test_split(iris_data.data,iris_data.target,random_state=0)

X_trainval,X_test,y_trainval,y_test = train_test_split(iris_data.data,iris_data.target,random_state=0)

X_train ,X_val,y_train,y_val = train_test_split(X_trainval,y_trainval,random_state=1)

# grid search start

best_score = 0

for gamma in [0.001,0.01,1,10,100]:

for c in [0.001,0.01,1,10,100]:

# 對于每種參數(shù)可能的組合,進(jìn)行一次訓(xùn)練

svm = SVC(gamma=gamma,C=c)

svm.fit(X_train,y_train)

score = svm.score(X_val,y_val)

# 找到表現(xiàn)最好的參數(shù)

if score > best_score:

best_score = score

best_parameters = {'gamma':gamma,"C":c}

# 使用最佳參數(shù),構(gòu)建新的模型

svm = SVC(**best_parameters)

# 使用訓(xùn)練集和驗證集進(jìn)行訓(xùn)練 more data always resultd in good performance

svm.fit(X_trainval,y_trainval)

# evalyation 模型評估

test_score = svm.score(X_test,y_test)

print('Best socre:{:.2f}'.format(best_score))

print('Best parameters:{}'.format(best_parameters))

print('Best score on test set:{:.2f}'.format(test_score))

結(jié)果:1

2

3Best socre:0.96

Best parameters:{'gamma': 0.001, 'C': 10}

Best score on test set:0.92

然而,這種簡潔的grid search方法,其最終的表現(xiàn)好壞與初始數(shù)據(jù)的劃分結(jié)果有很大的關(guān)系,為了處理這種情況,我們采用交叉驗證的方式來減少偶然性。

2.6,交叉驗證改進(jìn)SVM代碼(Grid Search with Cross Validation)

代碼:1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34from sklearn.datasets import load_iris

from sklearn.svm import SVC

from sklearn.model_selection import train_test_split,cross_val_score

iris_data = load_iris()

# X_train,X_test,y_train,y_test = train_test_split(iris_data.data,iris_data.target,random_state=0)

X_trainval,X_test,y_trainval,y_test = train_test_split(iris_data.data,iris_data.target,random_state=0)

X_train ,X_val,y_train,y_val = train_test_split(X_trainval,y_trainval,random_state=1)

# grid search start

best_score = 0

for gamma in [0.001,0.01,1,10,100]:

for c in [0.001,0.01,1,10,100]:

# 對于每種參數(shù)可能的組合,進(jìn)行一次訓(xùn)練

svm = SVC(gamma=gamma,C=c)

# 5 折交叉驗證

scores = cross_val_score(svm,X_trainval,y_trainval,cv=5)

score = scores.mean()

# 找到表現(xiàn)最好的參數(shù)

if score > best_score:

best_score = score

best_parameters = {'gamma':gamma,"C":c}

# 使用最佳參數(shù),構(gòu)建新的模型

svm = SVC(**best_parameters)

# 使用訓(xùn)練集和驗證集進(jìn)行訓(xùn)練 more data always resultd in good performance

svm.fit(X_trainval,y_trainval)

# evalyation 模型評估

test_score = svm.score(X_test,y_test)

print('Best socre:{:.2f}'.format(best_score))

print('Best parameters:{}'.format(best_parameters))

print('Best score on test set:{:.2f}'.format(test_score))

結(jié)果:1

2

3Best socre:0.97

Best parameters:{'gamma': 0.01, 'C': 100}

Best score on test set:0.97

交叉驗證經(jīng)常與網(wǎng)絡(luò)搜索進(jìn)行結(jié)合,作為參數(shù)評價的一種方法,這種方法叫做grid search with cross validation。

sklearn因此設(shè)計了一個這樣的類GridSearchCV,這個類實現(xiàn)fit,predict,score等方法。被當(dāng)做一個estimator,使用fit方法,該過程中:

(1) 搜索到最佳參數(shù)

(2)實例化了一個最佳參數(shù)的estimator

3,RandomizedSearchCV——(隨機(jī)搜索)

文獻(xiàn)地址可以參考:請點擊我

所謂的模型配置,一般統(tǒng)稱為模型的超參數(shù)(Hyperparameters),比如KNN算法中的K值,SVM中不同的核函數(shù)(Kernal)等。多數(shù)情況下,超參數(shù)等選擇是無限的。在有限的時間內(nèi),除了可以驗證人工預(yù)設(shè)幾種超參數(shù)組合以外,也可以通過啟發(fā)式的搜索方法對超參數(shù)組合進(jìn)行調(diào)優(yōu)。稱這種啟發(fā)式的超參數(shù)搜索方法為網(wǎng)格搜索。

我們在搜索超參數(shù)的時候,如果超參數(shù)個數(shù)較少(三四個或者更少),那么我們可以采用網(wǎng)格搜索,一種窮盡式的搜索方法。但是當(dāng)超參數(shù)個數(shù)比較多的時候,我們?nèi)匀徊捎镁W(wǎng)格搜索,那么搜索所需時間將會指數(shù)級上升。

所以有人就提出了隨機(jī)搜索的方法,隨機(jī)在超參數(shù)空間中搜索幾十幾百個點,其中就有可能有比較小的值。這種做法比上面稀疏化網(wǎng)格的做法快,而且實驗證明,隨機(jī)搜索法結(jié)果比稀疏網(wǎng)格法稍好。

RandomizedSearchCV使用方法和類GridSearchCV 很相似,但他不是嘗試所有可能的組合,而是通過選擇每一個超參數(shù)的一個隨機(jī)值的特定數(shù)量的隨機(jī)組合,這個方法有兩個優(yōu)點:

如果你讓隨機(jī)搜索運(yùn)行, 比如1000次,它會探索每個超參數(shù)的1000個不同的值(而不是像網(wǎng)格搜索那樣,只搜索每個超參數(shù)的幾個值)

你可以方便的通過設(shè)定搜索次數(shù),控制超參數(shù)搜索的計算量。

RandomizedSearchCV的使用方法其實是和GridSearchCV一致的,但它以隨機(jī)在參數(shù)空間中采樣的方式代替了GridSearchCV對于參數(shù)的網(wǎng)格搜索,在對于有連續(xù)變量的參數(shù)時,RandomizedSearchCV會將其當(dāng)做一個分布進(jìn)行采樣進(jìn)行這是網(wǎng)格搜索做不到的,它的搜索能力取決于設(shè)定的n_iter參數(shù),同樣的給出代碼。

代碼如下:1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41import numpy as np

import pandas as pd

import xgboost as xgb

from sklearn.grid_search import RandomizedSearchCV

#導(dǎo)入訓(xùn)練數(shù)據(jù)

traindata = pd.read_csv("/traindata.txt",sep = ',')

traindata = traindata.set_index('instance_id')

trainlabel = traindata['is_trade']

del traindata['is_trade']

print(traindata.shape,trainlabel.shape)

#分類器使用 xgboost

clf1 = xgb.XGBClassifier()

#設(shè)定搜索的xgboost參數(shù)搜索范圍,值搜索XGBoost的主要6個參數(shù)

param_dist = {

'n_estimators':range(80,200,4),

'max_depth':range(2,15,1),

'learning_rate':np.linspace(0.01,2,20),

'subsample':np.linspace(0.7,0.9,20),

'colsample_bytree':np.linspace(0.5,0.98,10),

'min_child_weight':range(1,9,1)

}

#RandomizedSearchCV參數(shù)說明,clf1設(shè)置訓(xùn)練的學(xué)習(xí)器

#param_dist字典類型,放入?yún)?shù)搜索范圍

#scoring = 'neg_log_loss',精度評價方式設(shè)定為“neg_log_loss“

#n_iter=300,訓(xùn)練300次,數(shù)值越大,獲得的參數(shù)精度越大,但是搜索時間越長

#n_jobs = -1,使用所有的CPU進(jìn)行訓(xùn)練,默認(rèn)為1,使用1個CPU

grid = RandomizedSearchCV(clf1,param_dist,cv = 3,scoring = 'neg_log_loss',n_iter=300,n_jobs = -1)

#在訓(xùn)練集上訓(xùn)練

grid.fit(traindata.values,np.ravel(trainlabel.values))

#返回最優(yōu)的訓(xùn)練器

best_estimator = grid.best_estimator_

print(best_estimator)

#輸出最優(yōu)訓(xùn)練器的精度

print(grid.best_score_)

建議使用隨機(jī)搜索。

超參數(shù)搜索——網(wǎng)格搜索&并行搜索代碼1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49#-*- coding:utf-8 -*-

#1.使用單線程對文本分類的樸素貝葉斯模型的超參數(shù)組合執(zhí)行網(wǎng)格搜索

from sklearn.datasets import fetch_20newsgroups

import numpy as np

news = fetch_20newsgroups(subset='all')

from sklearn.cross_validation import train_test_split

#取前3000條新聞文本進(jìn)行數(shù)據(jù)分割

X_train,X_test,y_train,y_test=train_test_split(news.data[:3000],

news.target[:3000],test_size=0.25,random_state=33)

from sklearn.svm import SVC

from sklearn.feature_extraction.text import TfidfVectorizer

#*************導(dǎo)入pipeline*************

from sklearn.pipeline import Pipeline

#使用Pipeline簡化系統(tǒng)搭建流程,sklean提供的pipeline來將多個學(xué)習(xí)器組成流水線,通常流水線的形式為:

#將數(shù)據(jù)標(biāo)準(zhǔn)化的學(xué)習(xí)器---特征提取的學(xué)習(xí)器---執(zhí)行預(yù)測的學(xué)習(xí)器

#將文本特征與分類器模型串聯(lián)起來,[(),()]里有兩個參數(shù)

#參數(shù)1:執(zhí)行 vect = TfidfVectorizer(stop_words='english',analyzer='word')操作

#參數(shù)2:執(zhí)行 svc = SVC()操作

clf = Pipeline([('vect',TfidfVectorizer(stop_words='english',analyzer='word')),('svc',SVC())])

#這里需要試驗的2個超參數(shù)svc_gamma和svc_C的元素個數(shù)分別為4、3,這樣我們一共有12種超參數(shù)對集合

#numpy.linspace用于創(chuàng)建等差數(shù)列,numpy.logspace用于創(chuàng)建等比數(shù)列

#logspace中,開始點和結(jié)束點是10的冪

#例如logspace(-2,1,4)表示起始數(shù)字為10^-2,結(jié)尾數(shù)字為10^1即10,元素個數(shù)為4的等比數(shù)列

#parameters變量里面的key都有一個前綴,這個前綴其實就是在Pipeline中定義的操作名。二者相結(jié)合,使我們的代碼變得十分簡潔。

#還有注意的是,這里對參數(shù)名是下劃線 __

parameters = {'svc__gamma':np.logspace(-2,1,4),'svc__C':np.logspace(-1,1,3)}

#從sklearn.grid_search中導(dǎo)入網(wǎng)格搜索模塊GridSearchCV

from sklearn.grid_search import GridSearchCV

#GridSearchCV參數(shù)解釋:

#1.estimator : estimator(評估) object.

#2.param_grid : dict or list of dictionaries

#3.verbose:Controls the verbosity(冗余度): the higher, the more messages.

#4.refit:default=True, Refit(再次擬合)the best estimator with the entire dataset

#5.cv : int, cross-validation generator 此處表示3折交叉驗證

gs = GridSearchCV(clf,parameters,verbose=2,refit=True,cv=3)

#執(zhí)行單線程網(wǎng)格搜索

gs.fit(X_train,y_train)

print gs.best_params_,gs.best_score_

#最后輸出最佳模型在測試集上的準(zhǔn)確性

print 'the accuracy of best model in test set is',gs.score(X_test,y_test)

#小結(jié):

#1.由輸出結(jié)果可知,使用單線程的網(wǎng)格搜索技術(shù) 對樸素貝葉斯模型在文本分類任務(wù)中的超參數(shù)組合進(jìn)行調(diào)優(yōu),

共有12組超參數(shù)組合*3折交叉驗證 =36項獨(dú)立運(yùn)行的計算任務(wù)

#2.在本機(jī)上,該過程一共運(yùn)行了2.9min,尋找到最佳的超參數(shù)組合在測試集上達(dá)到的分類準(zhǔn)確性為82.27%

#2.使用多線程對文本分類的樸素貝葉斯模型的超參數(shù)組合執(zhí)行網(wǎng)格搜索1

2

3

4

5

6

7

8

9

10

11#n_jobs=-1,表示使用該計算機(jī)的全部cpu

gs = GridSearchCV(clf,parameters,verbose=2,refit=True,cv=3,n_jobs=-1)

gs.fit(X_train,y_train)

print gs.best_params_,gs.best_score_

#輸出最佳模型在測試集上的準(zhǔn)確性

print 'the accuracy of best model in test set is',gs.score(X_test,y_test)

#小結(jié):

#總?cè)蝿?wù)相同的情況下,使用并行搜索技術(shù)進(jìn)行計算的話,執(zhí)行時間只花費(fèi)了1.1min;

#而且最終所得的的best_params_和score沒有發(fā)生變化,說明并行搜索可以在不影響準(zhǔn)確性的前提下,

#有效的利用計算機(jī)的CPU資源,大大節(jié)省了最佳超參數(shù)的搜索時間。

4, 超參數(shù)估計的隨機(jī)搜索和網(wǎng)格搜索的比較

使用的數(shù)據(jù)集是小數(shù)據(jù)集 手寫數(shù)字?jǐn)?shù)據(jù)集 load_digits() 分類 數(shù)據(jù)規(guī)模 5620*64

(sklearn中的小數(shù)據(jù)可以直接使用,大數(shù)據(jù)集在第一次使用的時候會自動下載)

比較隨機(jī)森林超參數(shù)優(yōu)化的隨機(jī)搜索和網(wǎng)格搜索。所有影響學(xué)習(xí)的參數(shù)都是同時搜索的(除了估計值的數(shù)量,它會造成時間/質(zhì)量的權(quán)衡)。

隨機(jī)搜索和網(wǎng)格搜索探索的是完全相同的參數(shù)空間。參數(shù)設(shè)置的結(jié)果非常相似,而隨機(jī)搜索的運(yùn)行時間要低的多。

隨機(jī)搜索的性能稍差,不過這很可能是噪聲效應(yīng),不會延續(xù)到外置測試集

注意:在實踐中,人們不會使用網(wǎng)格搜索同時搜索這么多不同的參數(shù),而是只選擇那些被認(rèn)為最重要的參數(shù)。

代碼如下:1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93#_*_coding:utf-8_*_

# 輸出文件開頭注釋的內(nèi)容 __doc__的作用

'''

Python有個特性叫做文檔字符串,即DocString ,這個特性可以讓你的程序文檔更加清晰易懂

'''

print(__doc__)

import numpy as np

from time import time

from scipy.stats import randint as sp_randint

from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import RandomizedSearchCV

from sklearn.datasets import load_digits

from sklearn.ensemble import RandomForestClassifier

# get some data

digits = load_digits()

X, y = digits.data , digits.target

# build a classifier

clf = RandomForestClassifier(n_estimators=20)

# utility function to report best scores

def report(results, n_top= 3):

for i in range(1, n_top + 1):

candidates = np.flatnonzero(results['rank_test_score'] == i)

for candidate in candidates:

print("Model with rank:{0}".format(i))

print("Mean validation score : {0:.3f} (std: {1:.3f})".

format(results['mean_test_score'][candidate],

results['std_test_score'][candidate]))

print("Parameters: {0}".format(results['params'][candidate]))

print("")

# 指定取樣的參數(shù)和分布 specify parameters and distributions to sample from

param_dist = {"max_depth":[3,None],

"max_features":sp_randint(1,11),

"min_samples_split":sp_randint(2,11),

"bootstrap":[True, False],

"criterion":["gini","entropy"]

}

# run randomized search

n_iter_search = 20

random_search = RandomizedSearchCV(clf,param_distributions=param_dist,

n_iter=n_iter_search,cv =5)

start = time()

random_search.fit(X, y)

print("RandomizedSearchCV took %.2f seconds for %d candidates"

" parameter settings." % ((time() - start), n_iter_search))

report(random_search.cv_results_)

# use a full grid over all parameters

param_grid = {"max_depth":[3,None],

"max_features":[1, 3, 10],

"min_samples_split":[2, 3, 10],

"bootstrap":[True, False],

"criterion":["gini","entropy"]

}

# run grid search

grid_search = GridSearchCV(clf, param_grid=param_grid, cv =5)

start = time()

grid_search.fit(X , y)

print("GridSearchCV took %.2f seconds for %d candidate parameter settings."

% (time() - start, len(grid_search.cv_results_['params'])))

report(grid_search.cv_results_)

結(jié)果如下:

RandomizedSearchCV took 6.20 seconds for 20 candidates parameter settings.

Model with rank:1

Mean validation score : 0.930 (std: 0.031)

Parameters: {'bootstrap': False, 'criterion': 'entropy', 'max_depth': None, 'max_features': 6, 'min_samples_split': 5}

Model with rank:2

Mean validation score : 0.929 (std: 0.024)

Parameters: {'bootstrap': False, 'criterion': 'entropy', 'max_depth': None, 'max_features': 6, 'min_samples_split': 9}

Model with rank:3

Mean validation score : 0.924 (std: 0.020)

Parameters: {'bootstrap': False, 'criterion': 'gini', 'max_depth': None, 'max_features': 3, 'min_samples_split': 6}

Model with rank:1

Mean validation score : 0.932 (std: 0.023)

Parameters: {'bootstrap': False, 'criterion': 'gini', 'max_depth': None, 'max_features': 10, 'min_samples_split': 3}

Model with rank:2

Mean validation score : 0.931 (std: 0.014)

Parameters: {'bootstrap': False, 'criterion': 'gini', 'max_depth': None, 'max_features': 3, 'min_samples_split': 3}

Model with rank:3

Mean validation score : 0.929 (std: 0.021)

Parameters: {'bootstrap': False, 'criterion': 'entropy', 'max_depth': None, 'max_features': 3, 'min_samples_split': 2}

scikit-learn GridSearch庫概述

sklearn的Grid Search官網(wǎng)地址:請點擊我

GridSearchCV簡介

GridSearchCV,它存在的意義就是自動調(diào)參,只要把參數(shù)輸進(jìn)去,就能給出最優(yōu)化結(jié)果和參數(shù)。但是這個方法適合于小數(shù)據(jù)集,一旦數(shù)據(jù)的量級上去了,很難得到結(jié)果。這個時候就需要動腦筋了。數(shù)據(jù)量比較大的時候可以使用一個快速調(diào)優(yōu)的方法——坐標(biāo)下降。它其實是一種貪心算法:拿當(dāng)前對模型影響最大的參數(shù)調(diào)參,直到最優(yōu)化;再拿下一個影響最大的參數(shù)調(diào)優(yōu),如此下去,直到所有的參數(shù)調(diào)整完畢。這個方法的缺點就是可能會跳到局部最優(yōu)而不是全局最優(yōu),但是省時間省力,巨大的優(yōu)勢面前,還是試一試,后續(xù)可以再拿bagging再優(yōu)化。

通常算法不夠好,需要調(diào)試參數(shù)時必不可少。比如SVM的懲罰因子C,核函數(shù)kernel,gamma參數(shù)等,對于不同的數(shù)據(jù)使用不同的參數(shù),結(jié)果效果可能差1~5個點,sklearn為我們專門調(diào)試參數(shù)的函數(shù)grid_search。

GridSearchCV參數(shù)說明

參數(shù)如下:1

2

3class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None,

fit_params=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0,

pre_dispatch=‘2*n_jobs’, error_score=’raise-deprecating’, return_train_score=’warn’)

說明如下:

1)estimator:選擇使用的分類器,并且傳入除需要確定最佳的參數(shù)之外的其他參數(shù)。每一個分類器都需要一個scoring參數(shù),或者score方法:如estimator = RandomForestClassifier(min_sample_split=100,min_samples_leaf = 20,max_depth = 8,max_features = ‘sqrt’ , random_state =10),

2)param_grid:需要最優(yōu)化的參數(shù)的取值,值為字典或者列表,例如:param_grid = param_test1,param_test1 = {‘n_estimators’ : range(10,71,10)}

3)scoring = None :模型評價標(biāo)準(zhǔn),默認(rèn)為None,這時需要使用score函數(shù);或者如scoring = ‘roc_auc’,根據(jù)所選模型不同,評價準(zhǔn)則不同,字符串(函數(shù)名),或是可調(diào)用對象,需要其函數(shù)簽名,形如:scorer(estimator,X,y);如果是None,則使用estimator的誤差估計函數(shù)。

4)fit_para,s = None

5)n_jobs = 1 : n_jobs:并行數(shù),int:個數(shù),-1:跟CPU核數(shù)一致,1:默認(rèn)值

6)iid = True:iid:默認(rèn)為True,為True時,默認(rèn)為各個樣本fold概率分布一致,誤差估計為所有樣本之和,而非各個fold的平均。

7)refit = True :默認(rèn)為True,程序?qū)越徊骝炞C訓(xùn)練集得到的最佳參數(shù),重新對所有可能的訓(xùn)練集與開發(fā)集進(jìn)行,作為最終用于性能評估的最佳模型參數(shù)。即在搜索參數(shù)結(jié)束后,用最佳參數(shù)結(jié)果再次fit一遍全部數(shù)據(jù)集。

8)cv = None:交叉驗證參數(shù),默認(rèn)None,使用三折交叉驗證。指定fold數(shù)量,默認(rèn)為3,也可以是yield訓(xùn)練/測試數(shù)據(jù)的生成器。

9)verbose = 0 ,scoring = None  verbose:日志冗長度,int:冗長度,0:不輸出訓(xùn)練過程,1:偶爾輸出,>1:對每個子模型都輸出。

10)pre_dispatch = ‘2*n_jobs’ :指定總共發(fā)的并行任務(wù)數(shù),當(dāng)n_jobs大于1時候,數(shù)據(jù)將在每個運(yùn)行點進(jìn)行復(fù)制,這可能導(dǎo)致OOM,而設(shè)置pre_dispatch參數(shù),則可以預(yù)先劃分總共的job數(shù)量,使數(shù)據(jù)最多被復(fù)制pre_dispatch次。

##進(jìn)行預(yù)測的常用方法和屬性

grid.fit() :運(yùn)行網(wǎng)格搜索

grid_scores_ :給出不同參數(shù)情況下的評價結(jié)果

best_params_ :描述了已取得最佳結(jié)果的參數(shù)的組合

best_score_ :提供優(yōu)化過程期間觀察到的最好的評分

cv_results_ :具體用法模型不同參數(shù)下交叉驗證的結(jié)果

4,GridSearchCV屬性說明

(1) cv_results_ : dict of numpy (masked) ndarrays

具有鍵作為列標(biāo)題和值作為列的dict,可以導(dǎo)入到DataFrame中。注意,“params”鍵用于存儲所有參數(shù)候選項的參數(shù)設(shè)置列表。

(2) best_estimator_ : estimator

通過搜索選擇的估計器,即在左側(cè)數(shù)據(jù)上給出最高分?jǐn)?shù)(或指定的最小損失)的估計器。如果refit = False,則不可用。

(3)best_score_ :float best_estimator的分?jǐn)?shù)

(4)best_parmas_ : dict 在保存數(shù)據(jù)上給出最佳結(jié)果的參數(shù)設(shè)置

(5) best_index_ : int 對應(yīng)于最佳候選參數(shù)設(shè)置的索引(cv_results_數(shù)組)

search.cv_results _ [‘params’] [search.best_index_]中的dict給出了最佳模型的參數(shù)設(shè)置,給出了最高的平均分?jǐn)?shù)(search.best_score_)。

(6)scorer_ : function

Scorer function used on the held out data to choose the best parameters for the model.

(7)n_splits_ : int

The number of cross-validation splits (folds/iterations).

利用決策樹預(yù)測乳腺癌的例子(網(wǎng)格搜索算法優(yōu)化)

網(wǎng)格搜索算法與K折交叉驗證理論知識

網(wǎng)格搜索算法是一種通過遍歷給定的參數(shù)組合來優(yōu)化模型表現(xiàn)的方法。

以決策樹為例,當(dāng)我們確定了要使用決策樹算法的時候,為了能夠更好地擬合和預(yù)測,我們需要調(diào)整它的參數(shù)。在決策樹算法中,我們通常選擇的參數(shù)是決策樹的最大深度。

于是下面我們會給出一系列的最大深度的值,比如{‘max_depth’:[1,2,3,4,5] },我們就會盡可能包含最優(yōu)最大深度。

不過我們?nèi)绾沃滥膫€最大深度的模型是最好的呢?我們需要一種可靠的評分方法,對每個最大深度的決策樹模型都進(jìn)行評價,這其中非常經(jīng)典的一種方法就是交叉驗證,下面我們就以K折交叉驗證為例,詳細(xì)介紹一下其算法過程。

首先我們先看一下數(shù)據(jù)集時如何分割的,我們拿到的原始數(shù)據(jù)集首先會按照一定的比例劃分出訓(xùn)練集和測試集。比如下圖,以8:2分割的數(shù)據(jù)集:

訓(xùn)練集是用來訓(xùn)練我們的模型,它的作用就像我們平時做的練習(xí)題;測試集用來評估我們訓(xùn)練好的模型表現(xiàn)如何,它不能被提前被模型看到。

因此,在K折交叉驗證中,我們用到的數(shù)據(jù)是訓(xùn)練集中的所有數(shù)據(jù),我們將訓(xùn)練集的所有數(shù)據(jù)平均劃分出K份(通常選擇K=10),取第K份作為驗證集,它的作用就像我們用來估計高考分?jǐn)?shù)的模擬題,余下的K-1份作為交叉驗證的訓(xùn)練集。

對于我們最開始選擇的決策樹的5個最大深度,以max_depth=1為例,我們先用第2-10份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,用第一份數(shù)據(jù)作為驗證集對這次訓(xùn)練的模型進(jìn)行評分,得到第一個分?jǐn)?shù);然后重新構(gòu)建一個max_depth = 1的決策樹,用第1和3-10份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,用第2份數(shù)據(jù)作為驗證集對這次訓(xùn)練的模型進(jìn)行評分,得到第二個分?jǐn)?shù)…..以此類推,最后構(gòu)建一個max_depth = 1的決策樹用第1-9份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,用第10份數(shù)據(jù)作為驗證集對這次訓(xùn)練的模型進(jìn)行評分,得到10個驗證分?jǐn)?shù),然后計算著10個驗證分?jǐn)?shù)的平均分?jǐn)?shù),就是max_depth = 1的決策樹模型的最終驗證分?jǐn)?shù)。

對于max_depth = 2,3,4,5時,分別進(jìn)行和max_depth =1 相同的交叉驗證過程,得到他們的最終驗證分?jǐn)?shù),然后我們就可以對這5個最大深度的決策樹的最終驗證分?jǐn)?shù)進(jìn)行比較,分?jǐn)?shù)最高的那個就是最優(yōu)最大深度,我們利用最優(yōu)參數(shù)在全部訓(xùn)練集上訓(xùn)練一個新的模型,整個模型就是最優(yōu)模型。

簡單的利用決策樹預(yù)測乳腺癌的例子

代碼:1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47from sklearn.model_selection import GridSearchCV,KFold,train_test_split

from sklearn.metrics import make_scorer , accuracy_score

from sklearn.tree import DecisionTreeClassifier

from sklearn.datasets import load_breast_cancer

import warnings

from sklearn.neighbors import KNeighborsClassifier as KNN

warnings.filterwarnings('ignore')

# load data

data = load_breast_cancer()

print(data.data.shape)

print(data.target.shape)

# (569, 30)

# (569,)

X,y = data['data'] , data['target']

X_train,X_test,y_train,y_test = train_test_split(

X,y,train_size=0.8 , random_state=0

)

regressor = DecisionTreeClassifier(random_state=0)

parameters = {'max_depth':range(1,6)}

scorin_fnc = make_scorer(accuracy_score)

kflod = KFold(n_splits=10)

grid = GridSearchCV(regressor,parameters,scorin_fnc,cv=kflod)

grid = grid.fit(X_train,y_train)

reg = grid.best_estimator_

print('best score:%f'%grid.best_score_)

print('best parameters:')

for key in parameters.keys():

print('%s:%d'%(key,reg.get_params()[key]))

print('test score : %f'%reg.score(X_test,y_test))

# import pandas as pd

# pd.DataFrame(grid.cv_results_).T

# 引入KNN訓(xùn)練方法

knn = KNN()

# 進(jìn)行填充測試數(shù)據(jù)進(jìn)行訓(xùn)練

knn.fit(X_train,y_train)

params = knn.get_params()

score = knn.score(X_test,y_test)

print("KNN 預(yù)測得分為:%s"%score)

結(jié)果:1

2

3

4

5

6

7(569, 30)

(569,)

best score:0.938462

best parameters:

max_depth:4

test score : 0.956140

KNN 預(yù)測得分為:0.9385964912280702

問題一:AttributeError: ‘GridSearchCV’ object has no attribute ‘grid_scores_’

問題描述:

Python運(yùn)行代碼的時候,到gsearch1.grid_scores_ 時報錯:1AttributeError: 'GridSearchCV' object has no attribute 'grid_scores_'

原因:

之所以出現(xiàn)以上問題,原因在于grid_scores_在sklearn0.20版本中已被刪除,取而代之的是cv_results_。

解決方法:

將下面代碼:1a,b,c = gsearch1.grid_scores_, gsearch1.best_params_, gsearch1.best_score_

換成:1a,b,c = gsearch1.cv_results_, gsearch1.best_params_, gsearch1.best_score_

問題二:ModuleNotFoundError: No module named ‘sklearn.grid_search’

問題描述:

Python運(yùn)行代碼時候,到from sklearn.grid_search import GridSearchCV時報錯:1ModuleNotFoundError: No module named 'sklearn.grid_search'

原因:

sklearn.grid_search模塊在0.18版本中被棄用,它所支持的類轉(zhuǎn)移到model_selection 模板中。還要注意,新的CV迭代器的接口與這個模塊的接口不同,sklearn.grid_search在0.20中被刪除。

解決方法:

將下面代碼1from sklearn.grid_search import GridSearchCV

修改成:1from sklearn.model_selection import GridSearchCV

致謝

總結(jié)

以上是生活随笔為你收集整理的python网格搜索核函数_(转载)Python机器学习笔记GridSearchCV(网格搜索)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。