项目一 Part 4.2 基于网格搜索的超参数优化实战
【Kaggle】Telco Customer Churn 電信用戶流失預測案例
第四部分導讀
??在案例的第二、三部分中,我們詳細介紹了關于特征工程的各項技術(shù),特征工程技術(shù)按照大類來分可以分為數(shù)據(jù)預處理、特征衍生、特征篩選三部分,其中特征預處理的目的是為了將數(shù)據(jù)集整理、清洗到可以建模的程度,具體技術(shù)包括缺失值處理、異常值處理、數(shù)據(jù)重編碼等,是建模之前必須對數(shù)據(jù)進行的處理和操作;而特征衍生和特征篩選則更像是一類優(yōu)化手段,能夠幫助模型突破當前數(shù)據(jù)集建模的效果上界。并且我們在第二部分完整詳細的介紹機器學習可解釋性模型的訓練、優(yōu)化和解釋方法,也就是邏輯回歸和決策樹模型。并且此前我們也一直以這兩種算法為主,來進行各個部分的模型測試。
??而第四部分,我們將開始介紹集成學習的訓練和優(yōu)化的實戰(zhàn)技巧,盡管從可解釋性角度來說,集成學習的可解釋性并不如邏輯回歸和決策樹,但在大多數(shù)建模場景下,集成學習都將獲得一個更好的預測結(jié)果,這也是目前效果優(yōu)先的建模場景下最常使用的算法。
??總的來說,本部分內(nèi)容只有一個目標,那就是借助各類優(yōu)化方法,抵達每個主流集成學習的效果上界。換而言之,本部分我們將圍繞單模優(yōu)化策略展開詳細的探討,涉及到的具體集成學習包括隨機森林、XGBoost、LightGBM、和CatBoost等目前最主流的集成學習算法,而具體的優(yōu)化策略則包括超參數(shù)優(yōu)化器的使用、特征衍生和篩選方法的使用、單模型自融合方法的使用,這些優(yōu)化方法也是截至目前,提升單模效果最前沿、最有效、同時也是最復雜的方法。其中有很多較為艱深的理論,也有很多是經(jīng)驗之談,但無論如何,我們希望能夠圍繞當前數(shù)據(jù)集,讓每個集成學習算法優(yōu)化到極限。值得注意的是,在這個過程中,我們會將此前介紹的特征衍生和特征篩選視作是一種模型優(yōu)化方法,衍生和篩選的效果,一律以模型的最終結(jié)果來進行評定。而圍繞集成學習進行海量特征衍生和篩選,也才是特征衍生和篩選技術(shù)能發(fā)揮巨大價值的主戰(zhàn)場。
??而在抵達了單模的極限后,我們就會進入到下一階段,也就是模型融合階段。需要知道的是,只有單模的效果到達了極限,進一步的多模型融合、甚至多層融合,才是有意義的,才是有效果的。
Part 4.集成算法的訓練與優(yōu)化技巧
# 基礎數(shù)據(jù)科學運算庫 import numpy as np import pandas as pd# 可視化庫 import seaborn as sns import matplotlib.pyplot as plt# 時間模塊 import timeimport warnings warnings.filterwarnings('ignore')# sklearn庫 # 數(shù)據(jù)預處理 from sklearn import preprocessing from sklearn.compose import ColumnTransformer from sklearn.preprocessing import OrdinalEncoder from sklearn.preprocessing import OneHotEncoder# 實用函數(shù) from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_auc_score from sklearn.model_selection import train_test_split# 常用評估器 from sklearn.pipeline import make_pipeline from sklearn.linear_model import LogisticRegression from sklearn import tree from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier# 網(wǎng)格搜索 from sklearn.model_selection import GridSearchCV# 自定義評估器支持模塊 from sklearn.base import BaseEstimator, TransformerMixin# 自定義模塊 from telcoFunc import * # 導入特征衍生模塊 import features_creation as fc from features_creation import *# re模塊相關 import inspect, re# 其他模塊 from tqdm import tqdm import gc??然后執(zhí)行Part 1中的數(shù)據(jù)清洗相關工作:
# 讀取數(shù)據(jù) tcc = pd.read_csv('WA_Fn-UseC_-Telco-Customer-Churn.csv')# 標注連續(xù)/離散字段 # 離散字段 category_cols = ['gender', 'SeniorCitizen', 'Partner', 'Dependents','PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling','PaymentMethod']# 連續(xù)字段 numeric_cols = ['tenure', 'MonthlyCharges', 'TotalCharges']# 標簽 target = 'Churn'# ID列 ID_col = 'customerID'# 驗證是否劃分能完全 assert len(category_cols) + len(numeric_cols) + 2 == tcc.shape[1]# 連續(xù)字段轉(zhuǎn)化 tcc['TotalCharges']= tcc['TotalCharges'].apply(lambda x: x if x!= ' ' else np.nan).astype(float) tcc['MonthlyCharges'] = tcc['MonthlyCharges'].astype(float)# 缺失值填補 tcc['TotalCharges'] = tcc['TotalCharges'].fillna(0)# 標簽值手動轉(zhuǎn)化 tcc['Churn'].replace(to_replace='Yes', value=1, inplace=True) tcc['Churn'].replace(to_replace='No', value=0, inplace=True)features = tcc.drop(columns=[ID_col, target]).copy() labels = tcc['Churn'].copy()??同時,創(chuàng)建自然編碼后的數(shù)據(jù)集以及經(jīng)過時序特征衍生的數(shù)據(jù)集:
# 劃分訓練集和測試集 train, test = train_test_split(tcc, random_state=22)X_train = train.drop(columns=[ID_col, target]).copy() X_test = test.drop(columns=[ID_col, target]).copy()y_train = train['Churn'].copy() y_test = test['Churn'].copy()X_train_seq = pd.DataFrame() X_test_seq = pd.DataFrame()# 年份衍生 X_train_seq['tenure_year'] = ((72 - X_train['tenure']) // 12) + 2014 X_test_seq['tenure_year'] = ((72 - X_test['tenure']) // 12) + 2014# 月份衍生 X_train_seq['tenure_month'] = (72 - X_train['tenure']) % 12 + 1 X_test_seq['tenure_month'] = (72 - X_test['tenure']) % 12 + 1# 季度衍生 X_train_seq['tenure_quarter'] = ((X_train_seq['tenure_month']-1) // 3) + 1 X_test_seq['tenure_quarter'] = ((X_test_seq['tenure_month']-1) // 3) + 1# 獨熱編碼 enc = preprocessing.OneHotEncoder() enc.fit(X_train_seq)seq_new = list(X_train_seq.columns)# 創(chuàng)建帶有列名稱的獨熱編碼之后的df X_train_seq = pd.DataFrame(enc.transform(X_train_seq).toarray(), columns = cate_colName(enc, seq_new, drop=None))X_test_seq = pd.DataFrame(enc.transform(X_test_seq).toarray(), columns = cate_colName(enc, seq_new, drop=None))# 調(diào)整index X_train_seq.index = X_train.index X_test_seq.index = X_test.indexord_enc = OrdinalEncoder() ord_enc.fit(X_train[category_cols])X_train_OE = pd.DataFrame(ord_enc.transform(X_train[category_cols]), columns=category_cols) X_train_OE.index = X_train.index X_train_OE = pd.concat([X_train_OE, X_train[numeric_cols]], axis=1)X_test_OE = pd.DataFrame(ord_enc.transform(X_test[category_cols]), columns=category_cols) X_test_OE.index = X_test.index X_test_OE = pd.concat([X_test_OE, X_test[numeric_cols]], axis=1)Ch.2 基于網(wǎng)格搜索的超參數(shù)優(yōu)化實戰(zhàn)
??在完成了特征衍生與初步篩選后,接下來就將進入到模型訓練與優(yōu)化的階段了,正如此前所說,對特征的更精確的篩選其本質(zhì)也可以看成是一種優(yōu)化方法。不過需要注意的是,一般在特征初篩結(jié)束后,我們都將圍繞當前篩選出來的特征嘗試進行模型訓練,若模型能夠有效的挖掘出當前特征池的全部信息,且計算量在可以承受的范圍內(nèi),則無需進一步進行特征精篩;但如果模型無法有效挖掘當前海量特征的全部信息,甚至是出現(xiàn)了加入新特征的模型效果反而不如只帶入原始特征的模型的情況,則需要考慮進一步圍繞特征進行更加精確的搜索,以提高模型效果。
??而要如何才能測試模型能否“消化”當前海量特征池的全部信息呢?很明顯,只靠此前介紹的可解釋型模型(邏輯回歸和決策樹模型)肯定是遠遠不夠的,這里我們將采用可解釋型更弱、但更能從海量特征池中提取有效信息的集成學習進行建模。并且也將采用模型融合的策略,以進一步提升模型效果和從海量特征中提取有效信息的能力。集成學習+模型融合,這也是效果優(yōu)先的機器學習建模必然會采用的策略。
??本節(jié)我們先聚焦如何訓練并優(yōu)化好一個集成學習算法,再考慮帶入衍生特征后模型的優(yōu)化方法。這里需要注意,少量特征和海量特征在優(yōu)化策略方面也會有較大的差別,我們將逐步深入進行介紹。
- 隨機森林+網(wǎng)格搜索策略
??不過不同于邏輯回歸和決策樹模型,集成學習的超參數(shù)設置與優(yōu)化會更加復雜。一般來說不同優(yōu)化器會適用于不同集成算法的超參數(shù)空間。關于集成學習的基本原理、超參數(shù)解釋以及各類不同優(yōu)化器的基本原理,在此前的課程中都有詳細介紹,本節(jié)作為實戰(zhàn)階段的內(nèi)容,將更加注重介紹優(yōu)化器的實戰(zhàn)使用技巧。本節(jié)我們將首先介紹一個最基礎、但同時也是效果非常好的一套集成學習建模+優(yōu)化策略,即隨機森林模型+網(wǎng)格搜索優(yōu)化器。
??隨機森林作為Bagging算法中的集大成者,一直以來都是建模效果最好、適用面最廣的集成學習之一,哪怕是在XGBoost、LightGBM和CatBoost這些后起之秀面前,RF也毫不遜色,在很多情況下,RF也是值得甚至是必須嘗試的模型。同時,在多模型融合、甚至是多層多模型融合當?shù)赖慕裉?#xff0c;學會針對第一梯隊的全部集成學習算法進行訓練和調(diào)優(yōu),就成了所有算法工作人員的必修課。因此本節(jié)我們將先從RF開始,介紹集成學習超參數(shù)搜索與優(yōu)化技巧。
- 網(wǎng)格搜索優(yōu)化器
??而具體到要使用哪種優(yōu)化器對隨機森林進行超參數(shù)調(diào)優(yōu),一般來說肯定是首選網(wǎng)格搜索。其一是因為隨機森林的超參數(shù)幾乎全部都是離散變量,網(wǎng)格搜索完全能夠勝任;其二則是這套策略從建模到調(diào)優(yōu),都可以借助sklearn來完成,無需額外的數(shù)據(jù)格式轉(zhuǎn)化,同時模型評估器和超參數(shù)評估器接口一致,調(diào)用起來也會非常方便。當然,對于網(wǎng)格搜索評估器來說,不僅可以應用于隨機森林,同時也可以其他很多集成學習的優(yōu)化,甚至在當下,不同優(yōu)化器匹配不同集成學習,都成了模型融合提升效果的一種手段。總而言之,數(shù)量使用網(wǎng)格搜索進行超參數(shù)優(yōu)化,也是算法工作人員的必修課。
- sklearn中網(wǎng)格搜索評估器
??目前來說sklearn中超參數(shù)優(yōu)化器有四種,分別是GridSearchCV(網(wǎng)格搜索)、RandomizedSearchCV(隨機網(wǎng)格搜索)、HalvingSearchCV(對半網(wǎng)格搜索)和HalvingRandomizedSearchCV(對半隨機網(wǎng)格搜索)。其中網(wǎng)格搜索是通過枚舉搜索出一組最優(yōu)超參數(shù),枚舉的精度最高但效率最低,也就是網(wǎng)格搜索其實是精度最高的搜索算法,但往往伴隨著巨大的計算量;而加入了隨機網(wǎng)格搜索,則是隨機選取了原始參數(shù)空間的子空間,然后在這個子空間內(nèi)進行枚舉,盡管還是枚舉,但由于參數(shù)空間的縮小,計算量也會隨之減少,并且伴隨著這個參數(shù)子空間不斷擴大(可人工修改參數(shù)),隨機網(wǎng)格搜索的計算量和精度都將逼近網(wǎng)格搜索,簡而言之隨機網(wǎng)格搜索是一種犧牲精度換效率的搜索方式;相比隨機網(wǎng)格搜索,對半網(wǎng)格搜索采用了類似錦標賽的篩選機制進行多輪的參數(shù)搜索,每一輪輸入原始數(shù)據(jù)一部分數(shù)據(jù)進行模型訓練,并且剔除一半的備選超參數(shù)。由于每一輪都只輸入了一部分數(shù)據(jù),因此不同備選超參數(shù)組的評估可能存在一定的誤差,但由于每一輪都只剔除一半的超參數(shù)組而不是直接選出最優(yōu)的超參數(shù)組,因此也擁有一定的容錯性。不難發(fā)現(xiàn),這個過程也像極了RFE過程——每一輪用一個精度不是最高的模型剔除一個最不重要的特征,即保證了執(zhí)行效率、同時又保證了執(zhí)行精度。
??如果從一個宏觀視角來看,隨機網(wǎng)格搜索是通過減少備選參數(shù)組來減少計算量,而對半網(wǎng)格搜索則是減少帶入的數(shù)據(jù)量,來減少計算量。二者其實都能一定程度提升超參數(shù)的搜索效率,但也存在損失精度的風險。當然,如果還想更進一步提高搜索效率,則可以考慮對半搜索和隨機搜索的組合——對半隨機網(wǎng)格搜索,這種搜索策略實際上就是對半搜索的思路+隨機網(wǎng)格搜索的超參數(shù)空間,即在一個超參數(shù)子空間內(nèi)進行多輪篩選,每一輪剔除一半的備選超參數(shù)組。這種方法的搜索效率是最高的,但同時精度也相對較差。
??因此,到底選擇哪種優(yōu)化器,實際上還是一個效率和效果平衡的問題。一般來說,首先方案肯定是采用網(wǎng)格搜索進行超參數(shù)優(yōu)化,但不建議設置太大的超參數(shù)搜索空間,而是配合人工經(jīng)驗每次設置一個相對較小的參數(shù)空間,然后逐步調(diào)整、甚至是分參數(shù)分批進行搜索,以提高整個搜索效率;而只有當單獨一組超參數(shù)的訓練都非常耗時時,才會考慮使用其他兩種超參數(shù)搜索方法。
若要深究隨機網(wǎng)格搜索和對半網(wǎng)格搜索哪個誤差更大,則要看情況而定。簡單來說,如果超參數(shù)空間內(nèi),最優(yōu)超參數(shù)組附近存在多個且效果和最優(yōu)超參數(shù)組相近的次優(yōu)超參數(shù)組,則隨機網(wǎng)格搜索效果會更好,因為在隨機抽樣時很有可能抽中次優(yōu)超參數(shù)組;但如果最優(yōu)超參數(shù)組的效果比次優(yōu)超參數(shù)組效果好很多,則對半網(wǎng)格搜索效果會更好,因為此時最優(yōu)超參數(shù)組因為效果拔群,所以哪怕是少量樣本,也會更容易脫穎而出。
??本節(jié)我們就將圍繞當前數(shù)據(jù)集來進行網(wǎng)格搜索評估器的實戰(zhàn)演練,并通過這個過程快速獲取參數(shù)設置與超參數(shù)搜索的經(jīng)驗,如何用好網(wǎng)格搜索評估器進行參數(shù)調(diào)優(yōu),也是所有模型訓練進階的必修課。
- 原始數(shù)據(jù)不調(diào)參
??在進行超參數(shù)搜索調(diào)參之前,我們先簡單測試不進行調(diào)優(yōu)時的模型訓練結(jié)果:
from sklearn.ensemble import RandomForestClassifier start = time.time() RF = RandomForestClassifier(n_jobs=15, random_state=12).fit(X_train_OE, y_train) print(time.time()-start) #0.12277936935424805 RF.score(X_train_OE, y_train), RF.score(X_test_OE, y_test) #(0.9977281332828474, 0.7756956274843839) RF.n_estimators #100能夠發(fā)現(xiàn),在不進行超參數(shù)優(yōu)化時,模型存在明顯的過擬合傾向,當然這也是很多集成算法在應對簡單數(shù)據(jù)集時會表現(xiàn)出的一般狀況。同時單獨模型在小量樣本下訓練速度較快,在構(gòu)建100棵樹的情況下僅用時0.12s。當然,我們也可以進一步查看當前模型對特征的利用率:
RF.feature_importances_ # array([0.02812245, 0.01974651, 0.02421983, 0.01963431, 0.00603235, # 0.0223819 , 0.02811445, 0.05395741, 0.02698412, 0.02560977, # 0.04127569, 0.01718816, 0.01773947, 0.07040168, 0.02639826, # 0.05104428, 0.15185081, 0.17836349, 0.19093506]) (RF.feature_importances_ == 0).sum() #0能夠看到,此時并不存在特征重要性為0的特征,即模型在訓練過程中用到了全部19個特征,模型利用率比單獨樹模型更高。當然我們也可以從模型的其他參數(shù)觀察模型的特征利用效率,在不調(diào)參的情況下,隨機森林的max_features(每棵樹分配到的最多特征)為auto,即特征總數(shù)開二次方,即4-5個特征,而總共建了100棵樹,每棵樹又沒有剪枝,自然在極大概率情況下每個特征都會被用到:
RF.max_features #'auto' np.sqrt(19) #4.358898943540674注意這幾個參數(shù),后面將圍繞這幾個參數(shù)來估計模型調(diào)參時的運行時間及模型對特征的利用效率。
一、網(wǎng)格搜索調(diào)參實戰(zhàn)技巧
??接下來我們嘗試進行網(wǎng)格搜索調(diào)參,并在這個過程中介紹網(wǎng)格搜索調(diào)參的實戰(zhàn)技巧。
1.確定調(diào)優(yōu)參數(shù)
??首先肯定是要先確定調(diào)哪些參數(shù),也就是需要確定模型的參數(shù)空間的維度。隨機森林參數(shù)眾多,但不是每個參數(shù)都對模型結(jié)果有影響,并且有些參數(shù)彼此之間是存在關聯(lián)關系的,調(diào)整其中一個或者幾個即可,帶入太多無關參數(shù)會使得參數(shù)空間過大、極大程度影響搜索效率。這里回顧隨機森林參數(shù)如下:
| n_estimators | 決策樹模型個數(shù) |
| criterion | 規(guī)則評估指標或損失函數(shù),默認基尼系數(shù),可選信息熵 |
| splitter | 樹模型生長方式,默認以損失函數(shù)取值減少最快方式生長,可選隨機根據(jù)某條件進行劃分 |
| max_depth | 樹的最大生長深度,類似max_iter,即總共迭代幾次 |
| min_samples_split | 內(nèi)部節(jié)點再劃分所需最小樣本數(shù) |
| min_samples_leaf | 葉節(jié)點包含最少樣本數(shù) |
| min_weight_fraction_leaf | 葉節(jié)點所需最小權(quán)重和 |
| max_features | 在進行切分時候最多帶入多少個特征進行劃分規(guī)則挑選 |
| random_state | 隨機數(shù)種子 |
| max_leaf_nodes | 葉節(jié)點最大個數(shù) |
| min_impurity_decrease | 數(shù)據(jù)集再劃分至少需要降低的損失值 |
| bootstrap | 是否進行自助抽樣 |
| oob_score | 是否輸出袋外數(shù)據(jù)的測試結(jié)果 |
| min_impurity_split | 數(shù)據(jù)集再劃分所需最低不純度,將在0.25版本中移除 |
| class_weight | 各類樣本權(quán)重 |
| ccp_alpha | 決策樹限制剪枝參數(shù),相當于風險項系數(shù) |
| max_samples | 進行自助抽樣時每棵樹分到的樣本量 |
??隨機森林的參數(shù)整體可以分為兩個大類,其一是單獨一顆樹的剪枝參數(shù),包括splitter、max_depth、min_samples_split、min_samples_leaf、min_weight_fraction_leaf、max_leaf_nodes、min_impurity_decrease、ccp_alpha等,從樹模型的理論上來看,這些參數(shù)統(tǒng)一可以由ccp_alpha一個參數(shù)代替,但隨機森林是由多棵樹構(gòu)成,我們無法單獨針對每棵樹設置一個ccp_alpha,并且由于sklearn的決策樹計算流程和CART樹的原理存在一定差異,因此ccp_alpha參數(shù)實際剪枝效果并不明顯。在單獨決策樹的剪枝參數(shù)中,核心參數(shù)有以下四個,分別是min_samples_leaf、min_samples_split、max_leaf_nodes和max_depth,這四個參數(shù)的組合效果基本就能夠完全決定單獨一個決策樹的剪枝結(jié)果,若有余力,可考慮圍繞剩余參數(shù)進行搜索。
決策樹的其他參數(shù)優(yōu)化效果并不顯著,另一個原因也是因為其他參數(shù)都是連續(xù)型變量,而網(wǎng)格搜索對連續(xù)型變量的最優(yōu)值搜索效果并不好,而且通過枚舉的方法搜索連續(xù)變量也將耗費非常大的計算量。
??而第二類參數(shù)則是隨機森林的集成類參數(shù),包括n_estimators、bootstrap、max_features、max_samples、oob_score等,對于隨機森林來說,自助抽抽樣是提升Bagging效果的重要手段,因此bootstrap需要設置為True,并且max_samples需要參與搜索,而由于網(wǎng)格搜索中并不會用到oob_score,因此該參數(shù)可以設置為False。而在其他參數(shù)中,n_estimators和max_features兩個參數(shù)也是影響模型效果的重要參數(shù),需要進行搜索。
此外需要注意的是,如果樣本偏態(tài)非常明顯,并且最終模型是以Recall或者F1-Score作為評估指標,則可以考慮帶入class_weight進行搜索。
另外,關于隨機數(shù)種子random_state,一般來說對于大樣本而言,影響并不明顯,而如果是小樣本,則會有一定程度影響。Telco數(shù)據(jù)集是相對較小的數(shù)據(jù)集,但并不建議對random_state進行搜索,其一是random_state其實是一個無限的搜索空間、并且沒有任何取值規(guī)律可言,最重要的一點,在下一小節(jié)我們將介紹關于模型“自融合”的方法,通過該方法輸出的模型融合結(jié)果,也將極大程度減少random_state對最終預測結(jié)果的影響。
??總結(jié)一下,針對當前數(shù)據(jù)集,我們需要圍繞就min_samples_leaf、min_samples_split、max_leaf_nodes、max_depth、max_samples、n_estimators、max_features七個參數(shù)進行搜索調(diào)優(yōu)。
2.設計參數(shù)空間時面臨的“舍罕王賞麥”問題
??“傳說國際象棋的發(fā)明者是古印度的西薩·班·達依爾。那時的國王是舍罕,世人稱為舍罕王。國王想獎勵他便問宰相需要得到什么賞賜。宰相開口說道:“請您在棋盤的第一個格子上放1粒麥子,第二個格子上放2粒,第三個格子上放4粒,第四個格子放8粒…即每一個次序在后的格子上放的麥粒必須是前一個格子麥粒數(shù)的倍數(shù),直到最后一個格子即第64格放滿為止,這樣我就十分滿足了。”國王哈哈大笑,慷慨地答應了宰相的這個謙卑的請求。這位聰明的宰相到底要求的是多少麥粒呢?” --《舍罕王賞麥》
按照這個指數(shù)級增長的結(jié)果,宰相的要求實際上是264?12^{64}-1264?1粒大米,相當于當時全世界在2000年內(nèi)所產(chǎn)小麥的總和。
??在確定了要調(diào)優(yōu)哪些參數(shù)后,接下來就需要確定每個參數(shù)的搜索空間了,這一步也是直接關系到參數(shù)搜索效率的關鍵步驟。首先我們需要對參數(shù)搜索需要耗費的時間有基本的判斷,才好進行進一步搜索策略的制定,否則極容易出現(xiàn)“仿佛永遠等不到搜索停止”的情況出現(xiàn)。
??首先需要明確的是,參數(shù)空間內(nèi)總備選參數(shù)組合的數(shù)量為各參數(shù)取值之積,且隨著參數(shù)空間內(nèi)每個參數(shù)取值增加而呈現(xiàn)指數(shù)級上升,且隨著參數(shù)空間內(nèi)參數(shù)維度增加(增加新的超參數(shù))呈指數(shù)級上升,且二者呈現(xiàn)疊加效應。例如現(xiàn)有參數(shù)空間如下:
則備選的參數(shù)組合有2?2=42*2=42?2=4個。而此時如果調(diào)整"min_samples_leaf": range(1, 4),則備選參數(shù)組合就變成了2?3=62*3=62?3=6個,也就是說,"min_samples_leaf"參數(shù)搜索范圍增加1,造成的搜索次數(shù)增加了兩次,而非一次。
# 參數(shù)空間有6個備選參數(shù)組合 parameter_space1 = {"min_samples_leaf": range(1, 4),"min_samples_split": range(1, 3)}并且,如果我們新增一個超參數(shù)維度"max_depth": range(1, 4),則目前總共的備選參數(shù)組合就達到了2?3?3=182*3*3=182?3?3=18個,也就是說,增加"min_samples_split"3個數(shù)值,造成的搜索次數(shù)增加了18-6=12次,而非3次:
# 參數(shù)空間有18個備選參數(shù)組合 parameter_space2 = {"min_samples_leaf": range(1, 4),"min_samples_split": range(1, 3), "max_depth": range(1, 4)}??當然,這種指數(shù)級的變化在少量數(shù)據(jù)情況下可能無法看出“真正的威力”,但如果參數(shù)稍微多些或計算過程稍微復雜些,例如假設parameter_space1搜索任務耗時5分鐘,而在只增加了一個參數(shù)及3個不同取值的情況下,parameter_space2就將耗費15分鐘。而如果更復雜些,不是5*3=15分鐘,而是15*3=45分鐘呢,甚至是1小時*3=3小時呢,參數(shù)空間的略微擴大就可能造成搜索時間的指數(shù)級增加。
此外,在進行網(wǎng)格搜索時,每一次建模背后還存在5折交叉驗證,也就是需要訓練5次模型,而每一次隨機森林的建模,都伴隨著幾十個甚至是上百個決策樹模型訓練,背后的計算量可想而知。
??介于此,在參數(shù)空間設計時就會有這樣一個核心問題,那就是參數(shù)空間設置小了不確定最優(yōu)參數(shù)是否在這個空間內(nèi),參數(shù)空間設置大了又不確定何時能算完。這也就是所謂的參數(shù)空間設計時面臨的“舍罕王賞麥”問題。
舍罕王賞麥后續(xù):國王哪有這么多麥子呢?他的一句慷慨之言,成了他欠宰相西薩·班·達依爾的一筆永遠也無法還清的債。正當國王一籌莫展之際,王太子的數(shù)學老師知道了這件事,他笑著對國王說:“陛下,這個問題很簡單啊,就像1+1=2一樣容易,您怎么會被它難倒?”國王大怒:“難道你要我把全世界所有的小麥都給他?”年輕的教師說:“沒有必要啊,陛下,其實,您只要讓宰相大人到糧倉去,自己數(shù)出那些麥子就可以了,假如宰相大人一秒鐘數(shù)一粒,數(shù)完所有的麥子所需要的時間,大約是5800億年,就算宰相大人日夜不停地數(shù),數(shù)到他魂歸極樂,也只是數(shù)出那些麥粒中極小的一部分,這樣的話,就不是陛下無法支付賞賜,而是宰相大人自己沒有能力取走賞賜。”國王恍然大悟,當下就召來宰相,將教師的方法告訴了他。西薩·班·達依爾沉思片刻后笑道:“陛下啊,您的智慧超過了我,那些賞賜,我也只好不要了!”
3.超參數(shù)搜索的“凸函數(shù)”假設
??如何解決這個問題,最好的解決方案是“小步迭代、快速調(diào)整”。在介紹這種方案之前,要先介紹在超參數(shù)調(diào)優(yōu)時大家都會默認的一個假設,那就是超參數(shù)的取值和模型效果往往呈現(xiàn)嚴格“凸函數(shù)”的特性,例如假設參數(shù)"min_samples_leaf"在取值為5時模型效果最好,那么在參數(shù)取值為1、2、3、4時,模型效果是依次遞增的,而如果參數(shù)取值為6、7、8,則模型效果是依次遞減的,因此如果我們設計的該參數(shù)的搜索空間是"min_samples_leaf": range(6, 9),參數(shù)在6、7、8之間取值,則最優(yōu)結(jié)果將會是min_samples_leaf=6,即預設的參數(shù)空間的下屆,此時我們就需要進一步的移動參數(shù)空間,例如改為"min_samples_leaf": range(5, 8),即讓參數(shù)在5、6、7之間取值,很明顯,最終輸出的挑選結(jié)果將會是min_samples_leaf=5,但此時仍然是搜索空間的下屆,因此我們還需要進一步移動搜索空間,即移動至"min_samples_leaf": range(4, 7),即讓參數(shù)在4、5、6之間取值,此時輸出的最優(yōu)結(jié)果將會是min_samples_leaf=5,此時就無需再移動超參數(shù)空間了,因為此時的參數(shù)空間已經(jīng)包括了“凸函數(shù)”的最小值點,再往左邊移動沒有任何意義,這個過程如下圖所示:
對于單個參數(shù)來說,如果呈現(xiàn)出搜索空間包含了最優(yōu)值點(或者最優(yōu)值點不在搜索空間的邊界上)時,則判斷已經(jīng)找到了最優(yōu)超參數(shù)。
如果超參數(shù)的取值不僅是數(shù)值,而是數(shù)值和其他類型對象混合的情況,則其他類型對象需要單獨作為一個備選項參與搜索。
??對于單個變量是如此,對于多個變量來說也是如此,若最終超參數(shù)搜索結(jié)果呈以下狀態(tài),則說明我們已經(jīng)找到了一組最優(yōu)超參數(shù)組:
當然,這種“凸函數(shù)假設”其實并沒有充份嚴謹?shù)睦碚撘罁?jù),更多的是人們長期實踐總結(jié)出來的結(jié)論。
4.小步前進,快速調(diào)整
??接下來我們來看如何通過“小步迭代快速調(diào)整”的方法來進行超參數(shù)的搜索。在這個策略里,我們每次需要設置一個相對較小的參數(shù)搜索空間,然后快速執(zhí)行一次超參數(shù)搜索,并根據(jù)超參數(shù)搜索結(jié)果來調(diào)整參數(shù)空間,并進行更進一步的超參數(shù)搜索,如此往復,直到參數(shù)空間內(nèi)包含了全部參數(shù)的最優(yōu)解為止。就像此前舉例的那樣,我們不會給"min_samples_leaf"一次設置一個非常大的參數(shù)搜索范圍(如[1,9]),而是每次設置一個更小的搜索范圍,通過不斷調(diào)整這個范圍來定位最優(yōu)解。
??既然要反復執(zhí)行搜索任務,就必然需要一定程度控制單次搜索任務所需要的時間。當然,單次搜索的時間會和CPU、數(shù)據(jù)量、參數(shù)空間大小有關,但一般來說,對于小樣本,單次搜索任務最好控制在5-30min內(nèi),而對于海量樣本,最好也控制在30min-2H內(nèi),特殊情況可以適當放寬單次搜索任務的時間。
??不過無論單次搜索任務耗時或長或短,我們都需要首先有個大概的預判,即本次搜索需要多久,方便我們確定“下次回來看結(jié)果”的時間。這里我們以Telco原始數(shù)據(jù)集為例,來簡單測試單次搜索任務需要的時間。這里我們先測試最短單次搜索需要耗費的時間,由于我們需要讓每個最優(yōu)參數(shù)落在某個區(qū)間的中間,因此每個超參數(shù)的取值范圍區(qū)間至少包含三個數(shù)值,例如"min_samples_leaf": range(4, 7)、該參數(shù)本次搜索至少有三個備選值,此外,如果有些參數(shù)包含非數(shù)值型參數(shù),則需要在數(shù)值參數(shù)區(qū)間基礎上再加上一個非數(shù)值型參數(shù),例如"max_samples":[None, 0.6, 0.5, 0.4]。
5.首次搜索時超參數(shù)取值范圍的經(jīng)驗依據(jù)
??接下來介紹首次搜索時超參數(shù)取值范圍的經(jīng)驗依據(jù),也就是在第一次設置超參數(shù)搜索空間時,隨機森林模型推薦的超參數(shù)取值范圍。我們知道,從理論上來說,每個超參數(shù)都有可能有非常多個備選的取值,例如min_samples_leaf,就可以在1到樣本總數(shù)之間取任意值,但實際上根據(jù)長期模型優(yōu)化的結(jié)果來看,大多數(shù)情況下min_samples_leaf的最優(yōu)取值都是在2到10之間,因此min_samples_leaf的初始三個取值可以設置為range(1, 10, 3),也就是[1, 4, 7]。
list(range(1, 10, 3)) #[1, 4, 7]并且在這次搜索過程中,如果出現(xiàn)最優(yōu)取值為4,則說明最優(yōu)取值在4附近,下一輪就可以設置為[3, 4, 5],進一步確定最優(yōu)取值。類似的情況還有min_samples_split。而max_depth的取值范圍一般在5到20之間,超過20層的樹往往都是過擬合的模型,而如果本身數(shù)據(jù)量較小,max_depth的最優(yōu)取值一般不會超過15,因此max_depth的初始搜索范圍可以設置為range(5, 16, 5),即[5, 10, 15]。
list(range(5, 16, 5)) #[5, 10, 15]而max_features的參數(shù)范圍設置會跟樣本特征數(shù)量有關。我們知道,在默認情況下max_features=‘a(chǎn)uto’,假設樣本總共有m個特征,每個決策樹將分配m\sqrt{m}m?個特征,max_features備選參數(shù)為log2,即每個決策樹將分配log2mlog_2{m}log2?m個特征。一般來說max_features的最優(yōu)解會落在[log2mlog_2{m}log2?m*50%,m\sqrt{m}m?*150%]范圍內(nèi),假設現(xiàn)在有100個特征,則max_features的最優(yōu)值經(jīng)驗范圍為:
np.log2(100) * 0.5 #3.321928094887362 np.sqrt(100) * 1.5 #15.0即[3, 15]之間,但需要注意的是,除了搜索具體的數(shù)值外,還需要加上sqrt和log2兩個參數(shù),因此,對于一個包含了100個特征的數(shù)據(jù)集來說,我們可以設置如下max_features初始參數(shù)搜索范圍:
['sqrt', 'log2'] + list(range(3, 15, 3)) #['sqrt', 'log2', 3, 6, 9, 12]對于隨機森林來說,max_features參數(shù)也可以設置為0到1之間的浮點數(shù),此時就是按比例設置帶入特征。出于更精準的角度考慮,最好是搜索到帶入多少個特征,而不是帶入百分之多少特征。另外,百分比實際上也是連續(xù)變量,正如此前所說,對連續(xù)變量進行網(wǎng)格搜索,也會產(chǎn)生較大誤差。
??接下來是n_estimators,樹模型總數(shù),這是一個變動很大的參數(shù),總的來說會和特征彼此之間的相似程度有關,特征彼此之間相似度越高、n_estimators取值就越小,反之n_estimators取值就越大,當然n_estimators也會一定程度受到樣本數(shù)量影響。但綜合來看,n_estimators基本是在10到200之間取值,如果樣本數(shù)量較少(例如樣本數(shù)量不足1萬條),則n_estimators會在10到150之間取值。本數(shù)據(jù)集實際上屬于樣本數(shù)量較少的數(shù)據(jù)集,因此n_estimators基本會在10到150之間取值,我們可以設置如下初步搜索范圍:
list(range(10, 160, 70)) #[10, 80, 150]對于最優(yōu)值高度不確定的超參數(shù),我們往往會設置一個較大的初始搜索超參數(shù)空間,但代價就是往往可能需要更多輪的搜索才能確定最優(yōu)超參數(shù)。
??接下來是max_leaf_nodes,該參數(shù)默認情況下為None,也就是不限制葉節(jié)點個數(shù),該參數(shù)會受到樹深度、每棵樹接受到的數(shù)據(jù)量有關,一般來說max_leaf_nodes的數(shù)值往往在20到100之間,而對于小樣本數(shù)據(jù)集,max_leaf_nodes初始范圍建議設置在20到70之間:
[None] + list(range(20, 70, 20)) #[None, 20, 40, 60]??max_samples的默認參數(shù)同樣也是None,即每棵決策樹都接受和原始樣本數(shù)量相同的樣本量,和max_features一樣,max_samples也支持輸入整數(shù)對象和浮點數(shù)對象,輸入整數(shù)對象時表示具體帶入多少條數(shù)據(jù),而輸入浮點數(shù)對象時,則表示每棵樹接收樣本數(shù)量占總樣本比例。對于大部分模型來說,將max_samples調(diào)到0.5以下(也就是輸入50%的樣本)才會有模型提升效果,因此初始情況下建議設置如下參數(shù)組:
[None, 0.4, 0.5, 0.6] #[None, 0.4, 0.5, 0.6]先確定一個大概的最優(yōu)比例,然后再搜索具體帶入多少條樣本的樣本數(shù)。例如假設總共是100條樣本,第一輪搜索結(jié)果是max_samples=0.4,則接下來可以繼續(xù)搜索[35, 40, 45],進一步縮小范圍,并最終搜索到一個更加精準的數(shù)值。
??總結(jié)一下,隨機森林需要搜索的7個參數(shù)及其第一輪搜索時建議的參數(shù)空間如下:
| min_samples_leaf | [1, 4, 7]; range(1, 10, 3) |
| min_samples_split | [1, 4, 7]; range(1, 10, 3) |
| max_depth | [5, 10, 15]; range(5, 16, 5) |
| max_leaf_nodes | [None, 20, 40, 60]; [None] + list(range(20, 70, 20)) |
| n_estimators | [10, 80, 150]; range(10, 160, 70) |
| max_features | [‘sqrt’, ‘log2’] +[log2(m)log_2{(m)}log2?(m)*50%,m\sqrt{m}m?*150%] 其中m為特征數(shù)量 |
| max_samples | [None, 0.4, 0.5, 0.6] |
??在設置了初始參數(shù)后,接下來就是一輪輪搜索與調(diào)整了,我們需要大致掌握每一次搜索任務所需要耗費的時間,然后在每次搜索任務結(jié)束時及時回到電腦前,準備設置調(diào)整參數(shù)空間并進行下一次搜索。
6.超參數(shù)之間的交叉影響
??并且需要注意的是,在進行超參數(shù)搜索時,超參數(shù)彼此之間是存在交叉影響的,因此如果某次搜索只帶入了部分參數(shù)進行搜索,那么如果后續(xù)增加了其他參數(shù),則再次搜索時這些超參數(shù)的最優(yōu)值也會發(fā)生變化。例如某次搜索超參數(shù)A在[1,2,3]中取值,找到了最優(yōu)值A=2,現(xiàn)在如果繼續(xù)加入超參數(shù)B,同時搜索A在[1,2,3]和B在[2,3,4]中最優(yōu)取值組合,則極有可能出現(xiàn)A的最優(yōu)取值變成了A=3,此時就要移動A的取值范圍了(最優(yōu)值落在了邊界上),接下來如果繼續(xù)加入超參數(shù)C、超參數(shù)D、超參數(shù)E等,每次加入一個都需要重新搜索一次,這個過程就會變得非常麻煩。當然,需要注意的是,如果只有A和B兩個超參數(shù),那么確實可以先搜索A、再搜索B,因為在兩個超參數(shù)的情況下,二者相互影響有限,單獨圍繞A搜索出來的最優(yōu)值2,在加入超參數(shù)B之后,A的最優(yōu)值極有可能仍然在2附近變動,此時我們可以以2為中心設置搜索范圍,之前搜索出來的A=2的最優(yōu)值結(jié)果,在同時搜索A和B時仍然具有參考價值。但如果后續(xù)加入了C、D、E等更多的超參數(shù),由于超參數(shù)彼此之間相互影響也會呈現(xiàn)指數(shù)級變動,因此極有可能后續(xù)A的取值會偏離2較遠,有可能會變成10、20甚至是30,此時反觀最開始搜索出來的A=2的最優(yōu)值,對后續(xù)A的搜索過程就變得毫無價值了。
??因此,受此啟發(fā),一般來說如果超參數(shù)個數(shù)較多,則可以分兩批、甚至是分三批進行搜索,例如有A、B、C、D、E五個超參數(shù)時,可以先搜索A、B、C,在搜索出一組最優(yōu)值后,再以此為中心創(chuàng)建搜索空間并加入新的D、E兩個參數(shù),設置各自對應的搜索空間,并進行第二批搜索。基本過程如下:
總之,最終一定要得到一個全部超參數(shù)每個最優(yōu)點都在給定區(qū)間范圍內(nèi)的結(jié)果。
??此外,正如此前所說,如果算力有限或者經(jīng)過嘗試發(fā)現(xiàn)以此搜索任務耗費時間過長,則可以將所有的參數(shù)分兩批進行搜索,對于上述這七個參數(shù)來說,我們可以先圍繞彼此關聯(lián)度較為緊密的min_samples_leaf、min_samples_split、max_depth、max_leaf_nodes和n_estimators五個參數(shù)進行搜索,然后再加入max_features和max_samples進行搜索。
二、隨機森林網(wǎng)格搜索調(diào)參實戰(zhàn)
??在有了網(wǎng)格搜索優(yōu)化技巧的基礎知識儲備后,接下來我們圍繞Telco原生數(shù)據(jù)集來進行隨機森林網(wǎng)格搜索實戰(zhàn)。一方面測試在原始數(shù)據(jù)集情況下隨機森林模型超參數(shù)優(yōu)化的最好結(jié)果,同時我們也將用過一個實例來具體觀察我們制定的“小步迭代、快速調(diào)整”的調(diào)優(yōu)策略是否能真的幫助我們高效快速的確定最優(yōu)超參數(shù)。
1.設置初始參數(shù)空間與第一輪搜索
- 首輪搜索
??首先,根據(jù)此前介紹,設置初始參數(shù)空間并進行搜索,同時計算本次運行的時間。原始數(shù)據(jù)集總共有19條特征,開方運算與log2計算結(jié)果如下:
np.sqrt(19) #4.358898943540674 np.sqrt(19) * 1.5 #6.538348415311011 np.log2(19) * 0.5 #2.1239637567217926此時max_features可以設置參數(shù)如下:
['sqrt', 'log2'] + list(range(2, 7, 2)) #['sqrt', 'log2', 2, 4, 6]據(jù)此可執(zhí)行第一輪搜索如下:
start = time.time()# 設置超參數(shù)空間 parameter_space = {"min_samples_leaf": range(1, 10, 3), "min_samples_split": range(1, 10, 3),"max_depth": range(5, 16, 5),"max_leaf_nodes": [None] + list(range(20, 70, 20)), "n_estimators": range(10, 160, 70), "max_features":['sqrt', 'log2'] + list(range(2, 7, 2)), "max_samples":[None, 0.4, 0.5, 0.6]}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #226.55377650260925- 計算運行時間與參數(shù)空間
第一輪搜索在五折交叉驗證的條件下,總共搜索了6480組參數(shù):
3 * 3 * 3 * 4 * 3 * 5 * 4 #6480且在n_jobs=15的情況下,本次搜索任務總耗時226.5s,約4分鐘:
226.55377650260925 / 60 #3.7758962750434875約0.035s完成一組超參數(shù)的計算。
226.55377650260925 / 6480 #0.034962002546698956需要注意的是,這里的運行時間只能作為參考,并不是一個絕對的運行時間。在很多情況下,小段代碼的運行時間會受到很多因素影響,包括硬件條件(對于機器學習來說主要是CPU和內(nèi)存)、是否是首次運行代碼等,都會對代碼運行時間有較大影響。
- 查看運行結(jié)果
??然后查看當前情況下模型預測結(jié)果:
grid_RF_0.best_score_ #0.8084053639517215 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8517606967057932, 0.7847813742191937)能夠看出,在進行第一輪超參數(shù)搜索時,模型結(jié)果的過擬合傾向已經(jīng)得到了有效抑制,并且對比此前邏輯回歸最終的優(yōu)化結(jié)果,目前模型已經(jīng)得到了一個較好的結(jié)果了:
| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
??最后,重點關注本輪搜索得出的超參數(shù)最優(yōu)取值:
grid_RF_0.best_params_ # {'max_depth': 10, # 'max_features': 'sqrt', # 'max_leaf_nodes': None, # 'max_samples': 0.4, # 'min_samples_leaf': 1, # 'min_samples_split': 7, # 'n_estimators': 80}并據(jù)此設置下一輪搜索策略:
- max_depth本輪最優(yōu)取值為10,而原定搜索空間為[5, 10, 15],因此第二輪搜索時就可以以10為中心,縮小步長,進行更精準的搜索;
- max_features本輪最優(yōu)取值為sqrt,說明最優(yōu)解極有可能在4附近,因此第二輪搜索時可以設置一組更加精準的在4附近的數(shù)值,搭配sqrt參數(shù)一起進行搜索;
- max_leaf_nodes本輪最優(yōu)取值為None,則有可能說明上一輪給出的其他備選數(shù)值不夠激進,下一輪搜索時可以在一個更大的區(qū)間范圍內(nèi)設置備選數(shù)值;
- max_samples本輪最優(yōu)取值為0.4,下一輪可以以0.4為中心,設置一組跨度更小、精度更高的取值進行搜索;
- min_samples_leaf本輪最優(yōu)取值為1,下一輪可以設置range(1, 4)進行搜索(參數(shù)不能取得比1更小的值);
- min_samples_split本輪最優(yōu)取值為7,下一輪可以以7為中心,設置更小的范圍進行搜索;
- n_estimators本輪最優(yōu)取值為80,下一輪可以以80為中心,設置更小的范圍進行搜索,但需要注意的是,上一輪n_estimators取值搜索的跨度為70,下輪搜索時可以縮減到10。
2.第二輪搜索
??根據(jù)調(diào)整策略,重新設置超參數(shù)空間,開始第二輪搜索:
start = time.time()# 設置超參數(shù)空間 parameter_space = {"min_samples_leaf": range(1, 4), "min_samples_split": range(6, 9),"max_depth": range(9, 12),"max_leaf_nodes": [None] + list(range(10, 100, 30)), "n_estimators": range(70, 100, 10), "max_features":['sqrt'] + list(range(2, 5)), "max_samples":[None, 0.35, 0.4, 0.45]}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #235.176438093185422.1 計算運行時間與參數(shù)空間
??第二輪搜索時對參數(shù)空間范圍控制的仍然很好,整體來看每個參數(shù)的數(shù)值設置都在一個比較范圍內(nèi),最終計算了5184組參數(shù):
3 * 3 * 3 * 4 * 3 * 4 * 4 #5184實際運行時間仍然為4分鐘:
235.17643809318542/60 #3.9196073015530906 235.17643809318542 / 5184 #0.045365825249457065約0.05s完成一組超參數(shù)搜索。
2.2 查看運行結(jié)果
??接下來查看模型運行結(jié)果:
grid_RF_0.best_score_ #0.808785226914366 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8458917076864824, 0.7921635434412265)| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.8088 | 0.8459 | 0.7922 |
經(jīng)過第二輪搜索,模型評分(CV_score)進一步提高,并且訓練集評分略有下降、但測試集評分有所提升,也說明模型泛化能力也得到了提高。
??接下來進一步查看本輪搜索的到的最有超參數(shù)組:
據(jù)此可以設置下一輪搜索策略:
- max_depth本輪最優(yōu)取值為11,在原定搜索空間上界,下次搜索可以進一步向上拓展搜索空間;
- max_features本輪最優(yōu)取值為2,是原定搜索空間的下界,下次搜索可向下拓展搜索空間,也就是將1帶入進行搜索。但需要注意的是,sqrt作為非數(shù)值型結(jié)果,仍然需要帶入進行搜索,這輪被淘汰并不代表重新調(diào)整搜索空間后仍然被淘汰;
- max_leaf_nodes本輪最優(yōu)取值仍然為None,說明在一個更大的范圍內(nèi)進行更激進的搜索并沒有達到預想的效果,下一輪可以反其道而行之,設置一個上一輪沒有搜索到的數(shù)值較小的空間(1-20),來進行更加精準的搜索;
- max_samples本輪最優(yōu)取值仍然為0.4,基本可以確定最優(yōu)取值就在0.4附近,下一輪可以進一步設置一個步長更小的區(qū)間進行搜索;
- min_samples_leaf本輪最優(yōu)取值為2,恰好落在本輪搜索空間的中間,下一輪搜索時不用調(diào)整取值;
- min_samples_split本輪最優(yōu)取值仍然為7,恰好落在本輪搜索空間的中間,下一輪搜索時不用調(diào)整取值;
- n_estimators本輪最優(yōu)取值為90,下一輪可以以90為中心,設置更小的范圍進行搜索,但需要注意的是,上一輪n_estimators取值搜索的跨度為10,下輪搜索時可以縮減到4。
3.第三輪搜索
??根據(jù)調(diào)整策略,開始第三輪搜索:
start = time.time()# 設置超參數(shù)空間 parameter_space = {"min_samples_leaf": range(1, 4), "min_samples_split": range(6, 9),"max_depth": range(10, 15),"max_leaf_nodes": [None] + list(range(1, 20, 2)), "n_estimators": range(85, 100, 4), "max_features":['sqrt'] + list(range(1, 4)), "max_samples":[None, 0.38, 0.4, 0.42]}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #1268.04026079177863.1 計算運行時間與參數(shù)空間
??由于經(jīng)過了兩輪搜索,執(zhí)行第三輪時預判即將能夠搜網(wǎng)得到最優(yōu)取值(實際并沒有),因此設置了一個相比之前更大的超參數(shù)搜索空間:
3 * 3 * 4 * 11 * 4 * 4 * 4 #25344在參數(shù)設置時,只在max_leaf_nodes參數(shù)部分增加設置了4個備選搜索取值,但參數(shù)空間就擴大成了第二輪搜索的參數(shù)空間的5倍,而本輪搜索耗時也差不多是第二輪計算用時的5倍:
1268.0402607917786/60 #21.134004346529643 1268.0402607917786 / 25344 #0.05003315422947359約0.05s完成一組超參數(shù)搜索。
3.2 查看運行結(jié)果
??接下來查看模型運行結(jié)果:
grid_RF_0.best_score_ #0.8087841518305094 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8415372964786065, 0.7927314026121521)| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.808785 | 0.8459 | 0.7922 |
| RF+grid_R3 | 0.808784 | 0.8415 | 0.7927 |
??能夠發(fā)現(xiàn),第三輪搜索的結(jié)果相比第二輪,模型整體效果其實是略微下降的(根據(jù)CV.best_score_),這其實也是在超參數(shù)搜索過程是中經(jīng)常會遇到的問題,也就是多輪搜索過程中模型評分可能出現(xiàn)波動的問題。不過不要氣餒,繼續(xù)觀察本輪輸出的最優(yōu)超參數(shù)組,繼續(xù)調(diào)參。
grid_RF_0.best_params_ # {'max_depth': 10, # 'max_features': 'sqrt', # 'max_leaf_nodes': None, # 'max_samples': 0.38, # 'min_samples_leaf': 3, # 'min_samples_split': 7, # 'n_estimators': 97}- max_depth本輪最優(yōu)取值為10,在原定搜索空間下界,下次搜索可以進一步向下拓展搜索空間,當然,根據(jù)第二輪第三輪max_depth在9和10反復變動的現(xiàn)象,估計max_depth最終的最優(yōu)取值也就是9、10左右;
- max_features本輪最優(yōu)取值又回到了sqrt,也就是4附近,結(jié)合第一輪sqrt的最優(yōu)結(jié)果,預計max_features最終最優(yōu)取值也就在4附近,接下來的搜索將是收尾階段,我們可以設計一個sqrt+log2+4附近的搜索組合;
- max_leaf_nodes本輪最優(yōu)取值仍然為None,三輪搜索都沒有改變max_leaf_nodes的最優(yōu)取值,并且本輪還設置了非常多的備選取值,說明max_leaf_nodes的最優(yōu)取值極有可能就是None,接下來我們只需保留None+大范圍搜索的組合即可,以防其他參數(shù)變動時max_leaf_nodes的最優(yōu)取值發(fā)生變化;
- max_samples本輪最優(yōu)取值變成了0.38,而訓練集總樣本數(shù)為5282,5282*0.38約為2007,下輪開始我們將把比例轉(zhuǎn)化為具體的樣本數(shù),進行更加精準的搜索,及圍繞2007附近的數(shù)值空間進行搜索;
- min_samples_leaf本輪最優(yōu)取值為3,恰好落在本輪搜索空間的上屆,下一輪搜索時略微拓展搜索空間的上界;
- min_samples_split本輪最優(yōu)取值仍然為7,恰好落在本輪搜索空間的中間,下一輪搜索時不用調(diào)整取值;
- n_estimators本輪最優(yōu)取值為97,下一輪可以以97為中心,設置更小的范圍進行搜索;
4.第四輪搜索
??繼續(xù)進行第四輪搜索:
start = time.time()# 設置超參數(shù)空間 parameter_space = {"min_samples_leaf": range(2, 5), "min_samples_split": range(6, 9),"max_depth": range(8, 12),"max_leaf_nodes": [None] + list(range(10, 70, 20)), "n_estimators": range(95, 105, 2), "max_features":['sqrt', 'log2'] + list(range(1, 6, 2)), "max_samples":[None] + list(range(2002, 2011, 2))}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #1218.26349329948434.1 計算運行時間與參數(shù)空間
??由于很多參數(shù)都基本能確定最優(yōu)值的范圍,因此本輪搜索時很多參數(shù)都略微放大的參數(shù)取值范圍,這也導致備選超參數(shù)組的數(shù)量急劇增加:
3 * 3 * 4 * 5 * 4 * 5 * 6 #21600最終計算時長和第三輪搜索時的計算時長接近。
1218.2634932994843 / 60 #20.304391554991405 1218.2634932994843 / 21600 #0.0564010876527539約0.06s執(zhí)行完一組超參數(shù)搜索。
4.2 查看運行結(jié)果
??接下來查看模型運行結(jié)果:
??第相比第三輪搜索,第四輪的搜索結(jié)果有顯著提高:
| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.808785 | 0.8459 | 0.7922 |
| RF+grid_R3 | 0.808784 | 0.8415 | 0.7927 |
| RF+grid_R4 | 0.809542 | 0.8406 | 0.7882 |
接下來我們查看本輪輸出的最優(yōu)參數(shù)組,并制定后續(xù)搜索策略:
grid_RF_0.best_params_ #{'max_depth': 9, # 'max_features': 5, # 'max_leaf_nodes': None, # 'max_samples': 2002, # 'min_samples_leaf': 3, # 'min_samples_split': 8, # 'n_estimators': 99}- max_depth本輪最優(yōu)取值為9,能夠進一步肯定max_depth最終的最優(yōu)取值也就是9、10左右;
- max_features本輪最優(yōu)取值變成了5,仍然在4附近變化,后續(xù)繼續(xù)保留sqrt+log2+4附近的搜索組合;
- max_leaf_nodes本輪最優(yōu)取值仍然為None,并沒有發(fā)生任何變化,后續(xù)仍然保留原定搜索范圍;
- max_samples本輪最優(yōu)取值為2002,這是第一次圍繞max_samples進行整數(shù)搜索,接下來可以以2002為中心,設置一個更小搜索空間;
- min_samples_leaf本輪最優(yōu)取值為3,恰好落在本輪搜索空間的上屆,下一輪搜索時略微拓展搜索空間的上界;
- min_samples_split本輪最優(yōu)取值變成了8,根據(jù)之前的搜索結(jié)果,該參數(shù)最優(yōu)取值基本都在7和8之間變動,因此可以設置一個6-9的搜索空間,確保下次如果再出現(xiàn)參數(shù)在7、8之間變動時,仍然在搜索范圍內(nèi);
- n_estimators本輪最優(yōu)取值為99,結(jié)合之前搜索出來的97的結(jié)果,預計該參數(shù)最終的最優(yōu)取值應該就是97-99之間,可以據(jù)此設置下一輪搜索空間;
5.第五輪搜索
??接下來,繼續(xù)進行第五輪搜索。經(jīng)過了前幾輪搜索,大多數(shù)參數(shù)都已經(jīng)能確定最優(yōu)解的大概取值范圍,因此第五輪搜索時可以將我們判斷的可能的最優(yōu)解全部包括在內(nèi),進行大規(guī)模搜索,當然,為了不至于搜索時間過長,我們可以適當刪除部分我們判斷不會出現(xiàn)最優(yōu)解的取值范圍:
start = time.time()# "min_samples_leaf":以3為中心 # "min_samples_split":重點搜索7、8兩個值 # "max_depth":重點搜索9、10兩個值 # "max_leaf_nodes":大概率為None # "n_estimators": 重點搜索97、98、99三個值 # "max_features":5附近的值+['sqrt', 'log2'] # "max_samples":2002向下搜索,重點搜索2002、2001和2000三個值# 設置超參數(shù)空間 parameter_space = {"min_samples_leaf": range(2, 5), "min_samples_split": range(6, 10),"max_depth": range(8, 12),"max_leaf_nodes": [None], "n_estimators": range(96, 101), "max_features":['sqrt', 'log2'] + list(range(3, 7)), "max_samples":[None] + list(range(2000, 2005))}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #604.74985766410835.1 計算運行時間與參數(shù)空間
??這一輪中我們刪除了max_leaf_nodes參數(shù)的數(shù)值取值,極大程度縮減了參數(shù)空間:
3 * 4 * 4 * 1 * 5 * 6 * 6 #8640 604.7498576641083 / 8640 #0.06999419648890141因此最終計算用時控制在10分鐘左右,平均0.07s執(zhí)行一組超參數(shù)的計算。
5.2 查看運行結(jié)果
??接下來查看模型運行結(jié)果,相比第四輪搜索,第五輪的搜索結(jié)果繼續(xù)提升:
grid_RF_0.best_score_ #0.8104878013818411 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8483528966300644, 0.7955706984667802)| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.808785 | 0.8459 | 0.7922 |
| RF+grid_R3 | 0.808784 | 0.8415 | 0.7927 |
| RF+grid_R4 | 0.809542 | 0.8406 | 0.7882 |
| RF+grid_R5 | 0.810488 | 0.8483 | 0.7955 |
該結(jié)果也是目前的最好結(jié)果。
??接下來繼續(xù)查看超參數(shù)搜索結(jié)果:
??能夠看出,除了min_samples_leaf和max_samples各自取到了搜索范圍下界外,其他參數(shù)的最優(yōu)取值都在設置的取值范圍中間。據(jù)此我們可以判斷搜索任務即將結(jié)束,下一輪搜索極有可能是最后一輪搜索,為此我們可以制定下一輪搜索策略:除了剛才的兩個參數(shù)需要調(diào)整取值范圍外,其他參數(shù)可以以本次搜索結(jié)果為中心設置更大的取值范圍,最好能包括最近三輪各參數(shù)的最優(yōu)值點,同時max_leaf_nodes恢復之前的大范圍數(shù)值搜索范圍,這么做必然會導致參數(shù)空間變得非常大,但為了確保最終結(jié)果具有較高的可信度,最后一輪搜索建議放大范圍,具體原因稍后解釋。這里我們可以簡單回顧最近三輪搜索時各參數(shù)的最優(yōu)值點:
| 3 | 7 | 10 | None | 97 | sqrt | 0.38 |
| 3 | 8 | 9 | None | 99 | 5 | 2002 |
| 2 | 7 | 10 | None | 97 | sqrt | 2000 |
據(jù)此,我們可以設置最后一輪搜索超參數(shù)空間如下:
parameter_space = {"min_samples_leaf": range(1, 5), "min_samples_split": range(6, 10),"max_depth": range(8, 12),"max_leaf_nodes": [None] + list(range(10, 70, 20)), "n_estimators": range(96, 101), "max_features":['sqrt', 'log2'] + list(range(1, 7)),"max_samples":[None] + list(range(1999, 2004))}如此一來,最后一輪搜索的參數(shù)空間備選參數(shù)組數(shù)量如下:
4 * 4 * 4 * 4 * 5 * 8 * 6 #61440而根據(jù)此前測算的平均計算時間,約0.06s完成一組超參數(shù)的計算,因此在總共有61440組超參數(shù)的情況下,最終估計計算時間為:
61440 * 0.06 #3686.3999999999996 61440 * 0.06 / 60 #61.43999999999999約一小時。
6.第六輪搜索
??接下來執(zhí)行第六輪搜索:
start = time.time()# 設置超參數(shù)空間 parameter_space = {"min_samples_leaf": range(1, 5), "min_samples_split": range(6, 10),"max_depth": range(8, 12),"max_leaf_nodes": [None] + list(range(10, 70, 20)), "n_estimators": range(96, 101), "max_features":['sqrt', 'log2'] + list(range(1, 7)),"max_samples":[None] + list(range(1999, 2004))}# 實例化模型與評估器 RF_0 = RandomForestClassifier(random_state=12) grid_RF_0 = GridSearchCV(RF_0, parameter_space, n_jobs=15)# 模型訓練 grid_RF_0.fit(X_train_OE, y_train)print(time.time()-start) #3601.6263830661774最終計算時間和此前預估相差不大,差不多1小時完成計算。
- 查看運行結(jié)果
??接下來查看模型運行結(jié)果,能夠發(fā)現(xiàn),在修改了超參數(shù)搜索空間后,最終仍然輸出了第五次搜索最終輸出的結(jié)果。盡管沒有模型效果上的提升,但兩次重復的結(jié)果也讓我們更加肯定當前輸出的超參數(shù)組就是最優(yōu)超參數(shù)組。
grid_RF_0.best_score_ #0.8104878013818411 grid_RF_0.score(X_train_OE, y_train), grid_RF_0.score(X_test_OE, y_test) #(0.8483528966300644, 0.7955706984667802) grid_RF_0.best_params_ # {'max_depth': 10, # 'max_features': 'sqrt', # 'max_leaf_nodes': None, # 'max_samples': 2000, # 'min_samples_leaf': 2, # 'min_samples_split': 7, # 'n_estimators': 97}| Logistic+grid | 0.8045 | 0.8055 | 0.7932 |
| RF+grid_R1 | 0.8084 | 0.8517 | 0.7848 |
| RF+grid_R2 | 0.808785 | 0.8459 | 0.7922 |
| RF+grid_R3 | 0.808784 | 0.8415 | 0.7927 |
| RF+grid_R4 | 0.809542 | 0.8406 | 0.7882 |
| RF+grid_R5 | 0.810488 | 0.8483 | 0.7955 |
| RF+grid_final | 0.810488 | 0.8483 | 0.7955 |
最終,在當前建模流程和當前數(shù)據(jù)集情況下,隨機森林能夠達到的最好表現(xiàn)就是0.810488。
7.最優(yōu)超參數(shù)組的可信度
??通過結(jié)果我們不難發(fā)現(xiàn),第六輪搜索的結(jié)果和第五輪搜索的結(jié)果并沒有任何區(qū)別,那為何還要進行第六輪搜索?或者說,考慮到第五輪搜索時確實存在部分超參數(shù)取到了搜索區(qū)間的邊界值,那簡單拓展搜索邊界即可,為何需要加入那么多備選參數(shù)、導致計算量激增?
??這里就要介紹關于最優(yōu)超參數(shù)組的可信度的問題了。其實從原理上來說,超參數(shù)和模型效果之間并沒有真正意義上的凸函數(shù)關系,如果有這種關系,超參數(shù)就不是超參數(shù)、而是一般參數(shù)了,就可以采用其他更加自動化的優(yōu)化算法來確定最優(yōu)值了。因此,哪怕在第五輪的時候我們幾乎可以確定超參數(shù)的最優(yōu)取值,但在第六輪搜索時仍然需要擴大參數(shù)范圍進行驗證,就是擔心萬一超參數(shù)取值邊界擴大、最優(yōu)取值發(fā)生變化了呢?畢竟我們不能完全相信所謂凸函數(shù)的特征。
??事實證明,這種擔心也是必要的,我們可以查看如下一組結(jié)果:
能夠看到,在這次搜索中,確實每個超參數(shù)最終取值都落在搜索區(qū)間的中間,也似乎滿足了我們之前介紹的搜索停止的條件。但是最終輸出結(jié)果并不如我們上面第六輪搜索得到的結(jié)果。對比最終輸出的超參數(shù)也能看出,其實差距就在n_estimators的取值,n_estimators在[98,99,100]中搜索時,最優(yōu)取值是99,但如果稍微放寬搜索區(qū)間時,如設置為[96, 97, 98, 99, 100],也就是第六輪搜索時的參數(shù)設置,此時網(wǎng)格搜索會判斷n_estimators的最優(yōu)取值為97。這也說明至少n_estimators的取值和模型效果并不是“凸函數(shù)”的關系(因為如果是,則模型效果會在n_estimators=97左右兩邊單調(diào)變化,在搜索[98,99,100]時將判斷98是最優(yōu)取值)。但同時,97這個取值也并不陌生,在相對精準的第三輪搜索時就被選為最優(yōu)超參數(shù)取值,因此,為了一定抵消超參數(shù)和模型效果之間這種不確定性關系所帶來的風險,最后一輪搜索時必須擴大搜索范圍,最好是將前幾輪精確搜索(不是大步長搜索)得出的結(jié)果一起帶入進行搜索,以期得到一個相對更加準確的結(jié)論。
??不過盡管如此,我們也不能百分之百確定目前第六輪搜索出來的結(jié)果就一定是絕對意義的最優(yōu)解、就不存在比這組超參數(shù)更優(yōu)的解,但我們?nèi)匀唤ㄗh采用上述流程進行搜索,也是因為這是長期實踐經(jīng)驗總結(jié)的產(chǎn)物,根據(jù)長期實踐證明,這樣的一套搜索策略能夠以非常高的效率得到一個相對來說非常好的結(jié)果(大概率是全域最優(yōu)解),盡管不是100%的最優(yōu)解,但這其實是我們借助有限的算力去解決無限的未知的一種手段,畢竟超參數(shù)空間取值理論上是無限的,枚舉不可能窮盡,目前也沒有理論可以通過某種公式確定最優(yōu)解(貝葉斯也只是估計)。
- 借助有限的資源去解決無限的未知,這就是“人”的價值
??當然,既然討論到關于“借助有限的算力去解決無限的未知”的問題,我們也可以從這個角度出發(fā),簡單探討關于AutoML的發(fā)展方向與當前算法工程師的可能存在的職業(yè)發(fā)展焦慮的問題。從根本上來說,機器學習模型的超參數(shù)看起來是模型的“缺陷”,因為如果沒有超參數(shù)的話,模型就可以完全自動化訓練了,模型確定參數(shù)就像y=x2y=x^2y=x2找最小值一樣簡單,但實際上,機器學習模型的超參數(shù)確是解決模型“缺陷”的手段。簡單理解,世界上并不存在絕對意義上完美的機器學習模型,影響模型的所有變量并不能夠通過一套理論完美求解,因此機器學習模型選擇將將所有的不確定性都交給了超參數(shù),才使得參數(shù)能夠順利的被求解,這樣也才使得其基本原理得以成立。而正式因為這些超參數(shù)的優(yōu)化需要人去解決,算法工程師的工作才變得有價值和有意義——能夠幫助模型達到更好的效果(“《自私的模型》”),當然,特征工程也是類似。但是,如果某一天人們創(chuàng)造了某個算法沒有超參數(shù)、或者超參數(shù)求解的問題能夠被一套理論或者一套計算流程完美解決,這個過程不需要人工干預,那么算法工程師的工作價值可能就會大打折扣。不過值得慶幸的是,截止目前,并沒有這種算法或者相關理論出現(xiàn),甚至這都不是一個熱門的研究方向,因為大多數(shù)學者判斷,以當前基礎科學發(fā)展情況來看(主要是基礎數(shù)學和物理),這些理論突破暫時不可能做到。
??而新興的AutoML,聽名字好像是全自動化機器學習,但其實并不是完全自動化解決超參數(shù)優(yōu)化的問題,而是將超參數(shù)優(yōu)化問題轉(zhuǎn)化為了另一種更高層次的建模問題,但這個問題仍然需要人來解決,也就是需要算法工程人員去解決,只不過不再是一個個參數(shù)進行調(diào)節(jié),而是使用一個更加復雜的工具來進行模型整體層面的優(yōu)化,你可以將AutoML看成是一個更加高級的網(wǎng)格搜索工具,效果更好、理論更加復雜、操作難度更高。不過截至目前,盡管AutoML得到了一定程度的應用,但其基礎理論和實踐工具仍然有待進一步的突破,才能夠成為新的算法工程師們趁手的工具。
所以說替代算法工程師工作的不是某個工具,而是一個沒有“超參數(shù)”的世界,或者說,當模型不再需要“人”去優(yōu)化時。
8.其他搜索方案
??當然,除了網(wǎng)格搜索外,此處也可以考慮先進行大規(guī)模隨機網(wǎng)格搜索或者對半搜索,鎖定的最優(yōu)參數(shù)后再劃定范圍進行更加精準的網(wǎng)格搜索,也就是所謂的組合搜索策略,不過由于初始搜索出來的最優(yōu)參數(shù)精度不夠,外加隨機搜索時抽樣過程不確定,也會對最終結(jié)果造成影響。其實從另一個角度來看,網(wǎng)格搜索前幾輪設置的大步長搜索策略,其實也就相當于是隨機網(wǎng)格搜索,只不過隨機抽樣的取值是人工固定的。
三、網(wǎng)格搜索流程總結(jié)
??最后,讓我們簡單總結(jié)上述介紹的網(wǎng)格搜索實戰(zhàn)流程,幫助大家從一個更加整體的角度看待網(wǎng)格搜索參數(shù)優(yōu)化的全過程。
??至此,我們就完成了隨機森林+網(wǎng)格搜索在當前數(shù)據(jù)集上的全部訓練與優(yōu)化工作,并借此完整詳細的介紹了網(wǎng)格搜索這一優(yōu)化器的具體實戰(zhàn)操作技巧。當然,要做到活學活用,還需要在日后更多的實踐中不斷積累經(jīng)驗,需要注意的是,后續(xù)課程中在進行網(wǎng)格搜索調(diào)優(yōu)時,只會展示最后一輪的搜索結(jié)果,但實際搜索流程和本節(jié)介紹的一致,也希望同學課后多加練習,甚至提煉和總結(jié)自己的調(diào)優(yōu)流程。
總結(jié)
以上是生活随笔為你收集整理的项目一 Part 4.2 基于网格搜索的超参数优化实战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux中彻底卸载mysql_Linu
- 下一篇: 五笔