當(dāng)前位置：首頁 >

一文详解超参数调优方法

發(fā)布時(shí)間：2024/10/8 79 豆豆

生活随笔收集整理的這篇文章主要介紹了一文详解超参数调优方法小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜王東偉

單位｜Cubiz

研究方向｜深度學(xué)習(xí)

本文介紹超參數(shù)（hyperparameter）的調(diào)優(yōu)方法。

神經(jīng)網(wǎng)絡(luò)模型的參數(shù)可以分為兩類：

模型參數(shù)，在訓(xùn)練中通過梯度下降算法更新；

超參數(shù)，在訓(xùn)練中一般是固定數(shù)值或者以預(yù)設(shè)規(guī)則變化，比如批大小（batch size）、學(xué)習(xí)率（learning rate）、正則化項(xiàng)系數(shù)（weight decay）、核函數(shù)中的 gamma 等。

超參數(shù)調(diào)優(yōu)的目標(biāo)通常是最小化泛化誤差（generalization error），也可以根據(jù)具體任務(wù)自定義其他優(yōu)化目標(biāo)。泛化誤差是指預(yù)測(cè)未知樣本得到的誤差，通常由驗(yàn)證集得到，關(guān)于驗(yàn)證集可以參閱?Cross-validation (statistics). Wikipedia.。

調(diào)優(yōu)的方法如網(wǎng)格搜索（grid search）、隨機(jī)搜索（random search）、貝葉斯優(yōu)化（bayesian optimization），是比較常用的算法，下文將作介紹。其他算法如基于梯度的優(yōu)化（gradient-based optimization）、受啟發(fā)于生物學(xué)的進(jìn)化算法（evolution strategy）等，讀者可以自行了解。

網(wǎng)格搜索 Grid search

網(wǎng)格搜索就是遍歷所有可能的超參數(shù)組合，找到能得到最佳性能（比如最小化泛化誤差）的超參數(shù)組合，但是由于一次訓(xùn)練的計(jì)算代價(jià)很高，搜索區(qū)間通常只會(huì)限定于少量的離散數(shù)值，以下用一段偽代碼說明：

def?train(acf,?wd,?lr):優(yōu)化目標(biāo)函數(shù)得到模型M由驗(yàn)證集得到泛化誤差ereturn?elearning_rate?=?[0.0001,?0.001,?0.01,?0.1] weight_decay?=?[0.01,?0.1,?1] activation?=?['ReLU',?'GELU',?'Swish']optimum?=?{'error':?1e10}#?grid?search for?acf?in?activation:for?wd?in?weight_decay:for?lr?in?learning_rate:error?=?train(acf,?wd,?lr)if?error?<?optimum['error']:optimum['error']?=?erroroptimum['param']?=?{'acf':?acf,'wd':?wd,'lr':?lr}

隨機(jī)搜索 Random search

隨機(jī)搜索在預(yù)先設(shè)定的定義域內(nèi)隨機(jī)選取超參數(shù)組合。實(shí)驗(yàn)證明隨機(jī)搜索比網(wǎng)格搜索更高效，主要原因是隨機(jī)搜索可以搜索連續(xù)數(shù)值并且可以設(shè)定更大的搜索空間，因此有幾率得到更優(yōu)的模型。另外，對(duì)于僅有少數(shù)超參數(shù)起決定性作用的情況，隨機(jī)搜索對(duì)于重要參數(shù)的搜索效率更高。

如圖 1，假設(shè)參數(shù) 2 幾乎對(duì)優(yōu)化目標(biāo)沒有影響，而參數(shù) 1 很重要，在同樣進(jìn)行 9 次采樣的搜索中，網(wǎng)格搜索實(shí)際上僅對(duì)參數(shù) 1 采樣了 3 次，而隨機(jī)搜索為 9 次。關(guān)于隨機(jī)搜索的實(shí)驗(yàn)可以查閱論文 Random Search for Hyper-Parameter Optimization. James Bergstra, Yoshua Bengio. 2012.。

▲ 圖1

貝葉斯優(yōu)化 Bayesian optimization

給定一組超參數(shù)，為了計(jì)算相應(yīng)的模型泛化誤差，我們需要進(jìn)行一次完整的模型訓(xùn)練，對(duì)于大型的深度學(xué)習(xí)模型可能需要花上幾個(gè)小時(shí)的時(shí)間。注意到網(wǎng)格搜索和隨機(jī)搜索中，不同的超參數(shù)采樣是相互獨(dú)立的，一個(gè)直接的想法是，能否充分利用已采樣數(shù)據(jù)來決定下一次采樣，以提高搜索效率（或者說減少采樣次數(shù)）。

早在 1960 年，就有科學(xué)家 Danie G. Krige 用類似的方法用于金礦分布的估計(jì)，他用已開采的少數(shù)礦點(diǎn)對(duì)金礦分布進(jìn)行建模，后來這類方法被稱為 Kriging 或高斯過程回歸（Gaussian process regression, GPR）。

本文將介紹基于高斯過程的貝葉斯優(yōu)化，其他類型的貝葉斯優(yōu)化算法將在文末作簡(jiǎn)要總結(jié)。此外，本文關(guān)于 GPR 的數(shù)學(xué)原理部分參考了 MIT 出版的?Gaussian Processes for Machine Learning. C. E. Rasmussen, C. K. I. Williams. 2006（下文簡(jiǎn)稱GPML），讀者可自行查閱。

3.1 算法簡(jiǎn)介

超參數(shù)優(yōu)化可以視為求解泛化誤差的極值點(diǎn)：

其中，為訓(xùn)練集和驗(yàn)證集，λ 為帶參數(shù)模型。

以下為了方便討論并且與相關(guān)領(lǐng)域的論文保持一致，我們用表示待優(yōu)化的目標(biāo)函數(shù)，并且假設(shè)我們的目標(biāo)是求極大值：

貝葉斯優(yōu)化的算法如下：

可以看到，貝葉斯優(yōu)化每次迭代都充分利用歷史采樣信息得到新的采樣點(diǎn)，采樣函數(shù) 的目標(biāo)是讓新的采樣點(diǎn)盡可能接近極值點(diǎn)，因此，貝葉斯優(yōu)化有可能以更少的采樣得到優(yōu)化結(jié)果。

GP 模型可以理解為函數(shù)，不過其對(duì)于未知輸入的預(yù)測(cè)不是一個(gè)確定的數(shù)值，而是一個(gè)概率分布。對(duì)于給定的，將得到正態(tài)分布的均值 μ 和方差 σ，也就是說，將給出目標(biāo)函數(shù)值的概率分布，即μσ。

圖 2 為 3 次采樣后（也就是已知樣本數(shù)量為 3）GP 模型擬合結(jié)果的可視化，樣本輸入為 1 維，其中黑色曲線為均值 μ，藍(lán)色區(qū)域?yàn)橐粋€(gè)標(biāo)準(zhǔn)差的置信區(qū)間。

▲ 圖2，源：https://arxiv.org/abs/1012.2599

3.2 高斯過程

具體地，我們假設(shè)隨機(jī)變量集合為高斯過程，其由均值函數(shù)（mean function）和協(xié)方差函數(shù)（covariance function）定義：

其中：

通常我們假設(shè)均值函數(shù)為常數(shù) 。協(xié)方差函數(shù)的常見選擇是平方指數(shù)（squared exponential，SE）函數(shù)，也叫高斯核：

容易發(fā)現(xiàn)，上述協(xié)方差函數(shù)描述了不同輸入之間的距離，或者說相似性（similarity）。對(duì)于回歸或者分類問題，一個(gè)合理的假設(shè)是，距離較近的輸入 x 有相近的目標(biāo)函數(shù)值（或者類別標(biāo)簽）y，比如在分類問題中，距離測(cè)試樣本更近的訓(xùn)練樣本將提供更多關(guān)于測(cè)試樣本類別的信息?？梢哉f，協(xié)方差函數(shù)“編碼”了我們對(duì)目標(biāo)函數(shù)的假設(shè)。

現(xiàn)在，假如我們有了一些觀測(cè)數(shù)據(jù) ，其中，。令，根據(jù)高斯過程的性質(zhì)，和測(cè)試樣本服從聯(lián)合高斯分布：

其中，是元素值全為 1 的向量。為格萊姆矩陣（Gram matrix）。

可以證明，對(duì)于服從聯(lián)合高斯分布的隨機(jī)向量和，

有：

因此：

到這里，我們幾乎完成了貝葉斯優(yōu)化的 GP 模型擬合部分，接下來，還需要作一些調(diào)整。

3.3 觀測(cè)值噪聲

在實(shí)際的項(xiàng)目中，目標(biāo)函數(shù)的觀測(cè)值通常帶有隨機(jī)噪聲 ?，即：

一般來說，我們可以假設(shè)噪聲服從零均值高斯分布，?σ，并進(jìn)一步假設(shè)不同觀測(cè)樣本的噪聲獨(dú)立同分布，因此對(duì)于帶噪聲的觀測(cè)樣本，其關(guān)于協(xié)方差函數(shù)的先驗(yàn)變成：

注意到我們?cè)黾恿藚?shù) σ，表示目標(biāo)函數(shù)的方差。

容易得到：

其中，為單位矩陣，，σ，σ。

進(jìn)一步得到：

3.4 GP模型的超參數(shù)

注意到，以上關(guān)于概率分布的預(yù)測(cè)包含參數(shù) σσ，我們稱之為 GP 模型的超參數(shù)。需要指出的是，GP 模型是一種非參數(shù)（non-parametric）模型（這里的參數(shù)應(yīng)該類比神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置），超參數(shù)是獨(dú)立于模型擬合過程的自由參數(shù)。

回顧對(duì)于目標(biāo)函數(shù) 的先驗(yàn)假設(shè)：

在無觀測(cè)數(shù)據(jù)的情況下，符合該先驗(yàn)的函數(shù)構(gòu)成一個(gè)函數(shù)集合。通過多元高斯分布采樣（參閱[GPML, Appendix A, A.2]），我們可以得到 σ 時(shí)，關(guān)于的一種采樣結(jié)果（考慮到可視化的便利性，為 1 維），并由插值方法得到函數(shù)曲線，如圖 3：

▲圖3

可以看到 l 與采樣函數(shù)隨著變化的劇烈程度有關(guān)。關(guān)于其他超參數(shù)如何影響 GP 模型的探討，請(qǐng)參閱 [GPML, Chapter 5]。

通過最大化邊緣似然（marginal likelihood），可以得到 GP 模型超參數(shù)的最優(yōu)值，通常稱該方法為極大似然估計(jì)（maximum likelihood estimate, MLE）。為觀測(cè)數(shù)據(jù)，之所以被稱為邊緣似然來源于其積分表達(dá)式：

我們可以通過高斯分布的性質(zhì)得到上述積分結(jié)果，不過我們已經(jīng)從上文得到觀測(cè)值服從高斯分布：

即：

取 log 得到：

其中，為矩陣行列式，σ。

可以看到僅僅取決于均值常數(shù) ，矩陣的參數(shù) 和隨機(jī)噪聲 σ。我們把 σ 統(tǒng)一表示為，其中? 表示?。由相關(guān)的矩陣求導(dǎo)公式（參閱 [GPML, Appendix A, A.3]），容易求得 │ 關(guān)于的梯度：

其中，，。

此外，容易得到：

其中，，表示第列的列向量。

接下來我們可以通過類似梯度上升的優(yōu)化算法得到最優(yōu)參數(shù)值。

其他 GP 模型的超參數(shù)優(yōu)化方法，如極大后驗(yàn)估計(jì)（maximum a posteriori, MAP）和完全貝葉斯估計(jì)（fully Bayesian）可參閱 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.。

3.5 協(xié)方差函數(shù)

不同的協(xié)方差函數(shù)本質(zhì)上隱含了對(duì)目標(biāo)函數(shù)性質(zhì)的不同假設(shè)。如果協(xié)方差函數(shù)是關(guān)于的函數(shù)，那么它具有平移不變性，我們稱它是平穩(wěn)協(xié)方差函數(shù)（stationary covariance function），進(jìn)一步，如果是關(guān)于的函數(shù)，則該函數(shù)具有各向同性（isotropic）?？梢?#xff0c;SE 函數(shù)是平穩(wěn)的且各向同性的。

對(duì)于完全取決于內(nèi)積的函數(shù)，我們稱之為內(nèi)積協(xié)方差函數(shù)（dot product covariance function），它具有旋轉(zhuǎn)不變形，但不是平穩(wěn)的。一個(gè)內(nèi)積協(xié)方差函數(shù)的例子：

平滑性（smoothness）。隨機(jī)過程的平滑性由均方可微性（mean square differentiability）決定，比如，SE 函數(shù)對(duì)應(yīng)的高斯過程是無限均方可微的。關(guān)于均方導(dǎo)數(shù)、均方可微的定義你可以自行了解。

以下介紹幾個(gè)常見的平穩(wěn)協(xié)方差函數(shù)形式。為了簡(jiǎn)潔，令。

a. 伽馬指數(shù)函數(shù)（γ-exponential covariance function）

除了（相當(dāng)于 SE）以外，它是非均方可微的。圖4展示了時(shí)的采樣。

▲ 圖4

b. 馬頓函數(shù)（The Mate?rn class of covariance functions）

其中，ν 為修正貝塞爾函數(shù)（modified Bessel function），ν 為伽瑪函數(shù)（gamma function）。圖 5 展示了 ν 時(shí)的采樣。

▲?圖5

馬頓函數(shù)在 ν 均方不可微，而在 ν 時(shí)為高階均方可微。在一些論文中建議用 ν 的馬頓函數(shù)作為先驗(yàn)，它是二階均方可微的，具有以下形式：

c. 二次有理函數(shù)（rational quadratic covariance function）

圖6展示了時(shí)的采樣。

▲?圖6

以上協(xié)方差函數(shù)還有各向異性（anisotropic）的版本，可以通過替換得到，為對(duì)角矩陣。注意到各向同性的 SE 函數(shù)只有一個(gè)超參數(shù) ，其各向異性版本則有個(gè)超參數(shù)，為的維度。

3.6 采樣函數(shù)

現(xiàn)在我們已經(jīng)可以根據(jù)已有觀測(cè)數(shù)據(jù) 得到一個(gè)用于預(yù)測(cè)新樣本的 GP 模型，接下來我們考慮采樣函數(shù)（acquisition function）的部分。采樣函數(shù)的作用是讓每一次采樣都盡可能接近目標(biāo)函數(shù)的極大值/極小值，以此提升極值點(diǎn)搜索效率。具體地，我們用表示給定 GP 模型的采樣函數(shù)，對(duì)于目標(biāo)函數(shù)的下一次采樣：

GP 模型給出的是目標(biāo)函數(shù)的均值 μ 和方差 σ，一個(gè)直接的策略是，選擇更大概率比當(dāng)前觀測(cè)數(shù)據(jù)的目標(biāo)函數(shù)值更大的點(diǎn)（假設(shè)我們的目標(biāo)是尋找極大值），令為當(dāng)前觀測(cè)數(shù)據(jù)的最大值，可以得到采樣函數(shù)：

其中，是標(biāo)準(zhǔn)正態(tài)累積分布函數(shù)。

▲?圖7，源：https://arxiv.org/abs/1012.2599

通過分析可知，采樣函數(shù) 傾向于以很高的概率略大于的點(diǎn)，而不是以較低的概率大于更多的點(diǎn)；前者更側(cè)重以更高的把握取得提升（exploitation），后者側(cè)重于探索高風(fēng)險(xiǎn)高收益的區(qū)域（exploration）。過于強(qiáng)調(diào) exploitation 會(huì)導(dǎo)致優(yōu)化過程陷入局部極值點(diǎn)，強(qiáng)調(diào) exploration 則可能導(dǎo)致優(yōu)化目標(biāo)一直無法得到提升。因此采樣函數(shù)的主要設(shè)計(jì)原則就是平衡 exploitation 和 exploration。以下列出幾個(gè)常見的采樣函數(shù)。

a. Probability of improvement (PI)

上述公式由得到，可以控制 exploration 的程度。論文作者建議對(duì)參數(shù) 建立一個(gè)規(guī)劃表，在早期采樣中設(shè)置高一些以強(qiáng)調(diào) exploration，然后逐漸調(diào)低數(shù)值至零。

b. Expected improvement (EI)

其中，是標(biāo)準(zhǔn)高斯分布的概率密度函數(shù)。EI 通過分析采樣值提升的數(shù)學(xué)期望得到，同樣用于平衡 exploitation-exploration，相關(guān)論文通過實(shí)驗(yàn)表明可以在幾乎所有實(shí)驗(yàn)案例中取得不錯(cuò)的表現(xiàn)。

c. Upper confidence bound (UCB & GP-UCB)

UCB 由體現(xiàn)預(yù)期收益的部分 μ 和體現(xiàn)風(fēng)險(xiǎn)的部分 κσ 構(gòu)成，并通過參數(shù) κ 控制 exploration。

GP-UCB的隨采樣進(jìn)度 t 而變化，在原論文中實(shí)驗(yàn)采用的公式是：

實(shí)驗(yàn)中 δ。表示對(duì) 的定義域進(jìn)行離散化取值得到的點(diǎn)數(shù)量，比如對(duì)于 1 維的情況，，每隔取一個(gè) 值，則。論文還提到在實(shí)驗(yàn)中通過對(duì) 縮小 5 倍，可以獲得性能提升 Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design. Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias Seeger. 2009.。

總結(jié)

協(xié)方差函數(shù)的選擇。SE 函數(shù)是最常用的，但是因?yàn)榛?SE 的高斯過程是無限均方可微的，可見 SE 隱含了對(duì)目標(biāo)函數(shù)平滑性的極端假設(shè)，因此有論文建議用 ν 的馬頓函數(shù) Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.。

均值函數(shù)。常數(shù)是比較常見的均值函數(shù)設(shè)置，如果目標(biāo)函數(shù)可能有某種變化趨勢(shì)，可以考慮采用參數(shù)化的均值函數(shù)，形如 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.，或者基于概率模型的方法[GPML, Chapter 2]。

采樣函數(shù)的選擇。對(duì)于選擇哪個(gè)采樣函數(shù)目前沒有明確的規(guī)則，有論文提出用組合采樣函數(shù)的方法可以得到比單獨(dú)使用更好的實(shí)驗(yàn)表現(xiàn)，參閱 Portfolio Allocation for Bayesian Optimization. Eric Brochu, Matthew W. Hoffman, Nando de Freitas. 2010.。其他采樣函數(shù)，如 knowledge-gradient The Knowledge-Gradient Policy for Correlated Normal Beliefs. Peter Frazier, Warren Powell, Savas Dayanik. 2008.，entropy search (ES) Entropy Search for Information-Efficient Global Optimization. Philipp Hennig, Christian J. Schuler. 2012.，predictive entropy search (PES) Predictive Entropy Search for Efficient Global Optimization of Black-box Functions. José Miguel Hernández-Lobato, Matthew W. Hoffman, Zoubin Ghahramani. 2014.，結(jié)合 fully Bayesian 的GP EI MCMC Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.，提升采樣函數(shù)效率的 mixture cross-entropy algorithm Surrogating the surrogate: accelerating Gaussian-process-based global optimization with a mixture cross-entropy algorithm. R ?emi Bardenet, Bal ?azs K ?egl. 2010.。

其他貝葉斯優(yōu)化算法。采用隨機(jī)森林建模的 Sequential Model-based Algorithm Configuration (SMAC) Sequential Model-Based Optimization for General Algorithm Configuration. Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown. 2011.，更適合高維度、離散化、超參數(shù)間有條件依賴的 Tree Parzen Estimator (TPE) Algorithms for Hyper-Parameter Optimization. James Bergstra, R ?emi Bardenet, Yoshua Bengio, Bal ?azs K ?egl. 2011.，以及提升 GP 模型計(jì)算效率的 SPGPs 和 SSGPs Taking the Human Out of the Loop: A Review of Bayesian Optimization. Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P. Adams, Nando de Freitas. 2016.。

最新的進(jìn)展。2018年一篇關(guān)于貝葉斯優(yōu)化的總結(jié)性論文 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.，比較新的超參數(shù)優(yōu)化算法 Hyperband Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization. Lisha Li, Kevin Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, Ameet Talwalkar. 2017.，結(jié)合了TPE和Hyperband的BOHB BOHB: Robust and Efficient Hyperparameter Optimization at Scale. Stefan Falkner, Aaron Klein, Frank Hutter. 2018.，Hyperband 和 BOHB 代碼實(shí)現(xiàn) HpBandSter. 2018.。

附錄：部分算法的Python代碼示例

a. 多元高斯分布采樣。原理參閱[GPML, Appendix A, A.2]。

from?matplotlib?import?pyplot?as?plt import?numpy?as?np#?SE協(xié)方差函數(shù) kernel_se?=?np.vectorize(lambda?x1,?x2,?l:?np.exp(-(x1?-?x2)?**?2?/?(2?*?l?**?2)))def?sample_se(x,?l,?mean=0):#?x為numpy數(shù)組，e.g.?x?=?np.arange(-5,?5,?0.05)x1,?x2?=?np.meshgrid(x,?x)n?=?len(x)sigma?=?kernel_se(x1,?x2,?l)?+?np.identity(n)?*?0.000000001L?=?np.linalg.cholesky(sigma)u?=?np.random.randn(n)y?=?mean?+?L?@?ureturn?yc?=?['red',?'green',?'blue'] l?=?[3,?1,?0.3]for?i?in?range(len(l)):x?=?np.arange(-5,?5,?0.05)y?=?sample_se(x,?l[i])plt.plot(x,?y,?c=c[i],?linewidth=1,?label='l=%.1f'?%?l[i])plt.xlabel('input,?x') plt.ylabel('output,?f(x)') plt.legend(loc='best') plt.show()output：

b. 由觀測(cè)數(shù)據(jù)集（X, Y）得到新樣本的均值和方差。

from?matplotlib?import?pyplot?as?plt import?numpy?as?np#?目標(biāo)函數(shù)?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? objective?=?np.vectorize(lambda?x,?std_n=0:?0.001775?*?x**5?-?0.055?*?x**4?+?0.582?*?x**3?-?2.405?*?x**2?+?3.152?*?x?+?4.678?+?np.random.normal(0,?std_n))#?超參數(shù)???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? mean,?l,?std_f,?std_n?=?5,?1,?1,?0.0001#?SE協(xié)方差函數(shù)?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? kernel?=?lambda?r_2,?l:?np.exp(-r_2?/?(2?*?l**2))#?訓(xùn)練集，以一維輸入為例???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? X?=?np.arange(1.5,?10,?3.0) X?=?X.reshape(X.size,?1) Y?=?objective(X).flatten()#?未知樣本?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? Xs?=?np.arange(0,?10,?0.1) Xs?=?Xs.reshape(Xs.size,?1)n,?d?=?X.shape t?=?np.repeat(X.reshape(n,?1,?d),?n,?axis=1)?-?X r_2?=?np.sum(t**2,?axis=2) Kf?=?std_f**2?*?kernel(r_2,?l) Ky?=?Kf?+?std_n**2?*?np.identity(n) Ky_inv?=?np.linalg.inv(Ky)m?=?Xs.shape[0] t?=?np.repeat(Xs.reshape(m,?1,?d),?n,?axis=1)?-?X r_2?=?np.sum(t**2,?axis=2).T kf?=?std_f**2?*?kernel(r_2,?l) mu?=?mean?+?kf.T?@?Ky_inv?@?(Y?-?mean) std?=?np.sqrt(std_f**2?-?np.sum(kf.T?@?Ky_inv?*?kf.T,?axis=1))x_test?=?Xs.flatten() y_obj?=?objective(x_test).flatten()plt.plot(x_test,?mu,?c='black',?lw=1,?label='predicted?mean') plt.fill_between(x_test,?mu?+?std,?mu?-?std,?alpha=0.2,?color='#9FAEB2',?lw=0) plt.plot(x_test,?y_obj,?c='red',?ls='--',?lw=1,?label='objective?function') plt.scatter(X.flatten(),?Y,?c='red',?marker='o',?s=20) plt.legend(loc='best') plt.show()

output：

c. 貝葉斯優(yōu)化示例。

from?matplotlib?import?pyplot?as?plt import?numpy?as?np#?目標(biāo)函數(shù)?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? objective?=?np.vectorize(lambda?x,?sigma_n=0:?0.001775?*?x**5?-?0.055?*?x**4?+?0.582?*?x**3?-?2.405?*?x**2?+?3.152?*?x?+?4.678?+?np.random.normal(0,?sigma_n))#?采樣函數(shù)?-?GP-UCB????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? GPUCB?=?np.vectorize(lambda?mu,?sigma,?t,?ld,?delta=0.1:?mu?+?(1?*?2?*?np.log(ld?*?t**2?*?np.pi**2?/?(6?*?delta)))**0.5?*?sigma)#?超參數(shù)???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? mean,?l,?sigma_f,?sigma_n?=?5,?1,?1,?0.0001#?迭代次數(shù)?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? max_iter?=?3#?SE協(xié)方差函數(shù)?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? kernel?=?lambda?r_2,?l:?np.exp(-r_2?/?(2?*?l**2))#?初始訓(xùn)練樣本，以一維輸入為例?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? X?=?np.arange(0.5,?10,?3.0) X?=?X.reshape(X.size,?1) Y?=?objective(X).flatten()plt.figure(figsize=(8,5))for?i?in?range(max_iter):Xs?=?np.arange(0,?10,?0.1)Xs?=?Xs.reshape(Xs.size,?1)n,?d?=?X.shapet?=?np.repeat(X.reshape(n,?1,?d),?n,?axis=1)?-?Xr_2?=?np.sum(t**2,?axis=2)Kf?=?sigma_f**2?*?kernel(r_2,?l)Ky?=?Kf?+?sigma_n**2?*?np.identity(n)Ky_inv?=?np.linalg.inv(Ky)m?=?Xs.shape[0]t?=?np.repeat(Xs.reshape(m,?1,?d),?n,?axis=1)?-?Xr_2?=?np.sum(t**2,?axis=2).Tkf?=?sigma_f**2?*?kernel(r_2,?l)mu?=?mean?+?kf.T?@?Ky_inv?@?(Y?-?mean)sigma?=?np.sqrt(sigma_f**2?-?np.sum(kf.T?@?Ky_inv?*?kf.T,?axis=1))y_acf?=?GPUCB(mu,?sigma,?i?+?1,?n)sample_x?=?Xs[np.argmax(y_acf)]x_test?=?Xs.flatten()y_obj?=?objective(x_test).flatten()ax?=?plt.subplot(2,?max_iter,?i?+?1)ax.set_title('t=%d'?%?(i?+?1))plt.ylim(3,?8)plt.plot(x_test,?mu,?c='black',?lw=1)plt.fill_between(x_test,?mu?+?sigma,?mu?-?sigma,?alpha=0.2,?color='#9FAEB2',?lw=0)plt.plot(x_test,?y_obj,?c='red',?ls='--',?lw=1)plt.scatter(X,?Y,?c='red',?marker='o',?s=20)plt.subplot(2,?max_iter,?i?+?1?+?max_iter)plt.ylim(3.5,?9)plt.plot(x_test,?y_acf,?c='#18D766',?lw=1)X?=?np.insert(X,?0,?sample_x,?axis=0)Y?=?np.insert(Y,?0,?objective(sample_x))plt.show()

output：

參考文獻(xiàn)

[1] Random Search for Hyper-Parameter Optimization. James Bergstra, Yoshua Bengio. 2012.?

[2] Gaussian Processes for Machine Learning. C. E. Rasmussen, C. K. I. Williams. 2006.?

[3] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?

[4] Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design. Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias Seeger. 2009.?

[5] Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.?

[6] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?

[7] Portfolio Allocation for Bayesian Optimization. Eric Brochu, Matthew W. Hoffman, Nando de Freitas. 2010.?

[8] The Knowledge-Gradient Policy for Correlated Normal Beliefs. Peter Frazier, Warren Powell, Savas Dayanik. 2008.?

[9] Entropy Search for Information-Efficient Global Optimization. Philipp Hennig, Christian J. Schuler. 2012.?

[10] Predictive Entropy Search for Efficient Global Optimization of Black-box Functions. José Miguel Hernández-Lobato, Matthew W. Hoffman, Zoubin Ghahramani. 2014.?

[11] Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.?

[12] Surrogating the surrogate: accelerating Gaussian-process-based global optimization with a mixture cross-entropy algorithm. R ?emi Bardenet, Bal ?azs K ?egl. 2010.?

[13] Sequential Model-Based Optimization for General Algorithm Configuration. Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown. 2011.?

[14] Algorithms for Hyper-Parameter Optimization. James Bergstra, R ?emi Bardenet, Yoshua Bengio, Bal ?azs K ?egl. 2011.?

[15] Taking the Human Out of the Loop: A Review of Bayesian Optimization. Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P. Adams, Nando de Freitas. 2016.?

[16] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?

[17] Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization. Lisha Li, Kevin Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, Ameet Talwalkar. 2017.?

[18] BOHB: Robust and Efficient Hyperparameter Optimization at Scale. Stefan Falkner, Aaron Klein, Frank Hutter. 2018.?

[19] A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. Eric Brochu, Vlad M. Cora, Nando de Freitas. 2010.?

[20] Cross-validation (statistics). Wikipedia.?

[21] Markov chain Monte Carlo. Wikipedia.?

更多閱讀

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

?????來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的一文详解超参数调优方法的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：失地保险每月领多少钱如何办理失地保险手
下一篇： B站疯传，一整套人工智能学习资料免费送，