日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一文详解超参数调优方法

發布時間:2024/10/8 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一文详解超参数调优方法 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|王東偉

單位|Cubiz

研究方向|深度學習

本文介紹超參數(hyperparameter)的調優方法。

神經網絡模型的參數可以分為兩類:

  • 模型參數,在訓練中通過梯度下降算法更新;

  • 超參數,在訓練中一般是固定數值或者以預設規則變化,比如批大小(batch size)、學習率(learning rate)、正則化項系數(weight decay)、核函數中的 gamma 等。

  • 超參數調優的目標通常是最小化泛化誤差(generalization error),也可以根據具體任務自定義其他優化目標。泛化誤差是指預測未知樣本得到的誤差,通常由驗證集得到,關于驗證集可以參閱?Cross-validation (statistics). Wikipedia.。

    調優的方法如網格搜索(grid search)、隨機搜索(random search)、貝葉斯優化(bayesian optimization),是比較常用的算法,下文將作介紹。其他算法如基于梯度的優化(gradient-based optimization)、受啟發于生物學的進化算法(evolution strategy)等,讀者可以自行了解。

    網格搜索 Grid search

    網格搜索就是遍歷所有可能的超參數組合,找到能得到最佳性能(比如最小化泛化誤差)的超參數組合,但是由于一次訓練的計算代價很高,搜索區間通常只會限定于少量的離散數值,以下用一段偽代碼說明:

    def?train(acf,?wd,?lr):優化目標函數得到模型M由驗證集得到泛化誤差ereturn?elearning_rate?=?[0.0001,?0.001,?0.01,?0.1] weight_decay?=?[0.01,?0.1,?1] activation?=?['ReLU',?'GELU',?'Swish']optimum?=?{'error':?1e10}#?grid?search for?acf?in?activation:for?wd?in?weight_decay:for?lr?in?learning_rate:error?=?train(acf,?wd,?lr)if?error?<?optimum['error']:optimum['error']?=?erroroptimum['param']?=?{'acf':?acf,'wd':?wd,'lr':?lr}

    隨機搜索 Random search

    隨機搜索在預先設定的定義域內隨機選取超參數組合。實驗證明隨機搜索比網格搜索更高效,主要原因是隨機搜索可以搜索連續數值并且可以設定更大的搜索空間,因此有幾率得到更優的模型。另外,對于僅有少數超參數起決定性作用的情況,隨機搜索對于重要參數的搜索效率更高。

    如圖 1,假設參數 2 幾乎對優化目標沒有影響,而參數 1 很重要,在同樣進行 9 次采樣的搜索中,網格搜索實際上僅對參數 1 采樣了 3 次,而隨機搜索為 9 次。關于隨機搜索的實驗可以查閱論文 Random Search for Hyper-Parameter Optimization. James Bergstra, Yoshua Bengio. 2012.。

    ▲ 圖1

    貝葉斯優化 Bayesian optimization

    給定一組超參數,為了計算相應的模型泛化誤差,我們需要進行一次完整的模型訓練,對于大型的深度學習模型可能需要花上幾個小時的時間。注意到網格搜索和隨機搜索中,不同的超參數采樣是相互獨立的,一個直接的想法是,能否充分利用已采樣數據來決定下一次采樣,以提高搜索效率(或者說減少采樣次數)。

    早在 1960 年,就有科學家 Danie G. Krige 用類似的方法用于金礦分布的估計,他用已開采的少數礦點對金礦分布進行建模,后來這類方法被稱為 Kriging 或高斯過程回歸(Gaussian process regression, GPR)。

    本文將介紹基于高斯過程的貝葉斯優化,其他類型的貝葉斯優化算法將在文末作簡要總結。此外,本文關于 GPR 的數學原理部分參考了 MIT 出版的?Gaussian Processes for Machine Learning. C. E. Rasmussen, C. K. I. Williams. 2006(下文簡稱GPML),讀者可自行查閱。

    3.1 算法簡介

    超參數優化可以視為求解泛化誤差的極值點:

    其中, 為訓練集和驗證集,λ 為帶參數模型。

    以下為了方便討論并且與相關領域的論文保持一致,我們用 表示待優化的目標函數,并且假設我們的目標是求極大值:

    貝葉斯優化的算法如下:

    可以看到,貝葉斯優化每次迭代都充分利用歷史采樣信息得到新的采樣點,采樣函數 的目標是讓新的采樣點盡可能接近極值點,因此,貝葉斯優化有可能以更少的采樣得到優化結果。

    GP 模型可以理解為函數,不過其對于未知輸入 的預測不是一個確定的數值,而是一個概率分布。對于給定的 , 將得到正態分布的均值 μ 和方差 σ,也就是說, 將給出目標函數值 的概率分布,即μσ。

    圖 2 為 3 次采樣后(也就是已知樣本數量為 3)GP 模型擬合結果的可視化,樣本輸入為 1 維,其中黑色曲線為均值 μ,藍色區域為一個標準差的置信區間。

    ▲ 圖2,源:https://arxiv.org/abs/1012.2599

    3.2 高斯過程

    具體地,我們假設隨機變量集合 為高斯過程,其由均值函數(mean function) 和協方差函數(covariance function) 定義:

    其中:

    通常我們假設均值函數為常數 。協方差函數的常見選擇是平方指數(squared exponential,SE)函數,也叫高斯核:

    容易發現,上述協方差函數描述了不同輸入之間的距離,或者說相似性(similarity)。對于回歸或者分類問題,一個合理的假設是,距離較近的輸入 x 有相近的目標函數值(或者類別標簽)y,比如在分類問題中,距離測試樣本更近的訓練樣本將提供更多關于測試樣本類別的信息。可以說,協方差函數“編碼”了我們對目標函數的假設。

    現在,假如我們有了一些觀測數據 ,其中,。令 ,根據高斯過程的性質, 和測試樣本 服從聯合高斯分布:

    其中, 是元素值全為 1 的向量。 為格萊姆矩陣(Gram matrix)。

    可以證明,對于服從聯合高斯分布的隨機向量 和 ,

    有:

    因此:

    到這里,我們幾乎完成了貝葉斯優化的 GP 模型擬合部分,接下來,還需要作一些調整。

    3.3 觀測值噪聲

    在實際的項目中,目標函數的觀測值 通常帶有隨機噪聲 ?,即:

    一般來說,我們可以假設噪聲服從零均值高斯分布,?σ,并進一步假設不同觀測樣本的噪聲獨立同分布,因此對于帶噪聲的觀測樣本,其關于協方差函數的先驗變成:

    注意到我們增加了參數 σ,表示目標函數的方差。

    容易得到:

    其中, 為單位矩陣,,σ,σ。

    進一步得到:

    3.4 GP模型的超參數

    注意到,以上關于 概率分布的預測包含參數 σσ,我們稱之為 GP 模型的超參數。需要指出的是,GP 模型是一種非參數(non-parametric)模型(這里的參數應該類比神經網絡的權重和偏置),超參數是獨立于模型擬合過程的自由參數。

    回顧對于目標函數 的先驗假設:

    在無觀測數據的情況下,符合該先驗的函數構成一個函數集合。通過多元高斯分布采樣(參閱[GPML, Appendix A, A.2]),我們可以得到 σ 時, 關于 的一種采樣結果(考慮到可視化的便利性, 為 1 維),并由插值方法得到函數曲線,如圖 3:

    ▲圖3

    可以看到 l 與采樣函數隨著 變化的劇烈程度有關。關于其他超參數如何影響 GP 模型的探討,請參閱 [GPML, Chapter 5]。

    通過最大化邊緣似然(marginal likelihood),可以得到 GP 模型超參數的最優值,通常稱該方法為極大似然估計(maximum likelihood estimate, MLE)。為觀測數據, 之所以被稱為邊緣似然來源于其積分表達式:

    我們可以通過高斯分布的性質得到上述積分結果,不過我們已經從上文得到觀測值服從高斯分布:

    即:

    取 log 得到:

    其中,為矩陣行列式,σ。

    可以看到 僅僅取決于均值常數 ,矩陣 的參數 和隨機噪聲 σ。我們把 σ 統一表示為 ,其中? 表示?。由相關的矩陣求導公式(參閱 [GPML, Appendix A, A.3]),容易求得 │ 關于 的梯度:

    其中,,。

    此外,容易得到:

    其中,, 表示第 列的列向量。

    接下來我們可以通過類似梯度上升的優化算法得到最優參數值。

    其他 GP 模型的超參數優化方法,如極大后驗估計(maximum a posteriori, MAP)和完全貝葉斯估計(fully Bayesian) 可參閱 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.。

    3.5 協方差函數

    不同的協方差函數本質上隱含了對目標函數性質的不同假設。如果協方差函數是關于 的函數,那么它具有平移不變性,我們稱它是平穩協方差函數(stationary covariance function),進一步,如果是關于 的函數,則該函數具有各向同性(isotropic)。可見,SE 函數是平穩的且各向同性的。

    對于完全取決于內積 的函數,我們稱之為內積協方差函數(dot product covariance function),它具有旋轉不變形,但不是平穩的。一個內積協方差函數的例子:

    平滑性(smoothness)。隨機過程的平滑性由均方可微性(mean square differentiability)決定,比如,SE 函數對應的高斯過程是無限均方可微的。關于均方導數、均方可微的定義你可以自行了解。

    以下介紹幾個常見的平穩協方差函數形式。為了簡潔,令 。

    a. 伽馬指數函數(γ-exponential covariance function)

    除了 (相當于 SE)以外,它是非均方可微的。圖4展示了 時的采樣。

    ▲ 圖4

    b. 馬頓函數(The Mate?rn class of covariance functions)

    其中,ν 為修正貝塞爾函數(modified Bessel function),ν 為伽瑪函數(gamma function)。圖 5 展示了 ν 時的采樣。

    ▲?圖5

    馬頓函數在 ν 均方不可微,而在 ν 時為高階均方可微。在一些論文中建議用 ν 的馬頓函數作為先驗,它是二階均方可微的,具有以下形式:

    c. 二次有理函數(rational quadratic covariance function)

    圖6展示了 時的采樣。

    ▲?圖6

    以上協方差函數還有各向異性(anisotropic)的版本,可以通過替換 得到, 為對角矩陣。注意到各向同性的 SE 函數只有一個超參數 ,其各向異性版本則有 個超參數, 為 的維度。

    3.6 采樣函數

    現在我們已經可以根據已有觀測數據 得到一個用于預測新樣本的 GP 模型 ,接下來我們考慮采樣函數(acquisition function)的部分。采樣函數的作用是讓每一次采樣都盡可能接近目標函數的極大值/極小值,以此提升極值點搜索效率。具體地,我們用 表示給定 GP 模型的采樣函數,對于目標函數的下一次采樣:

    GP 模型給出的是目標函數的均值 μ 和方差 σ,一個直接的策略是,選擇更大概率比當前觀測數據的目標函數值更大的點(假設我們的目標是尋找極大值),令 為當前觀測數據的最大值,可以得到采樣函數:

    其中, 是標準正態累積分布函數。

    ▲?圖7,源:https://arxiv.org/abs/1012.2599

    通過分析可知,采樣函數 傾向于以很高的概率略大于 的點,而不是以較低的概率大于 更多的點;前者更側重以更高的把握取得提升(exploitation),后者側重于探索高風險高收益的區域(exploration)。過于強調 exploitation 會導致優化過程陷入局部極值點,強調 exploration 則可能導致優化目標一直無法得到提升。因此采樣函數的主要設計原則就是平衡 exploitation 和 exploration。以下列出幾個常見的采樣函數。

    a. Probability of improvement (PI)

    上述公式由 得到, 可以控制 exploration 的程度。論文作者建議對參數 建立一個規劃表,在早期采樣中設置高一些以強調 exploration,然后逐漸調低數值至零。

    b. Expected improvement (EI)

    其中, 是標準高斯分布的概率密度函數。EI 通過分析采樣值提升的數學期望 得到, 同樣用于平衡 exploitation-exploration,相關論文通過實驗表明 可以在幾乎所有實驗案例中取得不錯的表現。

    c. Upper confidence bound (UCB & GP-UCB)

    UCB 由體現預期收益的部分 μ 和體現風險的部分 κσ 構成,并通過參數 κ 控制 exploration。

    GP-UCB的 隨采樣進度 t 而變化,在原論文中實驗采用的公式是:

    實驗中 δ。 表示對 的定義域 進行離散化取值得到的點數量,比如對于 1 維的情況,,每隔 取一個 值,則 。論文還提到在實驗中通過對 縮小 5 倍,可以獲得性能提升 Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design. Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias Seeger. 2009.。

    總結

    協方差函數的選擇。SE 函數是最常用的,但是因為基于 SE 的高斯過程是無限均方可微的,可見 SE 隱含了對目標函數平滑性的極端假設,因此有論文建議用 ν 的馬頓函數 Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.。

    均值函數。常數是比較常見的均值函數設置,如果目標函數可能有某種變化趨勢,可以考慮采用參數化的均值函數,形如 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.,或者基于概率模型的方法[GPML, Chapter 2]。

    采樣函數的選擇。對于選擇哪個采樣函數目前沒有明確的規則,有論文提出用組合采樣函數的方法可以得到比單獨使用更好的實驗表現,參閱 Portfolio Allocation for Bayesian Optimization. Eric Brochu, Matthew W. Hoffman, Nando de Freitas. 2010.。其他采樣函數,如 knowledge-gradient The Knowledge-Gradient Policy for Correlated Normal Beliefs. Peter Frazier, Warren Powell, Savas Dayanik. 2008.,entropy search (ES) Entropy Search for Information-Efficient Global Optimization. Philipp Hennig, Christian J. Schuler. 2012.,predictive entropy search (PES) Predictive Entropy Search for Efficient Global Optimization of Black-box Functions. José Miguel Hernández-Lobato, Matthew W. Hoffman, Zoubin Ghahramani. 2014.,結合 fully Bayesian 的GP EI MCMC Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.,提升采樣函數效率的 mixture cross-entropy algorithm Surrogating the surrogate: accelerating Gaussian-process-based global optimization with a mixture cross-entropy algorithm. R ?emi Bardenet, Bal ?azs K ?egl. 2010.。

    其他貝葉斯優化算法。采用隨機森林建模的 Sequential Model-based Algorithm Configuration (SMAC) Sequential Model-Based Optimization for General Algorithm Configuration. Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown. 2011.,更適合高維度、離散化、超參數間有條件依賴的 Tree Parzen Estimator (TPE) Algorithms for Hyper-Parameter Optimization. James Bergstra, R ?emi Bardenet, Yoshua Bengio, Bal ?azs K ?egl. 2011.,以及提升 GP 模型計算效率的 SPGPs 和 SSGPs Taking the Human Out of the Loop: A Review of Bayesian Optimization. Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P. Adams, Nando de Freitas. 2016.。

    最新的進展。2018年一篇關于貝葉斯優化的總結性論文 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.,比較新的超參數優化算法 Hyperband Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization. Lisha Li, Kevin Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, Ameet Talwalkar. 2017.,結合了TPE和Hyperband的BOHB BOHB: Robust and Efficient Hyperparameter Optimization at Scale. Stefan Falkner, Aaron Klein, Frank Hutter. 2018.,Hyperband 和 BOHB 代碼實現 HpBandSter. 2018.。

    附錄:部分算法的Python代碼示例

    a. 多元高斯分布采樣。原理參閱[GPML, Appendix A, A.2]。

    from?matplotlib?import?pyplot?as?plt import?numpy?as?np#?SE協方差函數 kernel_se?=?np.vectorize(lambda?x1,?x2,?l:?np.exp(-(x1?-?x2)?**?2?/?(2?*?l?**?2)))def?sample_se(x,?l,?mean=0):#?x為numpy數組,e.g.?x?=?np.arange(-5,?5,?0.05)x1,?x2?=?np.meshgrid(x,?x)n?=?len(x)sigma?=?kernel_se(x1,?x2,?l)?+?np.identity(n)?*?0.000000001L?=?np.linalg.cholesky(sigma)u?=?np.random.randn(n)y?=?mean?+?L?@?ureturn?yc?=?['red',?'green',?'blue'] l?=?[3,?1,?0.3]for?i?in?range(len(l)):x?=?np.arange(-5,?5,?0.05)y?=?sample_se(x,?l[i])plt.plot(x,?y,?c=c[i],?linewidth=1,?label='l=%.1f'?%?l[i])plt.xlabel('input,?x') plt.ylabel('output,?f(x)') plt.legend(loc='best') plt.show()output:

    b. 由觀測數據集(X, Y)得到新樣本的均值 和方差 。

    from?matplotlib?import?pyplot?as?plt import?numpy?as?np#?目標函數?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? objective?=?np.vectorize(lambda?x,?std_n=0:?0.001775?*?x**5?-?0.055?*?x**4?+?0.582?*?x**3?-?2.405?*?x**2?+?3.152?*?x?+?4.678?+?np.random.normal(0,?std_n))#?超參數???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? mean,?l,?std_f,?std_n?=?5,?1,?1,?0.0001#?SE協方差函數?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? kernel?=?lambda?r_2,?l:?np.exp(-r_2?/?(2?*?l**2))#?訓練集,以一維輸入為例???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? X?=?np.arange(1.5,?10,?3.0) X?=?X.reshape(X.size,?1) Y?=?objective(X).flatten()#?未知樣本?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? Xs?=?np.arange(0,?10,?0.1) Xs?=?Xs.reshape(Xs.size,?1)n,?d?=?X.shape t?=?np.repeat(X.reshape(n,?1,?d),?n,?axis=1)?-?X r_2?=?np.sum(t**2,?axis=2) Kf?=?std_f**2?*?kernel(r_2,?l) Ky?=?Kf?+?std_n**2?*?np.identity(n) Ky_inv?=?np.linalg.inv(Ky)m?=?Xs.shape[0] t?=?np.repeat(Xs.reshape(m,?1,?d),?n,?axis=1)?-?X r_2?=?np.sum(t**2,?axis=2).T kf?=?std_f**2?*?kernel(r_2,?l) mu?=?mean?+?kf.T?@?Ky_inv?@?(Y?-?mean) std?=?np.sqrt(std_f**2?-?np.sum(kf.T?@?Ky_inv?*?kf.T,?axis=1))x_test?=?Xs.flatten() y_obj?=?objective(x_test).flatten()plt.plot(x_test,?mu,?c='black',?lw=1,?label='predicted?mean') plt.fill_between(x_test,?mu?+?std,?mu?-?std,?alpha=0.2,?color='#9FAEB2',?lw=0) plt.plot(x_test,?y_obj,?c='red',?ls='--',?lw=1,?label='objective?function') plt.scatter(X.flatten(),?Y,?c='red',?marker='o',?s=20) plt.legend(loc='best') plt.show()

    output:

    c. 貝葉斯優化示例。

    from?matplotlib?import?pyplot?as?plt import?numpy?as?np#?目標函數?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? objective?=?np.vectorize(lambda?x,?sigma_n=0:?0.001775?*?x**5?-?0.055?*?x**4?+?0.582?*?x**3?-?2.405?*?x**2?+?3.152?*?x?+?4.678?+?np.random.normal(0,?sigma_n))#?采樣函數?-?GP-UCB????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? GPUCB?=?np.vectorize(lambda?mu,?sigma,?t,?ld,?delta=0.1:?mu?+?(1?*?2?*?np.log(ld?*?t**2?*?np.pi**2?/?(6?*?delta)))**0.5?*?sigma)#?超參數???????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? mean,?l,?sigma_f,?sigma_n?=?5,?1,?1,?0.0001#?迭代次數?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? max_iter?=?3#?SE協方差函數?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? kernel?=?lambda?r_2,?l:?np.exp(-r_2?/?(2?*?l**2))#?初始訓練樣本,以一維輸入為例?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????? X?=?np.arange(0.5,?10,?3.0) X?=?X.reshape(X.size,?1) Y?=?objective(X).flatten()plt.figure(figsize=(8,5))for?i?in?range(max_iter):Xs?=?np.arange(0,?10,?0.1)Xs?=?Xs.reshape(Xs.size,?1)n,?d?=?X.shapet?=?np.repeat(X.reshape(n,?1,?d),?n,?axis=1)?-?Xr_2?=?np.sum(t**2,?axis=2)Kf?=?sigma_f**2?*?kernel(r_2,?l)Ky?=?Kf?+?sigma_n**2?*?np.identity(n)Ky_inv?=?np.linalg.inv(Ky)m?=?Xs.shape[0]t?=?np.repeat(Xs.reshape(m,?1,?d),?n,?axis=1)?-?Xr_2?=?np.sum(t**2,?axis=2).Tkf?=?sigma_f**2?*?kernel(r_2,?l)mu?=?mean?+?kf.T?@?Ky_inv?@?(Y?-?mean)sigma?=?np.sqrt(sigma_f**2?-?np.sum(kf.T?@?Ky_inv?*?kf.T,?axis=1))y_acf?=?GPUCB(mu,?sigma,?i?+?1,?n)sample_x?=?Xs[np.argmax(y_acf)]x_test?=?Xs.flatten()y_obj?=?objective(x_test).flatten()ax?=?plt.subplot(2,?max_iter,?i?+?1)ax.set_title('t=%d'?%?(i?+?1))plt.ylim(3,?8)plt.plot(x_test,?mu,?c='black',?lw=1)plt.fill_between(x_test,?mu?+?sigma,?mu?-?sigma,?alpha=0.2,?color='#9FAEB2',?lw=0)plt.plot(x_test,?y_obj,?c='red',?ls='--',?lw=1)plt.scatter(X,?Y,?c='red',?marker='o',?s=20)plt.subplot(2,?max_iter,?i?+?1?+?max_iter)plt.ylim(3.5,?9)plt.plot(x_test,?y_acf,?c='#18D766',?lw=1)X?=?np.insert(X,?0,?sample_x,?axis=0)Y?=?np.insert(Y,?0,?objective(sample_x))plt.show()

    output:

    參考文獻

    [1] Random Search for Hyper-Parameter Optimization. James Bergstra, Yoshua Bengio. 2012.?

    [2] Gaussian Processes for Machine Learning. C. E. Rasmussen, C. K. I. Williams. 2006.?

    [3] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?

    [4] Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design. Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias Seeger. 2009.?

    [5] Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.?

    [6] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?

    [7] Portfolio Allocation for Bayesian Optimization. Eric Brochu, Matthew W. Hoffman, Nando de Freitas. 2010.?

    [8] The Knowledge-Gradient Policy for Correlated Normal Beliefs. Peter Frazier, Warren Powell, Savas Dayanik. 2008.?

    [9] Entropy Search for Information-Efficient Global Optimization. Philipp Hennig, Christian J. Schuler. 2012.?

    [10] Predictive Entropy Search for Efficient Global Optimization of Black-box Functions. José Miguel Hernández-Lobato, Matthew W. Hoffman, Zoubin Ghahramani. 2014.?

    [11] Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.?

    [12] Surrogating the surrogate: accelerating Gaussian-process-based global optimization with a mixture cross-entropy algorithm. R ?emi Bardenet, Bal ?azs K ?egl. 2010.?

    [13] Sequential Model-Based Optimization for General Algorithm Configuration. Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown. 2011.?

    [14] Algorithms for Hyper-Parameter Optimization. James Bergstra, R ?emi Bardenet, Yoshua Bengio, Bal ?azs K ?egl. 2011.?

    [15] Taking the Human Out of the Loop: A Review of Bayesian Optimization. Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P. Adams, Nando de Freitas. 2016.?

    [16] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?

    [17] Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization. Lisha Li, Kevin Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, Ameet Talwalkar. 2017.?

    [18] BOHB: Robust and Efficient Hyperparameter Optimization at Scale. Stefan Falkner, Aaron Klein, Frank Hutter. 2018.?

    [19] A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. Eric Brochu, Vlad M. Cora, Nando de Freitas. 2010.?

    [20] Cross-validation (statistics). Wikipedia.?

    [21] Markov chain Monte Carlo. Wikipedia.?

    更多閱讀

    #投 稿?通 道#

    ?讓你的論文被更多人看到?

    如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

    總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

    PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

    ?????來稿標準:

    ? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

    ? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

    ? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

    ?????投稿郵箱:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 所有文章配圖,請單獨在附件中發送?

    ? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

    ????

    現在,在「知乎」也能找到我們了

    進入知乎首頁搜索「PaperWeekly」

    點擊「關注」訂閱我們的專欄吧

    關于PaperWeekly

    PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    總結

    以上是生活随笔為你收集整理的一文详解超参数调优方法的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 日韩电影一区二区三区 | 好吊色视频一区二区三区 | 天天干干| 日韩1级片| 最近中文在线观看 | 蜜臀久久99精品久久久无需会员 | 凹凸日日摸日日碰夜夜 | 中文字幕黄色av | 欧美激情图区 | 亚洲日本成人在线观看 | 日本黄色片一级 | 国产乱码在线观看 | 男人操女人视频网站 | 日韩69视频 | 香蕉网站在线观看 | 精品国产乱码久久久久久郑州公司 | www.桃色av嫩草.com | av一区二区三 | 欧美不卡一二三 | 一区=区三区乱码 | 在线观看成人免费视频 | 中文字幕乱码一二三区 | 久草视频在| 女生和男生一起插插插 | 秘密的基地 | 玉女心经是什么意思 | 精品国产高清在线观看 | 日韩精品一区二区三区在线视频 | 日韩精品一区二区三区视频在线观看 | 国产小视频在线免费观看 | 国产一区二区在线免费 | 在线观看亚洲专区 | 林雅儿欧洲留学恋爱日记在线 | 日韩国产三级 | 欧美一二三级 | 国产一区二区三区自拍 | 国产精品久久久久久久久久久久 | 欧洲高潮三级做爰 | 日韩av不卡在线播放 | av日日操| 日日躁夜夜躁狠狠久久av | 精品无码久久久久久国产 | 亚洲免费网站在线观看 | 国产一级片a | 日韩精品久久 | 成人高潮片免费 | 西西午夜 | 日韩欧美一级大片 | 看片免费黄在线观看入口 | 瑟瑟视频在线观看 | 成人福利视频在线观看 | 免费av手机在线观看 | 人妻无码久久精品人妻 | 灌篮高手全国大赛电影 | 青青草国产在线观看 | 影音资源av | 欧美偷拍综合 | 完美搭档在线观看 | 亚洲国产视频在线观看 | av第一页| 成人羞羞网站 | 天堂资源在线 | 免费成人在线网站 | 中文视频一区 | 欧美久久免费 | 免费黄网在线观看 | 日本视频黄色 | 亚洲永久无码7777kkk | 国产午夜视频在线播放 | 久久极品 | 亚洲综合图色 | 色香蕉视频 | 欧美永久 | 国产成人精品女人久久久 | 精品国产91久久久久久久妲己 | 精品一区二区电影 | 日本无翼乌邪恶大全彩h | 刘亦菲毛片一区二区三区 | 亚洲第一福利网站 | 久久久久久久久久网站 | 超碰95在线| 538精品一线 | 久久久久久久久久久网 | 国产精品男女 | 亚洲国产一区视频 | 久久久丁香| 日本啪啪网站 | 国模在线视频 | 小明看国产 | 超碰av在线播放 | 中文字幕精品三级久久久 | 婷婷伊人五月 | 97在线观视频免费观看 | 尤物网址在线观看 | 欧美一区二区三 | 欧美性大战久久久久xxx | 日韩精品在线观看网站 | 国产成年人 | gav在线|