2.3.1 为超参数选择合适的范围
調(diào)試處理
對于超參數(shù),如何才能找到一個比較好的設(shè)定呢?
如圖所示,我們可能會需要調(diào)試很多的超參數(shù)。但其中最重要的超參數(shù)還是學(xué)習(xí)率。被紅色圈住的是最重要的超參數(shù),橙色的是次重要的超參數(shù)。紫色是再其次重要的。
如果想調(diào)試一系列的超參數(shù),具體應(yīng)該怎么做呢?
如圖所示,我們通常情況下會采用圖中右側(cè)所示的情況來選擇超參數(shù),比如說二維情況下,我們確定選擇范圍之后隨機(jī)選點,然后看看這個超參數(shù)效果好不好。三維也是如此。
我們還有一種超參數(shù)的選擇策略
如圖所示,這是一個從粗糙到精細(xì)的過程,比如說,如果你發(fā)現(xiàn)了某一個超參數(shù)比較好,然后就在這個更小的范圍內(nèi)去選項超參數(shù),縮小選擇范圍可能會得到更好的結(jié)果。
為超參數(shù)選擇合適的范圍
我們上面介紹的隨機(jī)提取并不是在有效范圍內(nèi)隨機(jī)的均勻取值,而是選擇合適的標(biāo)尺,用來探究這些超參數(shù)。
如圖所示,這是對參數(shù)的取值范圍選取,看到均勻選取可能是合適的,但這個對于超參數(shù)而言并不成立,我們來看一下超參數(shù)是如何選取的。
如圖所示,我們來看一個學(xué)習(xí)率的例子。我們?nèi)绻褂镁鶆蛉≈档脑?#xff0c;那么0.1-1的概率將會占到90%,而0.001-0.1的范圍只占到了10%,這就十分不合理了,所以我們使用對數(shù)標(biāo)尺來搜索超參數(shù)。取值方法如圖所示。
另外一個比較棘手的問題是對ββ取值,比如他的搜索范圍是從0.9-0.999
這里的0.9就相當(dāng)于對10天的情況取平均,而0.999相當(dāng)于對1000天的情況取平均。所以,不能使用隨機(jī)平均來選取這些超參數(shù),也要用對數(shù)的形式。
如圖所示,我們換成了1?β1?β的形式,然后對數(shù)處理,在[-3,-1]里面取平均就可以了。通過這種方法就可以實現(xiàn)了從0.9-0.99和0.99-0.999取值一樣多的情況。
因為ββ是指數(shù)加權(quán)平均,所以一定要用對數(shù)處理一下,才能達(dá)到真正的平均。
吳教主深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)課程總綱
總結(jié)
以上是生活随笔為你收集整理的2.3.1 为超参数选择合适的范围的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2.2.7 局部最优化问题
- 下一篇: 2.3.2 Batch Norm介绍