论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程
0.摘要
深度高斯過程 (DGP) 是高斯過程的層次概括,它將經(jīng)過良好校準(zhǔn)的不確定性估計(jì)與多層模型的高度靈活性相結(jié)合。 這些模型的最大挑戰(zhàn)之一是精確推斷是難以處理的。 當(dāng)前最先進(jìn)的推理方法變分推理 (VI) 對(duì)后驗(yàn)分布采用高斯近似。 這可能是一般多峰后驗(yàn)的潛在較差的單峰近似。 在這項(xiàng)工作中,我們?yōu)楹篁?yàn)的非高斯性質(zhì)提供了證據(jù),并且我們應(yīng)用隨機(jī)梯度哈密頓蒙特卡羅方法來生成樣本。 為了有效地優(yōu)化超參數(shù),我們引入了移動(dòng)窗口 MCEM 算法。 與 VI 對(duì)應(yīng)物相比,這會(huì)以更低的計(jì)算成本產(chǎn)生明顯更好的預(yù)測(cè)。 因此,我們的方法為 DGP 中的推理建立了新的最新技術(shù)。
1.介紹
深度高斯過程 (DGP) [Damianou and Lawrence, 2013] 是高度靈活的多層預(yù)測(cè)模型,可以準(zhǔn)確地模擬不確定性。 特別是,它們已被證明在從小型(500 個(gè)數(shù)據(jù)點(diǎn))到大型數(shù)據(jù)集(500,000 個(gè)數(shù)據(jù)點(diǎn))的眾多監(jiān)督回歸任務(wù)中表現(xiàn)良好 [Salimbeni 和 Deisenroth,2017,Bui 等,2016,Cutajar 等 ., 2016]。 與神經(jīng)網(wǎng)絡(luò)相比,它們的主要優(yōu)勢(shì)在于它們能夠捕捉預(yù)測(cè)中的不確定性。 這使它們成為預(yù)測(cè)不確定性起關(guān)鍵作用的任務(wù)的理想候選者,例如黑盒貝葉斯優(yōu)化問題和各種安全關(guān)鍵應(yīng)用,如自動(dòng)駕駛汽車和醫(yī)療診斷。
深度高斯過程為高斯過程 (GP) [Williams and Rasmussen, 1996] 引入了多層層次結(jié)構(gòu)。 GP 是一種非參數(shù)模型,它假設(shè)任何有限輸入集的聯(lián)合高斯分布。 任何一對(duì)輸入的協(xié)方差由協(xié)方差函數(shù)確定。 由于非參數(shù)和可分析計(jì)算,GPs 可能是一個(gè)穩(wěn)健的選擇,但是,一個(gè)問題是選擇協(xié)方差函數(shù)通常需要手動(dòng)調(diào)整和數(shù)據(jù)集的專家知識(shí),如果沒有手頭問題的先驗(yàn)知識(shí),這是不可能的。 在多層層次結(jié)構(gòu)中,隱藏層通過拉伸和扭曲輸入空間來克服這一限制,從而產(chǎn)生貝葉斯“自調(diào)整”協(xié)方差函數(shù),無(wú)需任何人工輸入即可擬合數(shù)據(jù) [Damianou, 2015]。
GP 的深度層次化泛化是以完全連接的前饋方式完成的。 前一層的輸出用作下一層的輸入。 然而,與神經(jīng)網(wǎng)絡(luò)的一個(gè)顯著區(qū)別是層輸出是概率而不是精確值,因此不確定性通過網(wǎng)絡(luò)傳播。 圖 1 的左側(cè)部分說明了具有單個(gè)隱藏層的概念。 隱藏層的輸入是輸入數(shù)據(jù) x,隱藏層 f1 的輸出作為輸出層的輸入數(shù)據(jù),輸出層本身是由 GPs 形成的。
圖 1:(左):深度高斯過程插圖 1。 (中):隨機(jī)選擇誘導(dǎo)輸出的直方圖。 最佳擬合高斯分布用虛線表示。 其中一些表現(xiàn)出明顯的多模式行為。 (右):每個(gè)數(shù)據(jù)集 100 個(gè)隨機(jī)選擇的誘導(dǎo)輸出的 P 值。 零假設(shè)是它們的分布是高斯分布。
由于使用逆協(xié)方差矩陣的計(jì)算成本很高,因此在大型數(shù)據(jù)集的 GP 中進(jìn)行精確推斷是不可行的。 相反,使用一小組偽數(shù)據(jù)點(diǎn) (100) 來近似后驗(yàn),也稱為誘導(dǎo)點(diǎn) [Snelson and Ghahramani, 2006, Titsias, 2009, Quinonero-Candela and Rasmussen, 2005]。 我們?cè)谡撐闹卸技僭O(shè)這個(gè)誘導(dǎo)點(diǎn)框架。 使用誘導(dǎo)點(diǎn)進(jìn)行預(yù)測(cè)以避免計(jì)算整個(gè)數(shù)據(jù)集的協(xié)方差矩陣。 在 GP 和 DGP 中,誘導(dǎo)輸出都被視為需要邊緣化的潛在變量。
DGP 中當(dāng)前最先進(jìn)的推理方法是雙重隨機(jī)變化推理 (DSVI) [Salimbeni 和 Deisenroth,2017],它已被證明優(yōu)于期望傳播 [Minka,2001,Bui 等人,2016],并且它 也比采用概率反向傳播的貝葉斯神經(jīng)網(wǎng)絡(luò) [Hern′andez-Lobato 和 Adams, 2015] 和采用早期推理方法的貝葉斯神經(jīng)網(wǎng)絡(luò)(如變異推理 [Graves, 2011]、隨機(jī)梯度朗之萬(wàn)動(dòng)力學(xué) [Welling and Teh, 2011)和混合蒙特卡洛 [Neal, 1993]具有更好的性能。 然而,DSVI 的一個(gè)缺點(diǎn)是它用高斯近似后驗(yàn)分布。 我們非常自信地表明,對(duì)于我們?cè)谶@項(xiàng)工作中檢查的每個(gè)數(shù)據(jù)集,后驗(yàn)分布都是非高斯分布的。 這一發(fā)現(xiàn)促使使用具有更靈活后驗(yàn)近似的推理方法
在這項(xiàng)工作中,我們應(yīng)用了一種新的 DGP 推理方法,即隨機(jī)梯度哈密頓蒙特卡羅 (SGHMC),這是一種準(zhǔn)確有效地捕獲后驗(yàn)分布的采樣方法。 為了將基于采樣的推理方法應(yīng)用于 DGP,我們必須解決優(yōu)化大量超參數(shù)的問題。 為了解決這個(gè)問題,我們提出了移動(dòng)窗口蒙特卡羅期望最大化,這是一種獲得超參數(shù)的最大似然 (ML) 估計(jì)的新方法。 該方法快速、高效且普遍適用于任何概率模型和 MCMC 采樣器。
人們可能期望像 SGHMC 這樣的采樣方法比 DSVI 這樣的變分方法在計(jì)算上更加密集。 然而,在 DGP 中,從后驗(yàn)采樣成本很低,因?yàn)樗恍枰匦掠?jì)算逆協(xié)方差矩陣,這僅取決于超參數(shù)。 此外,計(jì)算分層方差在 VI 設(shè)置中的成本更高。
最后,我們對(duì)各種監(jiān)督回歸和分類任務(wù)進(jìn)行了實(shí)驗(yàn)。 我們憑經(jīng)驗(yàn)表明,我們的工作以較低的計(jì)算成本顯著改善了對(duì)中大型數(shù)據(jù)集的預(yù)測(cè)。
我們的貢獻(xiàn)可以概括為三點(diǎn)。
2.背景及相關(guān)工作
本節(jié)提供回歸的高斯過程和深度高斯過程的背景,并建立本文中使用的符號(hào)。
2.1 單層GP
高斯過程由后驗(yàn)分布f:RD→Rf:R^D→Rf:RD→R定義
輸入x={x1,...,xN}x=\{x_1,...,x_N\}x={x1?,...,xN?}
輸出y={y1,...,yN}y=\{y_1,...,y_N\}y={y1?,...,yN?}
在高斯過程模型下,假定f=f(x)f=f(x)f=f(x)是聯(lián)合高斯且協(xié)方差函數(shù)為k:RD×RD→Rk:R^D × R^D → Rk:RD×RD→R,其中,f(x)={f(x1),...,f(xN)}f(x)= \{f(x_1),...,f(x_N)\}f(x)={f(x1?),...,f(xN?)}。
yyy條件分布由似然函數(shù)p(y∣f)p(y|f)p(y∣f)求得,常用:p(y∣f)=N(y∣f,Iσ2)p(y|f)=N(y|f,Iσ^2)p(y∣f)=N(y∣f,Iσ2)
精確推理的計(jì)算成本是 O(N3)O(N^3)O(N3),這使得它對(duì)于大型數(shù)據(jù)集在計(jì)算上是不可行的。 一種常見的方法是使用一組偽數(shù)據(jù)點(diǎn) Z={z1,...,zM},u=f(Z)Z = \{z_1,..., z_M\}, u = f(Z)Z={z1?,...,zM?},u=f(Z)[Snelson and Ghahramani, 2006, Titsias, 2009] 并將聯(lián)合概率密度函數(shù)寫為
p(y,f,u)=p(y∣f)p(f∣u)p(u)p(y,f,u)=p(y|f)p(f|u)p(u)p(y,f,u)=p(y∣f)p(f∣u)p(u)
給定誘導(dǎo)輸出 uuu 的 fff 的分布可以表示為 p(f∣u)=N(μ;Σ)p(f|u) = N(μ ;Σ )p(f∣u)=N(μ;Σ),其中
μ=KxZKZZ?1uμ=K_{xZ}K^{-1}_{ZZ}uμ=KxZ?KZZ?1?u
Σ=Kxx+KxZKZZ?1KxZTΣ=K_{xx}+K_{xZ}K^{-1}_{ZZ}K_{xZ}^TΣ=Kxx?+KxZ?KZZ?1?KxZT?
為了獲得 fff 的后驗(yàn),uuu 必須被邊緣化,產(chǎn)生方程
p(f∣y)=∫p(f∣u)p(u∣y)dup(f|y)=\int p(f|u)p(u|y)dup(f∣y)=∫p(f∣u)p(u∣y)du
請(qǐng)注意,在給定 uuu 的情況下,fff 有條件地獨(dú)立于 yyy。
對(duì)于單層GPs,VI能夠用于邊際,VI使用變分后驗(yàn)q(f,u)=p(f∣u)q(u)q(f,u)=p(f|u)q(u)q(f,u)=p(f∣u)q(u)去近似聯(lián)合后驗(yàn)分布p(f,u∣y)p(f,u|y)p(f,u∣y),其中q(u)=N(u∣m,S)q(u)=N(u|m,S)q(u)=N(u∣m,S)。
q(u)q(u)q(u) 的這種選擇允許精確推斷邊際q(f∣m,S)=∫p(f∣u)q(u)du=N(f∣μ^,Σ^)q(f|m,S)=\int p(f|u)q(u)du=N(f|\hat μ,\hatΣ)q(f∣m,S)=∫p(f∣u)q(u)du=N(f∣μ^?,Σ^)
其中:
μ^=KxZKZZ?1m(1)\hat μ=K_{xZ}K^{-1}_{ZZ}m \tag{1}μ^?=KxZ?KZZ?1?m(1)
Σ^=Kxx+KxZKZZ?1(KZZ?S)KZZ?1KxZT(1)\hat Σ=K_{xx}+K_{xZ}K^{-1}_{ZZ}(K_{ZZ-S})K^{-1}_{ZZ}K_{xZ}^T\tag{1}Σ^=Kxx?+KxZ?KZZ?1?(KZZ?S?)KZZ?1?KxZT?(1)
需要優(yōu)化變分參數(shù)和 S。 這是通過最小化真實(shí)后驗(yàn)和近似后驗(yàn)的 Kullback-Leibler 散度來完成的,這相當(dāng)于最大化邊緣似然的下界(證據(jù)下界或 ELBO)
log?p(y)≥Eq(f,u)[log?p(y,f,u)?log?q(f,u)]=Eq(f∣m,S)[log?p(y∣f)]?KL[q(u)∣∣p(u)]\log p(y)≥E_{q(f,u)}[\log p(y,f,u)-\log q(f,u)] =E_{q(f|m,S)}[\log p(y|f)]-KL[q(u)||p(u)]logp(y)≥Eq(f,u)?[logp(y,f,u)?logq(f,u)]=Eq(f∣m,S)?[logp(y∣f)]?KL[q(u)∣∣p(u)]
2.2 深層GP
在深度為 LLL 的 DGPDGPDGP 中,每一層都是一個(gè) GPGPGP,它對(duì)函數(shù) flf_lfl? 建模,其中輸入 fl?1f_{l-1}fl?1? 和輸出 flf_lfl? 對(duì)于 l=1,...,L(f0=x)l = 1,...,L (f_0 = x)l=1,...,L(f0?=x)如圖 1 左側(cè)所示。層的感應(yīng)輸入由 Z1,....,ZLZ_1,....,Z_LZ1?,....,ZL? 表示,與之相關(guān)的感應(yīng)輸出 u1=f1(Z1),...,uL=fL(ZL)u_1 = f_1(Z_1),...,u_L = f_L(Z_L)u1?=f1?(Z1?),...,uL?=fL?(ZL?)。
聯(lián)合概率密度函數(shù)可以寫成類似于 GP 模型的情況:
p(y,{fl}l=1L,{ul}l=1L)=p(y∣fL)∏l=1Lp(fl∣ul)(2)p(y,\{f_l\}_{l=1}^L,\{u_l\}_{l=1}^L)=p(y|f_L)\prod _{l=1}^Lp(f_l|u_l)\tag{2}p(y,{fl?}l=1L?,{ul?}l=1L?)=p(y∣fL?)l=1∏L?p(fl?∣ul?)(2)
2.3 推理(暫略)
推理的目標(biāo)是邊緣化誘導(dǎo)輸出{ul}l=1L\{u_l\}_{l=1}^L{ul?}l=1L? 和層輸出 {fl}l=1L\{f_l\}_{l=1}^L{fl?}l=1L?并逼近邊際似然 p(y)p(y)p(y)。 本節(jié)討論有關(guān)推理的先前工作。
雙隨機(jī)變分推理
DSVI 是對(duì) DGP 的變分推理的擴(kuò)展 [Salimbeni 和 Deisenroth,2017],它用獨(dú)立的多元高斯 q(ul)=N(ul∣ml,Sl)q(u_l) = N(u_l|m_l,S_l)q(ul?)=N(ul?∣ml?,Sl?) 逼近誘導(dǎo)輸出 ulu_lul? 的后驗(yàn)。層輸出自然遵循方程式1中的單層模型。
q(fl∣fl?1)=N(fl∣μ^l,Σ^l)q(f_l|f_{l-1})=N(f_l|\hat μ_l,\hat Σ_l)q(fl?∣fl?1?)=N(fl?∣μ^?l?,Σ^l?)
q(fL)=∫∏l=1Lq(fl∣fl?1)dfldfL?1q(f_L)=\int \prod _{l=1}^Lq(f_l|f_{l-1}) df_{l}df_{L-1} q(fL?)=∫l=1∏L?q(fl?∣fl?1?)dfl?dfL?1?
然后通過小批量對(duì)層輸出進(jìn)行采樣來估計(jì)生成的 ELBO 中的第一項(xiàng),以允許擴(kuò)展到大型數(shù)據(jù)集。Likehood=Eq(fL)[logp(y∣fL)]?∏l=1LKL[q(ul)∣∣p(ul)]Likehood=E_{q(f_L)}[log p(y|f_L)]- \prod _{l=1}^LKL[q(u_l)||p(u_l)]Likehood=Eq(fL?)?[logp(y∣fL?)]?∏l=1L?KL[q(ul?)∣∣p(ul?)]
高斯過程的基于采樣的推理
在相關(guān)工作中,Hensman 等人。 [2015] 在單層 GP 中使用混合 MC 采樣。 他們考慮了 GP 超參數(shù)和誘導(dǎo)輸出的聯(lián)合采樣。 由于對(duì) GP 超參數(shù)進(jìn)行采樣的成本很高,因此這項(xiàng)工作不能直接擴(kuò)展到 DGP。 此外,它使用昂貴的方法貝葉斯優(yōu)化來調(diào)整采樣器的參數(shù),這進(jìn)一步限制了其對(duì) DGP 的適用性。
3 深度高斯過程后驗(yàn)分析
在變分推理上采用一種新的推理方法是由 VI 對(duì)后驗(yàn)分布假設(shè)的限制形式所推動(dòng)的。 變分假設(shè)是 p({u}l=lL∣y)p(\{u\}_{l=l}^L |y)p({u}l=lL?∣y) 采用多元高斯的形式,假設(shè)層之間是獨(dú)立的。 雖然在單層模型中,后驗(yàn)的高斯近似被證明是正確的 [Williams and Rasmussen, 1996],但對(duì)于 DGP,情況并非如此。
首先,我們用一個(gè)玩具問題來說明 DGP 中的后驗(yàn)分布可以是多峰的。 之后,我們提供證據(jù)表明我們?cè)谶@項(xiàng)工作中考慮的每個(gè)回歸數(shù)據(jù)集都會(huì)導(dǎo)致非高斯后驗(yàn)分布。
多模態(tài)玩具問題 兩層 DGP(L=2)(L = 2)(L=2)后驗(yàn)多模態(tài)在玩具問題上得到證明(表 1)。 為了演示的目的,我們做了 σ2=0σ^2=0σ2=0 的簡(jiǎn)化假設(shè),因此似然函數(shù)沒有噪聲。 這個(gè)玩具問題有兩個(gè)最大后驗(yàn) (MAP) 解決方案(模式 A 和模式 B)。 該表顯示了 DSVI 在每一層的變分后驗(yàn)。 我們可以看到它隨機(jī)匹配其中一種模式(取決于初始化),而完全忽略了另一種。 另一方面,諸如 SGHMC 之類的采樣方法(在下一節(jié)中實(shí)現(xiàn))探索了這兩種模式,因此提供了更好的后驗(yàn)近似值。
經(jīng)驗(yàn)證據(jù):為了進(jìn)一步支持我們關(guān)于后驗(yàn)多模態(tài)的主張,我們提供經(jīng)驗(yàn)證據(jù)表明,對(duì)于現(xiàn)實(shí)世界的數(shù)據(jù)集,后驗(yàn)不是高斯的。
我們進(jìn)行以下分析。考慮數(shù)據(jù)集下的后驗(yàn)是多元高斯分布的原假設(shè)。這個(gè)零假設(shè)意味著每個(gè)誘導(dǎo)輸出的分布是高斯分布。我們使用下一節(jié)中描述的用于 DGP 的 SGHMC 實(shí)現(xiàn)來檢查 SGHMC 為每個(gè)誘導(dǎo)輸出生成的近似后驗(yàn)樣本。為了得出 p 值,我們對(duì)高斯性應(yīng)用峰度檢驗(yàn) [Cramer, 1998]。該檢驗(yàn)通常用于識(shí)別多峰分布,因?yàn)檫@些分布通常具有顯著更高的峰度(也稱為 4 階矩)。
對(duì)于每個(gè)數(shù)據(jù)集,我們計(jì)算 100 個(gè)隨機(jī)選擇的誘導(dǎo)輸出的 p 值,并將結(jié)果與??概率閾值 α=10?5α= 10^{-5}α=10?5 進(jìn)行比較。應(yīng)用 Bonferroni 校正來解釋大量并發(fā)假設(shè)檢驗(yàn)。結(jié)果顯示在圖 1 的右側(cè)。由于每個(gè)數(shù)據(jù)集的 p 值都低于閾值,因此我們可以 99% 確定所有這些數(shù)據(jù)集都具有非高斯后驗(yàn)。
4 深度高斯過程的基于采樣的推理
與 VI 不同,當(dāng)使用采樣方法時(shí),我們無(wú)法使用近似后驗(yàn)分布 q(u)q(u)q(u) 來生成預(yù)測(cè)。相反,我們必須依賴從后驗(yàn)生成的近似樣本,這些樣本又可用于進(jìn)行預(yù)測(cè) [Dunlop et al., 2017, Hoffman, 2017]。
在實(shí)踐中,運(yùn)行一個(gè)包含兩個(gè)階段的采樣過程。老化階段用于確定模型和采樣器的超參數(shù)。采樣器的超參數(shù)使用啟發(fā)式自動(dòng)調(diào)整方法選擇,而 DGP 的超參數(shù)使用新穎的移動(dòng)窗口 MCEM 算法進(jìn)行優(yōu)化。
在采樣階段,采樣器使用固定的超參數(shù)運(yùn)行。由于連續(xù)樣本高度相關(guān),我們每 50 次迭代保存一個(gè)樣本,并生成 200 個(gè)樣本進(jìn)行預(yù)測(cè)。一旦獲得后驗(yàn)樣本,就可以通過組合每個(gè)樣本的預(yù)測(cè)來進(jìn)行預(yù)測(cè),以獲得混合分布。請(qǐng)注意,使用此采樣器進(jìn)行預(yù)測(cè)并不比在 DSVI 中更昂貴,因?yàn)?DSVI 需要對(duì)層輸出進(jìn)行采樣以進(jìn)行預(yù)測(cè)。
4.1 隨機(jī)梯度哈密頓量蒙特卡羅
SGHMC [Chen et al., 2014] 是一種馬爾可夫鏈蒙特卡羅采樣方法 [Neal, 1993],用于從純粹來自隨機(jī)梯度估計(jì)的誘導(dǎo)輸出 p(u∣y)p(u|y)p(u∣y) 的難以處理的后驗(yàn)分布中生成樣本。
隨著輔助變量 rrr 的引入,采樣過程提供來自聯(lián)合分布 p(u,r∣y)p(u,r|y)p(u,r∣y) 的樣本。 描述 MCMC 過程的方程可能與哈密頓動(dòng)力學(xué)有關(guān) [Brooks et al., 2011, Neal, 1993]。 負(fù)對(duì)數(shù)后驗(yàn) U(u)U(u)U(u) 充當(dāng)勢(shì)能,rrr 充當(dāng)動(dòng)能:
在 HMC 中,運(yùn)動(dòng)的精確描述需要在每個(gè)更新步驟中計(jì)算梯度 ▽U(u)▽U(u)▽U(u),這對(duì)于大型數(shù)據(jù)集是不切實(shí)際的,因?yàn)閷虞敵黾傻降仁?2 中的成本很高。 這個(gè)積分可以用一個(gè)可以通過蒙特卡洛采樣評(píng)估的下限來近似 [Salimbeni and Deisenroth, 2017]:
其中 ,fif^ifi 是來自層輸出預(yù)測(cè)分布的蒙特卡洛樣本:fif^ifi~ p(f∣u)=∏l=1Lp(fl∣ul,fl?1)p(f|u) = \prod_{l=1}^{ L} p(f_l|u_l, f_{l-1})p(f∣u)=∏l=1L?p(fl?∣ul?,fl?1?)。 這導(dǎo)致我們可以用來近似梯度的估計(jì):
由于▽rU(u)=?▽logp(u∣y)=?▽logp(u,y)▽rU(u) = -▽log p(u|y) = -▽log p(u, y)▽rU(u)=?▽logp(u∣y)=?▽logp(u,y),我們可以使用它來近似梯度。 陳等人 [2014]表明,如果使用以下更新方程,使用隨機(jī)梯度估計(jì)(通過對(duì)數(shù)據(jù)進(jìn)行二次采樣獲得)仍然可以進(jìn)行近似后驗(yàn)采樣:
其中C是摩擦項(xiàng),M是質(zhì)量矩陣,B^\hat BB^是Fisher信息矩陣,??? 是步長(zhǎng)。 SGHMC 的一個(gè)警告是它有多個(gè)參數(shù)(C、M、B^、?)(C、M、\hat B、?)(C、M、B^、?),如果沒有模型和數(shù)據(jù)的先驗(yàn)知識(shí),很難設(shè)置這些參數(shù)。 我們使用 Springenberg 等人的自動(dòng)調(diào)整方法。 [2016] 設(shè)置這些參數(shù),這些參數(shù)已被證明適用于貝葉斯神經(jīng)網(wǎng)絡(luò) (BNN)。 DGP 和 BNN 的相似性質(zhì)強(qiáng)烈表明相同的方法適用于 DGP。
4.2 移動(dòng)窗口馬爾可夫鏈期望最大化
優(yōu)化超參數(shù)(協(xié)方差函數(shù)的參數(shù),誘導(dǎo)似然函數(shù)的輸入和參數(shù))證明對(duì)于 MCMC 方法很困難 [Turner and Sahani, 2011]。 簡(jiǎn)單的方法包括隨著采樣器的進(jìn)展而優(yōu)化它們,因?yàn)殡S后的樣本高度相關(guān),因此,超參數(shù)只是適合這種移動(dòng)的后驗(yàn)點(diǎn)估計(jì)。
蒙特卡洛期望最大化 (MCEM) [Wei and Tanner, 1990] 是期望最大化算法的自然擴(kuò)展,它與后驗(yàn)樣本一起使用以獲得超參數(shù)的最大似然估計(jì)。 MCEM 在兩個(gè)步驟之間交替。 來自后驗(yàn)的 E-step 樣本和 M-step 最大化樣本和數(shù)據(jù)的平均對(duì)數(shù)聯(lián)合概率:
然而,MCEM 有一個(gè)明顯的缺點(diǎn):如果 MMM 步中使用的樣本數(shù)量 ¥m$ 太少,那么超參數(shù)可能會(huì)過擬合這些樣本。另一方面,如果 mmm 太高,則 M-step 變得太昂貴而無(wú)法計(jì)算。此外,在 M-step 中,通過梯度上升最大化,這意味著計(jì)算成本隨 mmm 線性增加。
為了解決這個(gè)問題,我們引入了一種新的 MCEMMCEMMCEM 擴(kuò)展,稱為移動(dòng)窗口 MCEM。我們的方法以與先前描述的樸素方法相同的成本優(yōu)化超參數(shù),同時(shí)避免了其過擬合問題。
移動(dòng)窗口 MCEM 背后的想法是將 E 和 M 步驟交織在一起。我們不是生成新樣本然后最大化 Q(θ)Q(\theta )Q(θ) 直到收斂,而是維護(hù)一組樣本并朝著 Q((θ)Q((\theta)Q((θ) 的最大值邁出一小步。在 E-step 中,我們生成一個(gè)新樣本并將其添加到集合中,同時(shí)丟棄最舊的樣本(因此是移動(dòng)窗口)。接下來是 M 步,在該步中,我們從集合中隨機(jī)抽取一個(gè)樣本,并使用它對(duì) Q((θ)Q((\theta)Q((θ) 的最大值進(jìn)行近似梯度步長(zhǎng)。圖 3 左側(cè)的算法 1 顯示了移動(dòng)窗口 MCEM 的偽代碼。
與 MCEM 相比,有兩個(gè)優(yōu)點(diǎn)。首先,超參數(shù)每次更新的成本是恒定的,并且不隨 m 縮放,因?yàn)樗恍枰粋€(gè)樣本。其次,移動(dòng)窗口 MCEM 的收斂速度比 MCEM 快。
圖 3 的中間圖證明了這一點(diǎn)。 MCEM 迭代地?cái)M合一組特定后驗(yàn)樣本的超參數(shù)。由于超參數(shù)和后驗(yàn)樣本高度耦合,這種交替更新方案收斂緩慢 [Neath et al., 2013]。為了緩解這個(gè)問題,移動(dòng)窗口 MCEM 通過在每個(gè)梯度步驟后生成一個(gè)新樣本來不斷更新其樣本群。為了生成圖 3 中心的圖,我們繪制了測(cè)試集上的預(yù)測(cè)對(duì)數(shù)似然與算法迭代次數(shù)的關(guān)系,以展示移動(dòng)窗口 MCEM 優(yōu)于 MCEM 的卓越性能。對(duì)于 MCEM,我們使用了 m = 10 的集合大小(更大的 m 會(huì)減慢方法),我們生成了 500 多個(gè) MCMC 步驟。對(duì)于移動(dòng)窗口 MCEM,我們使用的窗口大小為 m = 300。本實(shí)驗(yàn)中使用的模型是一個(gè) 具有一個(gè)隱藏層的DGP,在 kin8nm 數(shù)據(jù)集上訓(xùn)練。
5 解耦的深度高斯過程
6實(shí)驗(yàn)
我們?cè)?9 個(gè) UCI benchmark 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)2,范圍從小(500 個(gè)數(shù)據(jù)點(diǎn))到大(500,000 個(gè)),以便與基線進(jìn)行公平比較。 在每個(gè)回歸任務(wù)中,我們測(cè)量了平均測(cè)試對(duì)數(shù)似然 (MLL) 并比較了結(jié)果。 圖 4 顯示了 MLL 值及其超過 10 次重復(fù)的標(biāo)準(zhǔn)偏差。
根據(jù) Salimbeni 和 Deisenroth [2017],在所有模型中,我們將學(xué)習(xí)率設(shè)置為默認(rèn) 0.01,小批量大小設(shè)置為 10,000,迭代次數(shù)設(shè)置為 20,000。 一次迭代涉及從窗口中抽取樣本并通過梯度下降更新超參數(shù),如圖 3 左側(cè)的算法 1 所示。深度從 0 個(gè)隱藏層到 4 個(gè)隱藏層不等,每層有 10 個(gè)節(jié)點(diǎn)。 協(xié)方差函數(shù)是標(biāo)準(zhǔn)平方指數(shù)函數(shù),每個(gè)維度具有單獨(dú)的長(zhǎng)度尺度。 我們進(jìn)行了隨機(jī)的 0.8-0.2 訓(xùn)練測(cè)試拆分。 在 year 數(shù)據(jù)集中,我們使用固定的訓(xùn)練測(cè)試拆分來避免“制作人效應(yīng)”,確保給定藝術(shù)家的歌曲不會(huì)同時(shí)出現(xiàn)在訓(xùn)練和測(cè)試集中。
圖 3:(左):移動(dòng)窗口 MCEM 的偽代碼。 (中):移動(dòng)窗口 MCEM 和 MCEM 算法的預(yù)測(cè)性能比較。 垂直線表示 MCEM 算法中的 E 步。 越高越好。 (右):不同推理方法的收斂性比較。 越高越好
基線:我們實(shí)驗(yàn)的主要基線是雙重隨機(jī) DGP。 為了進(jìn)行公平的比較,我們使用了與原始論文中相同的參數(shù)。 就誘導(dǎo)點(diǎn)的數(shù)量而言(誘導(dǎo)輸入總是在潛在維度上共享),我們測(cè)試了兩種變體。 首先,原始的耦合版本,每層 M = 100 個(gè)誘導(dǎo)點(diǎn) (DGP)。 其次,解耦版本 (Dec DGP),平均值為 Ma = 300,方差為 Mb = 50。選擇這些數(shù)字是為了使單次迭代的運(yùn)行時(shí)間與耦合版本相同。 進(jìn)一步的基線由耦合(SGP:M = 100)和解耦(Dec SGP:Ma = 300,Mb = 50)單層 GP 提供。 最終基線是具有三個(gè)隱藏層和每層 50 個(gè)節(jié)點(diǎn)的穩(wěn)健貝葉斯神經(jīng)網(wǎng)絡(luò) (BNN) [Springenberg 等人,2016 年]。
SGHMC DGP(這項(xiàng)工作):該模型的架構(gòu)與基線模型相同。 M = 100 個(gè)誘導(dǎo)輸入用于與基線保持一致。 老化階段包括 20,000 次迭代,隨后是采樣階段,在此期間,在 10,000 次迭代過程中抽取了 200 個(gè)樣本。
MNIST 分類 : SGHMC 在分類問題上也很有效。 使用 Robust-Max [Hern′andez-Lobato et al., 2011] 似然函數(shù),我們將模型應(yīng)用于 MNIST 數(shù)據(jù)集。 SGP 和 Dec SGP 模型分別達(dá)到了 96.8 % 和 97.7 % 的準(zhǔn)確率。 關(guān)于深度模型,表現(xiàn)最好的模型是 12 月 DGP 3,達(dá)到 98.1%,其次是 SGHMC DGP 3,達(dá)到 98.0%,DGP 3 達(dá)到 97.8%。 [Salimbeni and Deisenroth, 2017] 報(bào)告 DGP 3 的值略高,為 98.11%。這種差異可歸因于參數(shù)的不同初始化。
哈佛清潔能源項(xiàng)目: 該回歸數(shù)據(jù)集是為哈佛清潔能源項(xiàng)目制作的 [Hachmann et al., 2011]。 它測(cè)量有機(jī)光伏分子的效率。 它是一個(gè)高維數(shù)據(jù)集(60,000 個(gè)數(shù)據(jù)點(diǎn)和 512 個(gè)二進(jìn)制特征),已知可以從深度模型中受益。 SGHMC DGP 5 建立了新的最先進(jìn)的預(yù)測(cè)性能,測(cè)試 MLL 為 -0.83。 DGP 2-5 達(dá)到 -1:25。 該數(shù)據(jù)集上的其他可用結(jié)果是具有期望傳播的 DGPs的-0.99 和 BNN 的 -1.37 [Bui et al., 2016]。
運(yùn)行時(shí)間: 為了支持我們的說法,即 SGHMC 的計(jì)算成本低于 DSVI,我們?cè)诘鞍踪|(zhì)數(shù)據(jù)集的訓(xùn)練過程中繪制了不同階段的測(cè)試 MLL(圖 3 中的右圖)。 與 DSVI 相比,SGHMC 收斂速度更快且限制更高。 SGHMC 以 1:6 倍的速度達(dá)到了 20,000 次迭代的目標(biāo)。
7 結(jié)論
本文描述并展示了一種新的 DGP 推理方法 SGHMC,該方法從通常的誘導(dǎo)點(diǎn)框架中的后驗(yàn)分布中采樣。 我們描述了一種新穎的移動(dòng)窗口 MCEM 算法,該算法能夠以快速有效的方式優(yōu)化超參數(shù)。 這以降低的計(jì)算成本顯著提高了中大型數(shù)據(jù)集的性能,從而為 DGP 中的推理建立了新的最新技術(shù)。
總結(jié)
以上是生活随笔為你收集整理的论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Zeta电位测定仪操作规程
- 下一篇: 家用电器辐射测试结果 哪些家用电器辐射大