當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程

發(fā)布時(shí)間：2023/12/31 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

使用隨機(jī)梯度哈密頓量蒙特卡羅推理深度高斯過程

0.摘要

深度高斯過程 (DGP) 是高斯過程的層次概括，它將經(jīng)過良好校準(zhǔn)的不確定性估計(jì)與多層模型的高度靈活性相結(jié)合。這些模型的最大挑戰(zhàn)之一是精確推斷是難以處理的。當(dāng)前最先進(jìn)的推理方法變分推理 (VI) 對(duì)后驗(yàn)分布采用高斯近似。這可能是一般多峰后驗(yàn)的潛在較差的單峰近似。在這項(xiàng)工作中，我們?yōu)楹篁?yàn)的非高斯性質(zhì)提供了證據(jù)，并且我們應(yīng)用隨機(jī)梯度哈密頓蒙特卡羅方法來生成樣本。為了有效地優(yōu)化超參數(shù)，我們引入了移動(dòng)窗口 MCEM 算法。與 VI 對(duì)應(yīng)物相比，這會(huì)以更低的計(jì)算成本產(chǎn)生明顯更好的預(yù)測(cè)。因此，我們的方法為 DGP 中的推理建立了新的最新技術(shù)。

1.介紹

深度高斯過程 (DGP) [Damianou and Lawrence, 2013] 是高度靈活的多層預(yù)測(cè)模型，可以準(zhǔn)確地模擬不確定性。特別是，它們已被證明在從小型（500 個(gè)數(shù)據(jù)點(diǎn)）到大型數(shù)據(jù)集（500,000 個(gè)數(shù)據(jù)點(diǎn)）的眾多監(jiān)督回歸任務(wù)中表現(xiàn)良好 [Salimbeni 和 Deisenroth，2017，Bui 等，2016，Cutajar 等 ., 2016]。與神經(jīng)網(wǎng)絡(luò)相比，它們的主要優(yōu)勢(shì)在于它們能夠捕捉預(yù)測(cè)中的不確定性。 這使它們成為預(yù)測(cè)不確定性起關(guān)鍵作用的任務(wù)的理想候選者，例如黑盒貝葉斯優(yōu)化問題和各種安全關(guān)鍵應(yīng)用，如自動(dòng)駕駛汽車和醫(yī)療診斷。

深度高斯過程為高斯過程 (GP) [Williams and Rasmussen, 1996] 引入了多層層次結(jié)構(gòu)。 GP 是一種非參數(shù)模型，它假設(shè)任何有限輸入集的聯(lián)合高斯分布。任何一對(duì)輸入的協(xié)方差由協(xié)方差函數(shù)確定。由于非參數(shù)和可分析計(jì)算，GPs 可能是一個(gè)穩(wěn)健的選擇，但是，一個(gè)問題是選擇協(xié)方差函數(shù)通常需要手動(dòng)調(diào)整和數(shù)據(jù)集的專家知識(shí)，如果沒有手頭問題的先驗(yàn)知識(shí)，這是不可能的。在多層層次結(jié)構(gòu)中，隱藏層通過拉伸和扭曲輸入空間來克服這一限制，從而產(chǎn)生貝葉斯“自調(diào)整”協(xié)方差函數(shù)，無(wú)需任何人工輸入即可擬合數(shù)據(jù) [Damianou, 2015]。

GP 的深度層次化泛化是以完全連接的前饋方式完成的。前一層的輸出用作下一層的輸入。然而，與神經(jīng)網(wǎng)絡(luò)的一個(gè)顯著區(qū)別是層輸出是概率而不是精確值，因此不確定性通過網(wǎng)絡(luò)傳播。圖 1 的左側(cè)部分說明了具有單個(gè)隱藏層的概念。隱藏層的輸入是輸入數(shù)據(jù) x，隱藏層 f1 的輸出作為輸出層的輸入數(shù)據(jù)，輸出層本身是由 GPs 形成的。

圖 1：（左）：深度高斯過程插圖 1。（中）：隨機(jī)選擇誘導(dǎo)輸出的直方圖。最佳擬合高斯分布用虛線表示。其中一些表現(xiàn)出明顯的多模式行為。（右）：每個(gè)數(shù)據(jù)集 100 個(gè)隨機(jī)選擇的誘導(dǎo)輸出的 P 值。零假設(shè)是它們的分布是高斯分布。

由于使用逆協(xié)方差矩陣的計(jì)算成本很高，因此在大型數(shù)據(jù)集的 GP 中進(jìn)行精確推斷是不可行的。相反，使用一小組偽數(shù)據(jù)點(diǎn) (100) 來近似后驗(yàn)，也稱為誘導(dǎo)點(diǎn) [Snelson and Ghahramani, 2006, Titsias, 2009, Quinonero-Candela and Rasmussen, 2005]。我們?cè)谡撐闹卸技僭O(shè)這個(gè)誘導(dǎo)點(diǎn)框架。使用誘導(dǎo)點(diǎn)進(jìn)行預(yù)測(cè)以避免計(jì)算整個(gè)數(shù)據(jù)集的協(xié)方差矩陣。在 GP 和 DGP 中，誘導(dǎo)輸出都被視為需要邊緣化的潛在變量。

DGP 中當(dāng)前最先進(jìn)的推理方法是雙重隨機(jī)變化推理 (DSVI) [Salimbeni 和 Deisenroth，2017]，它已被證明優(yōu)于期望傳播 [Minka，2001，Bui 等人，2016]，并且它也比采用概率反向傳播的貝葉斯神經(jīng)網(wǎng)絡(luò) [Hern′andez-Lobato 和 Adams, 2015] 和采用早期推理方法的貝葉斯神經(jīng)網(wǎng)絡(luò)（如變異推理 [Graves, 2011]、隨機(jī)梯度朗之萬(wàn)動(dòng)力學(xué) [Welling and Teh, 2011）和混合蒙特卡洛 [Neal, 1993]具有更好的性能。然而，DSVI 的一個(gè)缺點(diǎn)是它用高斯近似后驗(yàn)分布。我們非常自信地表明，對(duì)于我們?cè)谶@項(xiàng)工作中檢查的每個(gè)數(shù)據(jù)集，后驗(yàn)分布都是非高斯分布的。這一發(fā)現(xiàn)促使使用具有更靈活后驗(yàn)近似的推理方法

在這項(xiàng)工作中，我們應(yīng)用了一種新的 DGP 推理方法，即隨機(jī)梯度哈密頓蒙特卡羅 (SGHMC)，這是一種準(zhǔn)確有效地捕獲后驗(yàn)分布的采樣方法。為了將基于采樣的推理方法應(yīng)用于 DGP，我們必須解決優(yōu)化大量超參數(shù)的問題。為了解決這個(gè)問題，我們提出了移動(dòng)窗口蒙特卡羅期望最大化，這是一種獲得超參數(shù)的最大似然 (ML) 估計(jì)的新方法。該方法快速、高效且普遍適用于任何概率模型和 MCMC 采樣器。

人們可能期望像 SGHMC 這樣的采樣方法比 DSVI 這樣的變分方法在計(jì)算上更加密集。然而，在 DGP 中，從后驗(yàn)采樣成本很低，因?yàn)樗恍枰匦掠?jì)算逆協(xié)方差矩陣，這僅取決于超參數(shù)。此外，計(jì)算分層方差在 VI 設(shè)置中的成本更高。

最后，我們對(duì)各種監(jiān)督回歸和分類任務(wù)進(jìn)行了實(shí)驗(yàn)。我們憑經(jīng)驗(yàn)表明，我們的工作以較低的計(jì)算成本顯著改善了對(duì)中大型數(shù)據(jù)集的預(yù)測(cè)。

我們的貢獻(xiàn)可以概括為三點(diǎn)。

證明后驗(yàn)的非高斯性。我們提供的證據(jù)表明，我們?cè)谶@項(xiàng)工作中檢查的每個(gè)回歸數(shù)據(jù)集都有一個(gè)非高斯后驗(yàn)。

我們使用 SGHMC 直接從 DGP 的后驗(yàn)分布中采樣。實(shí)驗(yàn)表明，這種新的推理方法優(yōu)于以前的工作。

我們介紹了移動(dòng)窗口 MCEM，這是一種在使用 MCMC 采樣器進(jìn)行推理時(shí)有效優(yōu)化超參數(shù)的新算法。

2.背景及相關(guān)工作

本節(jié)提供回歸的高斯過程和深度高斯過程的背景，并建立本文中使用的符號(hào)。

2.1 單層GP

高斯過程由后驗(yàn)分布 $f:R^D→R$ 定義
輸入 $x=\{x_1,...,x_N\}$
輸出 $y=\{y_1,...,y_N\}$
在高斯過程模型下，假定 $f = f (x)$ 是聯(lián)合高斯且協(xié)方差函數(shù)為 $k:R^D × R^D → R$ ，其中, $f(x)= \{f(x_1),...,f(x_N)\}$ 。
$y$ 條件分布由似然函數(shù) $p (y ∣ f)$ 求得，常用： $p(y|f)=N(y|f,Iσ^2)$

精確推理的計(jì)算成本是 $O(N^3)$ ，這使得它對(duì)于大型數(shù)據(jù)集在計(jì)算上是不可行的。一種常見的方法是使用一組偽數(shù)據(jù)點(diǎn) $Z = \{z_1,..., z_M\}, u = f(Z)$ [Snelson and Ghahramani, 2006, Titsias, 2009] 并將聯(lián)合概率密度函數(shù)寫為
$p (y, f, u) = p (y ∣ f) p (f ∣ u) p (u)$

給定誘導(dǎo)輸出 $u$ 的 $f$ 的分布可以表示為 $p (f ∣ u) = N (μ; Σ)$ ，其中
$μ=KxZKZZ?1uμ=K_{xZ}K^{-1}_{ZZ}u$
$Σ=Kxx+KxZKZZ?1KxZTΣ=K_{xx}+K_{xZ}K^{-1}_{ZZ}K_{xZ}^T$
為了獲得 $f$ 的后驗(yàn)， $u$ 必須被邊緣化，產(chǎn)生方程
$p(f∣y)=∫p(f∣u)p(u∣y)dup(f|y)=\int p(f|u)p(u|y)du$
請(qǐng)注意，在給定 $u$ 的情況下， $f$ 有條件地獨(dú)立于 $y$ 。

對(duì)于單層GPs,VI能夠用于邊際，VI使用變分后驗(yàn) $q (f, u) = p (f ∣ u) q (u)$ 去近似聯(lián)合后驗(yàn)分布 $p (f, u ∣ y)$ ，其中 $q (u) = N (u ∣ m, S)$ 。

$q (u)$ 的這種選擇允許精確推斷邊際 $q(f∣m,S)=∫p(f∣u)q(u)du=N(f∣μ^,Σ^)q(f|m,S)=\int p(f|u)q(u)du=N(f|\hat μ,\hatΣ)$

其中：
$μ^=KxZKZZ?1m(1)\hat μ=K_{xZ}K^{-1}_{ZZ}m \tag{1}$
$Σ^=Kxx+KxZKZZ?1(KZZ?S)KZZ?1KxZT(1)\hat Σ=K_{xx}+K_{xZ}K^{-1}_{ZZ}(K_{ZZ-S})K^{-1}_{ZZ}K_{xZ}^T\tag{1}$

需要優(yōu)化變分參數(shù)和 S。這是通過最小化真實(shí)后驗(yàn)和近似后驗(yàn)的 Kullback-Leibler 散度來完成的，這相當(dāng)于最大化邊緣似然的下界（證據(jù)下界或 ELBO）

$log p(y)≥E_{q(f,u)}[\log p(y,f,u)-\log q(f,u)] =E_{q(f|m,S)}[\log p(y|f)]-KL[q(u)||p(u)]$

2.2 深層GP

在深度為 $L$ 的 $D G P$ 中，每一層都是一個(gè) $G P$ ，它對(duì)函數(shù) $f_l$ 建模，其中輸入 $f_{l-1}$ 和輸出 $f_l$ 對(duì)于 $l = 1,...,L (f_0 = x)$ 如圖 1 左側(cè)所示。層的感應(yīng)輸入由 $Z_1,....,Z_L$ 表示，與之相關(guān)的感應(yīng)輸出 $u_1 = f_1(Z_1),...,u_L = f_L(Z_L)$ 。

聯(lián)合概率密度函數(shù)可以寫成類似于 GP 模型的情況：
$p(y,{fl}l=1L,{ul}l=1L)=p(y∣fL)∏l=1Lp(fl∣ul)(2)p(y,\{f_l\}_{l=1}^L,\{u_l\}_{l=1}^L)=p(y|f_L)\prod _{l=1}^Lp(f_l|u_l)\tag{2}$

2.3 推理（暫略）

推理的目標(biāo)是邊緣化誘導(dǎo)輸出 ${u_l\}_{l=1}^L$ 和層輸出 ${f_l\}_{l=1}^L$ 并逼近邊際似然 $p (y)$ 。本節(jié)討論有關(guān)推理的先前工作。

雙隨機(jī)變分推理
DSVI 是對(duì) DGP 的變分推理的擴(kuò)展 [Salimbeni 和 Deisenroth，2017]，它用獨(dú)立的多元高斯 $q(u_l) = N(u_l|m_l,S_l)$ 逼近誘導(dǎo)輸出 $u_l$ 的后驗(yàn)。層輸出自然遵循方程式1中的單層模型。
$q(fl∣fl?1)=N(fl∣μ^l,Σ^l)q(f_l|f_{l-1})=N(f_l|\hat μ_l,\hat Σ_l)$
$q(fL)=∫∏l=1Lq(fl∣fl?1)dfldfL?1q(f_L)=\int \prod _{l=1}^Lq(f_l|f_{l-1}) df_{l}df_{L-1}$

然后通過小批量對(duì)層輸出進(jìn)行采樣來估計(jì)生成的 ELBO 中的第一項(xiàng)，以允許擴(kuò)展到大型數(shù)據(jù)集。 $Likehood=Eq(fL)[logp(y∣fL)]?∏l=1LKL[q(ul)∣∣p(ul)]Likehood=E_{q(f_L)}[log p(y|f_L)]- \prod _{l=1}^LKL[q(u_l)||p(u_l)]$

高斯過程的基于采樣的推理
在相關(guān)工作中，Hensman 等人。 [2015] 在單層 GP 中使用混合 MC 采樣。他們考慮了 GP 超參數(shù)和誘導(dǎo)輸出的聯(lián)合采樣。由于對(duì) GP 超參數(shù)進(jìn)行采樣的成本很高，因此這項(xiàng)工作不能直接擴(kuò)展到 DGP。此外，它使用昂貴的方法貝葉斯優(yōu)化來調(diào)整采樣器的參數(shù)，這進(jìn)一步限制了其對(duì) DGP 的適用性。

3 深度高斯過程后驗(yàn)分析

在變分推理上采用一種新的推理方法是由 VI 對(duì)后驗(yàn)分布假設(shè)的限制形式所推動(dòng)的。變分假設(shè)是 $p(\{u\}_{l=l}^L |y)$ 采用多元高斯的形式，假設(shè)層之間是獨(dú)立的。雖然在單層模型中，后驗(yàn)的高斯近似被證明是正確的 [Williams and Rasmussen, 1996]，但對(duì)于 DGP，情況并非如此。

首先，我們用一個(gè)玩具問題來說明 DGP 中的后驗(yàn)分布可以是多峰的。之后，我們提供證據(jù)表明我們?cè)谶@項(xiàng)工作中考慮的每個(gè)回歸數(shù)據(jù)集都會(huì)導(dǎo)致非高斯后驗(yàn)分布。

多模態(tài)玩具問題 兩層 DGP $（ L = 2 ）$ 后驗(yàn)多模態(tài)在玩具問題上得到證明（表 1）。為了演示的目的，我們做了 $σ^2=0$ 的簡(jiǎn)化假設(shè)，因此似然函數(shù)沒有噪聲。這個(gè)玩具問題有兩個(gè)最大后驗(yàn) (MAP) 解決方案（模式 A 和模式 B）。該表顯示了 DSVI 在每一層的變分后驗(yàn)。我們可以看到它隨機(jī)匹配其中一種模式（取決于初始化），而完全忽略了另一種。另一方面，諸如 SGHMC 之類的采樣方法（在下一節(jié)中實(shí)現(xiàn)）探索了這兩種模式，因此提供了更好的后驗(yàn)近似值。

經(jīng)驗(yàn)證據(jù)：為了進(jìn)一步支持我們關(guān)于后驗(yàn)多模態(tài)的主張，我們提供經(jīng)驗(yàn)證據(jù)表明，對(duì)于現(xiàn)實(shí)世界的數(shù)據(jù)集，后驗(yàn)不是高斯的。

我們進(jìn)行以下分析。考慮數(shù)據(jù)集下的后驗(yàn)是多元高斯分布的原假設(shè)。這個(gè)零假設(shè)意味著每個(gè)誘導(dǎo)輸出的分布是高斯分布。我們使用下一節(jié)中描述的用于 DGP 的 SGHMC 實(shí)現(xiàn)來檢查 SGHMC 為每個(gè)誘導(dǎo)輸出生成的近似后驗(yàn)樣本。為了得出 p 值，我們對(duì)高斯性應(yīng)用峰度檢驗(yàn) [Cramer, 1998]。該檢驗(yàn)通常用于識(shí)別多峰分布，因?yàn)檫@些分布通常具有顯著更高的峰度（也稱為 4 階矩）。

對(duì)于每個(gè)數(shù)據(jù)集，我們計(jì)算 100 個(gè)隨機(jī)選擇的誘導(dǎo)輸出的 p 值，并將結(jié)果與??概率閾值 $α= 10^{-5}$ 進(jìn)行比較。應(yīng)用 Bonferroni 校正來解釋大量并發(fā)假設(shè)檢驗(yàn)。結(jié)果顯示在圖 1 的右側(cè)。由于每個(gè)數(shù)據(jù)集的 p 值都低于閾值，因此我們可以 99% 確定所有這些數(shù)據(jù)集都具有非高斯后驗(yàn)。

4 深度高斯過程的基于采樣的推理

與 VI 不同，當(dāng)使用采樣方法時(shí)，我們無(wú)法使用近似后驗(yàn)分布 $q (u)$ 來生成預(yù)測(cè)。相反，我們必須依賴從后驗(yàn)生成的近似樣本，這些樣本又可用于進(jìn)行預(yù)測(cè) [Dunlop et al., 2017, Hoffman, 2017]。

在實(shí)踐中，運(yùn)行一個(gè)包含兩個(gè)階段的采樣過程。老化階段用于確定模型和采樣器的超參數(shù)。采樣器的超參數(shù)使用啟發(fā)式自動(dòng)調(diào)整方法選擇，而 DGP 的超參數(shù)使用新穎的移動(dòng)窗口 MCEM 算法進(jìn)行優(yōu)化。

在采樣階段，采樣器使用固定的超參數(shù)運(yùn)行。由于連續(xù)樣本高度相關(guān)，我們每 50 次迭代保存一個(gè)樣本，并生成 200 個(gè)樣本進(jìn)行預(yù)測(cè)。一旦獲得后驗(yàn)樣本，就可以通過組合每個(gè)樣本的預(yù)測(cè)來進(jìn)行預(yù)測(cè)，以獲得混合分布。請(qǐng)注意，使用此采樣器進(jìn)行預(yù)測(cè)并不比在 DSVI 中更昂貴，因?yàn)?DSVI 需要對(duì)層輸出進(jìn)行采樣以進(jìn)行預(yù)測(cè)。

4.1 隨機(jī)梯度哈密頓量蒙特卡羅

SGHMC [Chen et al., 2014] 是一種馬爾可夫鏈蒙特卡羅采樣方法 [Neal, 1993]，用于從純粹來自隨機(jī)梯度估計(jì)的誘導(dǎo)輸出 $p (u ∣ y)$ 的難以處理的后驗(yàn)分布中生成樣本。

隨著輔助變量 $r$ 的引入，采樣過程提供來自聯(lián)合分布 $p (u, r ∣ y)$ 的樣本。描述 MCMC 過程的方程可能與哈密頓動(dòng)力學(xué)有關(guān) [Brooks et al., 2011, Neal, 1993]。負(fù)對(duì)數(shù)后驗(yàn) $U (u)$ 充當(dāng)勢(shì)能， $r$ 充當(dāng)動(dòng)能：

在 HMC 中，運(yùn)動(dòng)的精確描述需要在每個(gè)更新步驟中計(jì)算梯度 $▽ U (u)$ ，這對(duì)于大型數(shù)據(jù)集是不切實(shí)際的，因?yàn)閷虞敵黾傻降仁?2 中的成本很高。這個(gè)積分可以用一個(gè)可以通過蒙特卡洛采樣評(píng)估的下限來近似 [Salimbeni and Deisenroth, 2017]：

其中， $f^i$ 是來自層輸出預(yù)測(cè)分布的蒙特卡洛樣本： $f^i$ ~ $\prod_{l=1}^{ L} p(f_l|u_l, f_{l-1})$ 。這導(dǎo)致我們可以用來近似梯度的估計(jì):

由于 $▽ r U (u) = ? ▽ l o g p (u ∣ y) = ? ▽ l o g p (u, y)$ ，我們可以使用它來近似梯度。陳等人 [2014]表明，如果使用以下更新方程，使用隨機(jī)梯度估計(jì)（通過對(duì)數(shù)據(jù)進(jìn)行二次采樣獲得）仍然可以進(jìn)行近似后驗(yàn)采樣：

其中C是摩擦項(xiàng)，M是質(zhì)量矩陣， $B^\hat B$ 是Fisher信息矩陣， $?$ 是步長(zhǎng)。 SGHMC 的一個(gè)警告是它有多個(gè)參數(shù) $（C、M、B^、?）（C、M、\hat B、?）$ ，如果沒有模型和數(shù)據(jù)的先驗(yàn)知識(shí)，很難設(shè)置這些參數(shù)。我們使用 Springenberg 等人的自動(dòng)調(diào)整方法。 [2016] 設(shè)置這些參數(shù)，這些參數(shù)已被證明適用于貝葉斯神經(jīng)網(wǎng)絡(luò) (BNN)。 DGP 和 BNN 的相似性質(zhì)強(qiáng)烈表明相同的方法適用于 DGP。

4.2 移動(dòng)窗口馬爾可夫鏈期望最大化

優(yōu)化超參數(shù)（協(xié)方差函數(shù)的參數(shù)，誘導(dǎo)似然函數(shù)的輸入和參數(shù)）證明對(duì)于 MCMC 方法很困難 [Turner and Sahani, 2011]。簡(jiǎn)單的方法包括隨著采樣器的進(jìn)展而優(yōu)化它們，因?yàn)殡S后的樣本高度相關(guān)，因此，超參數(shù)只是適合這種移動(dòng)的后驗(yàn)點(diǎn)估計(jì)。

蒙特卡洛期望最大化 (MCEM) [Wei and Tanner, 1990] 是期望最大化算法的自然擴(kuò)展，它與后驗(yàn)樣本一起使用以獲得超參數(shù)的最大似然估計(jì)。 MCEM 在兩個(gè)步驟之間交替。來自后驗(yàn)的 E-step 樣本和 M-step 最大化樣本和數(shù)據(jù)的平均對(duì)數(shù)聯(lián)合概率：

然而，MCEM 有一個(gè)明顯的缺點(diǎn)：如果 $M$ 步中使用的樣本數(shù)量￥m$ 太少，那么超參數(shù)可能會(huì)過擬合這些樣本。另一方面，如果 $m$ 太高，則 M-step 變得太昂貴而無(wú)法計(jì)算。此外，在 M-step 中，通過梯度上升最大化，這意味著計(jì)算成本隨 $m$ 線性增加。

為了解決這個(gè)問題，我們引入了一種新的 $M C E M$ 擴(kuò)展，稱為移動(dòng)窗口 MCEM。我們的方法以與先前描述的樸素方法相同的成本優(yōu)化超參數(shù)，同時(shí)避免了其過擬合問題。

移動(dòng)窗口 MCEM 背后的想法是將 E 和 M 步驟交織在一起。我們不是生成新樣本然后最大化 $Q(θ)Q(\theta )$ 直到收斂，而是維護(hù)一組樣本并朝著 $Q((θ)Q((\theta)$ 的最大值邁出一小步。在 E-step 中，我們生成一個(gè)新樣本并將其添加到集合中，同時(shí)丟棄最舊的樣本（因此是移動(dòng)窗口）。接下來是 M 步，在該步中，我們從集合中隨機(jī)抽取一個(gè)樣本，并使用它對(duì) $Q((θ)Q((\theta)$ 的最大值進(jìn)行近似梯度步長(zhǎng)。圖 3 左側(cè)的算法 1 顯示了移動(dòng)窗口 MCEM 的偽代碼。

與 MCEM 相比，有兩個(gè)優(yōu)點(diǎn)。首先，超參數(shù)每次更新的成本是恒定的，并且不隨 m 縮放，因?yàn)樗恍枰粋€(gè)樣本。其次，移動(dòng)窗口 MCEM 的收斂速度比 MCEM 快。
圖 3 的中間圖證明了這一點(diǎn)。 MCEM 迭代地?cái)M合一組特定后驗(yàn)樣本的超參數(shù)。由于超參數(shù)和后驗(yàn)樣本高度耦合，這種交替更新方案收斂緩慢 [Neath et al., 2013]。為了緩解這個(gè)問題，移動(dòng)窗口 MCEM 通過在每個(gè)梯度步驟后生成一個(gè)新樣本來不斷更新其樣本群。為了生成圖 3 中心的圖，我們繪制了測(cè)試集上的預(yù)測(cè)對(duì)數(shù)似然與算法迭代次數(shù)的關(guān)系，以展示移動(dòng)窗口 MCEM 優(yōu)于 MCEM 的卓越性能。對(duì)于 MCEM，我們使用了 m = 10 的集合大小（更大的 m 會(huì)減慢方法），我們生成了 500 多個(gè) MCMC 步驟。對(duì)于移動(dòng)窗口 MCEM，我們使用的窗口大小為 m = 300。本實(shí)驗(yàn)中使用的模型是一個(gè) 具有一個(gè)隱藏層的DGP，在 kin8nm 數(shù)據(jù)集上訓(xùn)練。

5 解耦的深度高斯過程

6實(shí)驗(yàn)

我們?cè)?9 個(gè) UCI benchmark 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)2，范圍從小（500 個(gè)數(shù)據(jù)點(diǎn)）到大（500,000 個(gè)），以便與基線進(jìn)行公平比較。在每個(gè)回歸任務(wù)中，我們測(cè)量了平均測(cè)試對(duì)數(shù)似然 (MLL) 并比較了結(jié)果。圖 4 顯示了 MLL 值及其超過 10 次重復(fù)的標(biāo)準(zhǔn)偏差。

根據(jù) Salimbeni 和 Deisenroth [2017]，在所有模型中，我們將學(xué)習(xí)率設(shè)置為默認(rèn) 0.01，小批量大小設(shè)置為 10,000，迭代次數(shù)設(shè)置為 20,000。一次迭代涉及從窗口中抽取樣本并通過梯度下降更新超參數(shù)，如圖 3 左側(cè)的算法 1 所示。深度從 0 個(gè)隱藏層到 4 個(gè)隱藏層不等，每層有 10 個(gè)節(jié)點(diǎn)。協(xié)方差函數(shù)是標(biāo)準(zhǔn)平方指數(shù)函數(shù)，每個(gè)維度具有單獨(dú)的長(zhǎng)度尺度。我們進(jìn)行了隨機(jī)的 0.8-0.2 訓(xùn)練測(cè)試拆分。在 year 數(shù)據(jù)集中，我們使用固定的訓(xùn)練測(cè)試拆分來避免“制作人效應(yīng)”，確保給定藝術(shù)家的歌曲不會(huì)同時(shí)出現(xiàn)在訓(xùn)練和測(cè)試集中。

圖 3：（左）：移動(dòng)窗口 MCEM 的偽代碼。（中）：移動(dòng)窗口 MCEM 和 MCEM 算法的預(yù)測(cè)性能比較。垂直線表示 MCEM 算法中的 E 步。越高越好。（右）：不同推理方法的收斂性比較。越高越好

基線：我們實(shí)驗(yàn)的主要基線是雙重隨機(jī) DGP。為了進(jìn)行公平的比較，我們使用了與原始論文中相同的參數(shù)。就誘導(dǎo)點(diǎn)的數(shù)量而言（誘導(dǎo)輸入總是在潛在維度上共享），我們測(cè)試了兩種變體。首先，原始的耦合版本，每層 M = 100 個(gè)誘導(dǎo)點(diǎn) (DGP)。其次，解耦版本 (Dec DGP)，平均值為 Ma = 300，方差為 Mb = 50。選擇這些數(shù)字是為了使單次迭代的運(yùn)行時(shí)間與耦合版本相同。進(jìn)一步的基線由耦合（SGP：M = 100）和解耦（Dec SGP：Ma = 300，Mb = 50）單層 GP 提供。最終基線是具有三個(gè)隱藏層和每層 50 個(gè)節(jié)點(diǎn)的穩(wěn)健貝葉斯神經(jīng)網(wǎng)絡(luò) (BNN) [Springenberg 等人，2016 年]。

SGHMC DGP（這項(xiàng)工作）：該模型的架構(gòu)與基線模型相同。 M = 100 個(gè)誘導(dǎo)輸入用于與基線保持一致。老化階段包括 20,000 次迭代，隨后是采樣階段，在此期間，在 10,000 次迭代過程中抽取了 200 個(gè)樣本。

MNIST 分類 ： SGHMC 在分類問題上也很有效。使用 Robust-Max [Hern′andez-Lobato et al., 2011] 似然函數(shù)，我們將模型應(yīng)用于 MNIST 數(shù)據(jù)集。 SGP 和 Dec SGP 模型分別達(dá)到了 96.8 % 和 97.7 % 的準(zhǔn)確率。關(guān)于深度模型，表現(xiàn)最好的模型是 12 月 DGP 3，達(dá)到 98.1%，其次是 SGHMC DGP 3，達(dá)到 98.0%，DGP 3 達(dá)到 97.8%。 [Salimbeni and Deisenroth, 2017] 報(bào)告 DGP 3 的值略高，為 98.11%。這種差異可歸因于參數(shù)的不同初始化。

哈佛清潔能源項(xiàng)目：該回歸數(shù)據(jù)集是為哈佛清潔能源項(xiàng)目制作的 [Hachmann et al., 2011]。它測(cè)量有機(jī)光伏分子的效率。它是一個(gè)高維數(shù)據(jù)集（60,000 個(gè)數(shù)據(jù)點(diǎn)和 512 個(gè)二進(jìn)制特征），已知可以從深度模型中受益。 SGHMC DGP 5 建立了新的最先進(jìn)的預(yù)測(cè)性能，測(cè)試 MLL 為 -0.83。 DGP 2-5 達(dá)到 -1:25。該數(shù)據(jù)集上的其他可用結(jié)果是具有期望傳播的 DGPs的-0.99 和 BNN 的 -1.37 [Bui et al., 2016]。

運(yùn)行時(shí)間：為了支持我們的說法，即 SGHMC 的計(jì)算成本低于 DSVI，我們?cè)诘鞍踪|(zhì)數(shù)據(jù)集的訓(xùn)練過程中繪制了不同階段的測(cè)試 MLL（圖 3 中的右圖）。與 DSVI 相比，SGHMC 收斂速度更快且限制更高。 SGHMC 以 1:6 倍的速度達(dá)到了 20,000 次迭代的目標(biāo)。

7 結(jié)論

本文描述并展示了一種新的 DGP 推理方法 SGHMC，該方法從通常的誘導(dǎo)點(diǎn)框架中的后驗(yàn)分布中采樣。我們描述了一種新穎的移動(dòng)窗口 MCEM 算法，該算法能夠以快速有效的方式優(yōu)化超參數(shù)。這以降低的計(jì)算成本顯著提高了中大型數(shù)據(jù)集的性能，從而為 DGP 中的推理建立了新的最新技術(shù)。

總結(jié)

以上是生活随笔為你收集整理的论文笔记 Inference in Deep Gaussian Processes using Stochastic Gradient Hamiltonia使用随机梯度哈密顿量蒙特卡罗推理深度高斯过程的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Zeta电位测定仪操作规程
下一篇：家用电器辐射测试结果哪些家用电器辐射大