深入解读f-散度和f-GAN训练的相关数学性质
?PaperWeekly 原創(chuàng) ·?作者?|?孫裕道
學(xué)校?|?北京郵電大學(xué)博士生
研究方向?|?GAN圖像生成、情緒對(duì)抗樣本生成
引言
在深度學(xué)習(xí)中,衡量?jī)蓚€(gè)概率密度分布的數(shù)學(xué)工具就是 散度,不管是訓(xùn)練分類(lèi)器模型還是訓(xùn)練 都看見(jiàn)到它,所以說(shuō)了解 散度的相關(guān)的數(shù)學(xué)性質(zhì)是非常有必要的。在該論文中作者為我們描述了 散度和 訓(xùn)練的一些數(shù)學(xué)的相關(guān)性質(zhì),并給出了 散度下界的一個(gè)初等推導(dǎo),它構(gòu)成了 訓(xùn)練的基礎(chǔ)。進(jìn)一步作者還推導(dǎo)了 散度和 擴(kuò)展的一些其它性質(zhì)其中就包括梯度匹配性質(zhì)。
最重要的是作者還提供了計(jì)算各種常見(jiàn) 及其變分下界的詳細(xì)表達(dá)式,強(qiáng)烈推薦這篇論文,最好能跟著作者的思路一步一步推導(dǎo)出來(lái),尤其是我對(duì)論文中關(guān)于對(duì) 泰勒展開(kāi)式的補(bǔ)充證明更需要值得慢慢花時(shí)間消化,因?yàn)槲野l(fā)現(xiàn)很多篇論文中都用到了其泰勒展式的二階項(xiàng)的 信息矩陣。
論文標(biāo)題:
Properties of f-divergences and f-GAN training
論文鏈接:
https://arxiv.org/abs/2009.00757
散度族
2.1 定義介紹
定義:給定一個(gè)嚴(yán)格凸的二次連續(xù)可微函數(shù) ,在 的概率密度函數(shù)的 和 的 散度 的定義為:
為了簡(jiǎn)化起見(jiàn),作者假設(shè)分布 和 在 關(guān)于勒貝格積分是絕對(duì)連續(xù)的,,,并且 和 都是連續(xù)可微的。
在定義函數(shù)中添加一個(gè)線性函數(shù)項(xiàng)那么在散度中只會(huì)添加一個(gè)常數(shù):比如說(shuō)如果對(duì)于任意的 ,
則對(duì)于任意的分布 和 ,則有:
在通常情況下,我們不關(guān)心總體相加偏移,而是將 和 視為本質(zhì)上相同的概率分布度量。論文中沒(méi)有給出該結(jié)論相關(guān)的數(shù)學(xué)證明,下面為補(bǔ)充的數(shù)學(xué)證明。
證明:已知 ,且 ,所以則有:
2.2 性質(zhì)
令 , 確保當(dāng)分布 時(shí),; 確保散度 具有非負(fù)性,則 散度滿(mǎn)足如下幾個(gè)數(shù)學(xué)性質(zhì):
在 上是線性的。
對(duì)于任意的分布 和 都有 ,當(dāng)且僅當(dāng) 時(shí),取等號(hào)。
確定唯一的 。
如果 ,則有 。
證明:
1. 線性性證明:對(duì)于任意 ,兩個(gè)散度 和 則有:
如果 和 是嚴(yán)格凸函數(shù),則 和 都是嚴(yán)格凸函數(shù),此時(shí) 和 都是有效的 散度。
2. 非負(fù)性證明:因?yàn)? 非負(fù)性源于函數(shù) 是嚴(yán)格凸的。因?yàn)?,因此則有:
由此可知 。
3.? 唯一確定函數(shù) :證明的中心思想是當(dāng) 時(shí),。考慮 和 是一個(gè)兩點(diǎn)集的分布 。給定 ,構(gòu)造如下兩個(gè)分布如下所示:
進(jìn)一步則有公式:
因?yàn)楫?dāng) 時(shí),對(duì)于所有的 ?,有 ,進(jìn)一步則有 ,又因?yàn)?,所以可得 。當(dāng) 時(shí), 和 的分布構(gòu)造如下:
進(jìn)一步化簡(jiǎn)則有:
同樣的證明方法可以得出 。
不同的 散度在分布 和 在相距很遠(yuǎn)的時(shí)候,度量的差異很大,但是在 時(shí),距離都是 0。考慮一組分布的參數(shù)族 。對(duì) 對(duì) 進(jìn)行泰勒展開(kāi),則有:
其中 ,,并且以下公式時(shí) 信息矩陣。
論文中沒(méi)有給出相應(yīng)的證明過(guò)程,具體的證明過(guò)程如下所示:
證明:
為了證明的簡(jiǎn)便性和可讀性,假設(shè) 是一維的,則有如下公式:
已知 ,則有:
求解如下導(dǎo)數(shù):
又因?yàn)?,,所以則有:
求解如下導(dǎo)數(shù):
因?yàn)?,,所以則有:
將求導(dǎo)結(jié)果帶入原公式,即可得到一維的散度泰勒展開(kāi)式,與論文的結(jié)果一致,證明完畢。
可以很直觀的發(fā)現(xiàn),所有的 散度都與附近兩個(gè)分布之間的散度一致,并且它們都是這個(gè)區(qū)域中 距離的縮放版本。這可以以非參數(shù)形式說(shuō)明如下公式(此處的證明過(guò)程中與參數(shù)版本的證明方法一致):
其中 滿(mǎn)足 。上面的公式也可以寫(xiě)成:
因此,所有 散度都與附近分布之間的散度的常數(shù)因子一致。
變分散度估計(jì)
3.1 變分下界
因?yàn)? 是嚴(yán)格凸函數(shù),所以在該函數(shù)圖像上的每一點(diǎn)的切線都在該函數(shù)圖像的下面。對(duì)于任意 ,所以則有:
當(dāng)且僅當(dāng) 時(shí),取等號(hào)。用 代替 , 代替 ,對(duì)于任意連續(xù)可微的函數(shù) ,,則可以得到:
當(dāng)且僅當(dāng) 取等號(hào),此時(shí) 。令 ,對(duì)任意連續(xù)可微函數(shù) ,則有:
當(dāng)且僅當(dāng) 取等號(hào),其中則有:
其中 和 在函數(shù) 處都是線性的。
3.2 變分散度估計(jì)公式
分布 和 的 散度可以通過(guò)最大化關(guān)于函數(shù) 的期望 來(lái)估計(jì),其中 可以根據(jù)分布 和 的采樣關(guān)于 函數(shù)的期望來(lái)估計(jì)。如果將 參數(shù)化為一個(gè)帶參數(shù)的神經(jīng)網(wǎng)絡(luò) ν,那么可以通過(guò)最大化關(guān)于 ν 的 來(lái)近似散度。這并不能計(jì)算出準(zhǔn)確的散度原因有如下,第一不能保證 位于可由神經(jīng)網(wǎng)絡(luò)表示的 νν 函數(shù)族中;第二基于梯度的優(yōu)化可以找到局部而不是全局的最小值;第三需要防止訓(xùn)練過(guò)程中模型過(guò)擬合。但是我們可以盡可能去優(yōu)化下界進(jìn)而能夠更好的去估計(jì) 散度。
3.3 散度的表達(dá)式
作者針對(duì)于每一個(gè) 散度,作者給出了 ,,,,,,, 的顯示表達(dá)式。首先是最常見(jiàn)的 散度,具體形式如下:
有時(shí) 散度的定義函數(shù)為 ,因?yàn)槎x函數(shù)加上一個(gè)線性函數(shù) 散度不變,針對(duì)于廣義的 散度,則有如下形式:
散度 定義如下所示:
散度和 散度在公式的表示形式上具有明顯的對(duì)稱(chēng)性。如果 ,則 ,。
散度 的具體的推導(dǎo)以及定義的公式如下所示:
距離的相關(guān)定義和對(duì)應(yīng)下界函數(shù)如下所示:
距離的相關(guān)定義和對(duì)應(yīng)下界函數(shù)如下所示:
卡方散度的相關(guān)定義和對(duì)應(yīng)下界函數(shù)如下所示:
散度的定義和對(duì)應(yīng)的下界函數(shù)如下所示:
軟化 散度的定義和對(duì)應(yīng)的下界函數(shù)如下所示:
變分散度極小化
概括了經(jīng)典 ,其允許近似最小化任何 散度。 主要是利用 散度從樣本數(shù)據(jù)中去模擬出一個(gè)概率模型。 是真實(shí)的樣本分布,其目標(biāo)是去最小化:
是 上的概率密度參數(shù)族。假定 表示的是生成器。對(duì)于 中隱式的生成器模型,分布 是隨機(jī)潛變量 確定變換 的結(jié)果。
4.1 梯度匹配特性
給定最佳的 ,則 和 是相等的,其中它們的梯度在此時(shí)也是相等的如下所示:
由此可知, 是 非常接近的一個(gè)下界。
低維度的生成器
絕大多數(shù) 生成器由噪聲源的確定性神經(jīng)網(wǎng)絡(luò)組成。一般情況下噪聲的維數(shù)遠(yuǎn)低于樣本空間,這意味著給定的經(jīng)過(guò)訓(xùn)練的生成器的可能生成器輸出集是樣本空間中的低維流形。通常假設(shè)自然數(shù)據(jù)也存在于輸出空間中的低維流形上,但作者認(rèn)為這種情況不是一定的(比如 ,生成器的輸入維度與輸出維度一樣)。低維生成器生成高維數(shù)據(jù)分布會(huì)有很多問(wèn)題:
在數(shù)據(jù)分布下,生成器的輸出集的概率可能為 。
概率為 時(shí),生成器為自然圖像指定的概率密度為 。
數(shù)據(jù)分布和生成器之間的 散度是發(fā)散的。
模型下自然數(shù)據(jù)的真實(shí)對(duì)數(shù)似然為 。
實(shí)際上所有 散度的梯度經(jīng)常為 。
最優(yōu)臨界點(diǎn) 幾乎處處是 。
的生成器訓(xùn)練的足夠好會(huì)導(dǎo)致模型崩塌,使得模型生成樣本的多樣性變差。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
·
總結(jié)
以上是生活随笔為你收集整理的深入解读f-散度和f-GAN训练的相关数学性质的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 有哪些美食能让人吃一次就记一辈子?
- 下一篇: 今日arXiv精选 | 28篇EMNLP