當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

深入解读f-散度和f-GAN训练的相关数学性质

發(fā)布時(shí)間：2024/10/8 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了深入解读f-散度和f-GAN训练的相关数学性质小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者?|?孫裕道

學(xué)校?|?北京郵電大學(xué)博士生

研究方向?|?GAN圖像生成、情緒對(duì)抗樣本生成

引言

在深度學(xué)習(xí)中，衡量?jī)蓚€(gè)概率密度分布的數(shù)學(xué)工具就是散度，不管是訓(xùn)練分類(lèi)器模型還是訓(xùn)練都看見(jiàn)到它，所以說(shuō)了解散度的相關(guān)的數(shù)學(xué)性質(zhì)是非常有必要的。在該論文中作者為我們描述了散度和訓(xùn)練的一些數(shù)學(xué)的相關(guān)性質(zhì)，并給出了散度下界的一個(gè)初等推導(dǎo)，它構(gòu)成了訓(xùn)練的基礎(chǔ)。進(jìn)一步作者還推導(dǎo)了散度和擴(kuò)展的一些其它性質(zhì)其中就包括梯度匹配性質(zhì)。

最重要的是作者還提供了計(jì)算各種常見(jiàn) 及其變分下界的詳細(xì)表達(dá)式，強(qiáng)烈推薦這篇論文，最好能跟著作者的思路一步一步推導(dǎo)出來(lái)，尤其是我對(duì)論文中關(guān)于對(duì) 泰勒展開(kāi)式的補(bǔ)充證明更需要值得慢慢花時(shí)間消化，因?yàn)槲野l(fā)現(xiàn)很多篇論文中都用到了其泰勒展式的二階項(xiàng)的信息矩陣。

論文標(biāo)題：

Properties of f-divergences and f-GAN training

論文鏈接：

https://arxiv.org/abs/2009.00757

散度族

2.1 定義介紹

定義：給定一個(gè)嚴(yán)格凸的二次連續(xù)可微函數(shù) ，在的概率密度函數(shù)的和的散度的定義為：

為了簡(jiǎn)化起見(jiàn)，作者假設(shè)分布和在關(guān)于勒貝格積分是絕對(duì)連續(xù)的，，，并且和都是連續(xù)可微的。

在定義函數(shù)中添加一個(gè)線性函數(shù)項(xiàng)那么在散度中只會(huì)添加一個(gè)常數(shù)：比如說(shuō)如果對(duì)于任意的，

則對(duì)于任意的分布和，則有：

在通常情況下，我們不關(guān)心總體相加偏移，而是將和視為本質(zhì)上相同的概率分布度量。論文中沒(méi)有給出該結(jié)論相關(guān)的數(shù)學(xué)證明，下面為補(bǔ)充的數(shù)學(xué)證明。

證明：已知，且，所以則有：

2.2 性質(zhì)

令，確保當(dāng)分布時(shí)，；確保散度具有非負(fù)性，則散度滿(mǎn)足如下幾個(gè)數(shù)學(xué)性質(zhì)：

在上是線性的。

對(duì)于任意的分布和都有，當(dāng)且僅當(dāng) 時(shí)，取等號(hào)。

確定唯一的。

如果，則有。

證明：

1. 線性性證明：對(duì)于任意，兩個(gè)散度和則有：

如果和 是嚴(yán)格凸函數(shù)，則 和 都是嚴(yán)格凸函數(shù)，此時(shí) 和 都是有效的 散度。

2. 非負(fù)性證明：因?yàn)? 非負(fù)性源于函數(shù) 是嚴(yán)格凸的。因?yàn)?，因此則有：

由此可知。

3.? 唯一確定函數(shù) ：證明的中心思想是當(dāng) 時(shí)，。考慮和是一個(gè)兩點(diǎn)集的分布。給定，構(gòu)造如下兩個(gè)分布如下所示：

進(jìn)一步則有公式：

因?yàn)楫?dāng) 時(shí)，對(duì)于所有的 ?，有，進(jìn)一步則有，又因?yàn)?，所以可得。當(dāng) 時(shí)，和的分布構(gòu)造如下：

進(jìn)一步化簡(jiǎn)則有：

同樣的證明方法可以得出。

不同的散度在分布和在相距很遠(yuǎn)的時(shí)候，度量的差異很大，但是在時(shí)，距離都是 0。考慮一組分布的參數(shù)族。對(duì) 對(duì) 進(jìn)行泰勒展開(kāi)，則有：

其中，，并且以下公式時(shí) 信息矩陣。

論文中沒(méi)有給出相應(yīng)的證明過(guò)程，具體的證明過(guò)程如下所示：

證明：

為了證明的簡(jiǎn)便性和可讀性，假設(shè) 是一維的，則有如下公式：

已知，則有：

求解如下導(dǎo)數(shù)：

又因?yàn)?，，所以則有：

求解如下導(dǎo)數(shù)：

因?yàn)?，，所以則有：

將求導(dǎo)結(jié)果帶入原公式，即可得到一維的散度泰勒展開(kāi)式，與論文的結(jié)果一致，證明完畢。

可以很直觀的發(fā)現(xiàn)，所有的散度都與附近兩個(gè)分布之間的散度一致，并且它們都是這個(gè)區(qū)域中距離的縮放版本。這可以以非參數(shù)形式說(shuō)明如下公式（此處的證明過(guò)程中與參數(shù)版本的證明方法一致）：

其中滿(mǎn)足。上面的公式也可以寫(xiě)成：

因此，所有散度都與附近分布之間的散度的常數(shù)因子一致。

變分散度估計(jì)

3.1 變分下界

因?yàn)? 是嚴(yán)格凸函數(shù)，所以在該函數(shù)圖像上的每一點(diǎn)的切線都在該函數(shù)圖像的下面。對(duì)于任意，所以則有：

當(dāng)且僅當(dāng) 時(shí)，取等號(hào)。用代替，代替，對(duì)于任意連續(xù)可微的函數(shù) ，，則可以得到：

當(dāng)且僅當(dāng) 取等號(hào)，此時(shí) 。令，對(duì)任意連續(xù)可微函數(shù) ，則有：

當(dāng)且僅當(dāng) 取等號(hào)，其中則有：

其中和在函數(shù) 處都是線性的。

3.2 變分散度估計(jì)公式

分布和的散度可以通過(guò)最大化關(guān)于函數(shù) 的期望來(lái)估計(jì)，其中可以根據(jù)分布和的采樣關(guān)于函數(shù)的期望來(lái)估計(jì)。如果將參數(shù)化為一個(gè)帶參數(shù)的神經(jīng)網(wǎng)絡(luò) ν，那么可以通過(guò)最大化關(guān)于 ν 的來(lái)近似散度。這并不能計(jì)算出準(zhǔn)確的散度原因有如下，第一不能保證位于可由神經(jīng)網(wǎng)絡(luò)表示的 νν 函數(shù)族中；第二基于梯度的優(yōu)化可以找到局部而不是全局的最小值；第三需要防止訓(xùn)練過(guò)程中模型過(guò)擬合。但是我們可以盡可能去優(yōu)化下界進(jìn)而能夠更好的去估計(jì) 散度。

3.3 散度的表達(dá)式

作者針對(duì)于每一個(gè) 散度，作者給出了，，，，，，，的顯示表達(dá)式。首先是最常見(jiàn)的散度，具體形式如下：

有時(shí) 散度的定義函數(shù)為，因?yàn)槎x函數(shù)加上一個(gè)線性函數(shù) 散度不變，針對(duì)于廣義的散度，則有如下形式：

散度定義如下所示：

散度和散度在公式的表示形式上具有明顯的對(duì)稱(chēng)性。如果，則，。

散度的具體的推導(dǎo)以及定義的公式如下所示：

距離的相關(guān)定義和對(duì)應(yīng)下界函數(shù)如下所示：

卡方散度的相關(guān)定義和對(duì)應(yīng)下界函數(shù)如下所示：

散度的定義和對(duì)應(yīng)的下界函數(shù)如下所示：

軟化散度的定義和對(duì)應(yīng)的下界函數(shù)如下所示：

變分散度極小化

概括了經(jīng)典，其允許近似最小化任何散度。主要是利用散度從樣本數(shù)據(jù)中去模擬出一個(gè)概率模型。是真實(shí)的樣本分布，其目標(biāo)是去最小化：

是上的概率密度參數(shù)族。假定表示的是生成器。對(duì)于中隱式的生成器模型，分布是隨機(jī)潛變量確定變換的結(jié)果。

4.1 梯度匹配特性

給定最佳的，則和是相等的，其中它們的梯度在此時(shí)也是相等的如下所示：

由此可知，是非常接近的一個(gè)下界。

低維度的生成器

絕大多數(shù) 生成器由噪聲源的確定性神經(jīng)網(wǎng)絡(luò)組成。一般情況下噪聲的維數(shù)遠(yuǎn)低于樣本空間，這意味著給定的經(jīng)過(guò)訓(xùn)練的生成器的可能生成器輸出集是樣本空間中的低維流形。通常假設(shè)自然數(shù)據(jù)也存在于輸出空間中的低維流形上，但作者認(rèn)為這種情況不是一定的（比如，生成器的輸入維度與輸出維度一樣）。低維生成器生成高維數(shù)據(jù)分布會(huì)有很多問(wèn)題：

在數(shù)據(jù)分布下，生成器的輸出集的概率可能為。
概率為時(shí)，生成器為自然圖像指定的概率密度為。
數(shù)據(jù)分布和生成器之間的散度是發(fā)散的。
模型下自然數(shù)據(jù)的真實(shí)對(duì)數(shù)似然為。
實(shí)際上所有散度的梯度經(jīng)常為。
最優(yōu)臨界點(diǎn) 幾乎處處是。
的生成器訓(xùn)練的足夠好會(huì)導(dǎo)致模型崩塌，使得模型生成樣本的多樣性變差。

特別鳴謝

感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。

更多閱讀

#投稿?通道#

?讓你的文字被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

📝?稿件基本要求：

? 文章確系個(gè)人原創(chuàng)作品，未曾在公開(kāi)渠道發(fā)表，如為其他平臺(tái)已發(fā)表或待發(fā)表的文章，請(qǐng)明確標(biāo)注?

? 稿件建議以?markdown?格式撰寫(xiě)，文中配圖以附件形式發(fā)送，要求圖片清晰，無(wú)版權(quán)問(wèn)題

? PaperWeekly 尊重原作者署名權(quán)，并將為每篇被采納的原創(chuàng)首發(fā)稿件，提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬，具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算

📬?投稿通道：

? 投稿郵箱：hr@paperweekly.site?

? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式（微信），以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者

? 您也可以直接添加小編微信（pwbot02）快速投稿，備注：姓名-投稿

△長(zhǎng)按添加PaperWeekly小編

🔍

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

總結(jié)

以上是生活随笔為你收集整理的深入解读f-散度和f-GAN训练的相关数学性质的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：有哪些美食能让人吃一次就记一辈子？
下一篇：今日arXiv精选 | 28篇EMNLP