當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一文讲清楚【KL距离】、【torch.nn.functional.kl_div()】和【torch.nn.KLDivLoss()】的关系

發布時間：2023/12/10 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了一文讲清楚【KL距离】、【torch.nn.functional.kl_div()】和【torch.nn.KLDivLoss()】的关系小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

一、定義
- 1. KL距離(Kullback–Leibler divergence)
- 2. torch.nn.KLDivLoss()
- 3. torch.nn.functional.kl_div()
二、實驗
- 1. torch.nn.KLDivLoss()
- 2. torch.nn.functional.kl_div()
三、結論
- 1. 實際應用

一、定義

1. KL距離(Kullback–Leibler divergence)

設P, Q為兩個概率(意思就是sum為1，相當于做完softmax之后的效果)，則KL距離 $D_{KL}(P||Q)$ 被定義為

2. torch.nn.KLDivLoss()

一個類(class)，通過調用(__call__)來實現loss的計算。官網的定義如下：

這里可以看出來，y相當于P，x相當于Q。想要實現KL距離 $D_{KL}(P||Q)$ 的話，其使用方法為

# P, Q are two probabilities (normally after softmax) l = torch.nn.KLDivLoss() loss = l(torch.log(Q), P)

這是很顯然的，因為根據官網定義
$ln=yn?(log?yn?xn)=yn?(log?yn?log?Qn)=Pn?(log?Pn?log?Qn)=Pn?log?PnQn\begin{aligned} l_n &= y_n \cdot (\log y_n - x_n)\\ &= y_n \cdot (\log y_n - \log Q_n) \\ & = P_n\cdot (\log P_n - \log Q_n) \\ & = P_n\cdot \log \frac{P_n}{ Q_n} \end{aligned}$

3. torch.nn.functional.kl_div()

一個函數(function)，通過直接使用來實現loss的計算。想要實現KL距離 $D_{KL}(P||Q)$ 的話，其使用方法為

# P, Q are two probabilities (normally after softmax) loss = torch.nn.functional.kl_div(torch.log(Q), P)

簡單來說，就是torch.nn.KLDivLoss()的簡化版本，隨調隨用。

二、實驗

1. torch.nn.KLDivLoss()

我們簡單設計個小實驗

import torch P = torch.tensor([0.25] * 4 + [0]) Q = torch.tensor([0.2] * 5) l = torch.nn.KLDivLoss(reduction='sum') loss = l(torch.log(Q), P) print(loss) # output: tensor(0.2231)

我們用計算器算一下
$\sum_{i=1}^{i=5} P_i \log \frac{P_i}{Q_i} = 4\times0.25\times\ln\frac{0.25}{0.2} +0= 0.22314$
可以看到，是一致的。此外，一般reduction都用batchmean，這個只是最后要不要平均一下罷了，詳見官網。

2. torch.nn.functional.kl_div()

類似的，我們也做一個實驗

import torch P = torch.tensor([0.25] * 4 + [0]) Q = torch.tensor([0.2] * 5) loss = torch.nn.functional.kl_div(torch.log(Q), P, reduction='sum') print(loss) # output: tensor(0.2231)

實驗成功！

三、結論

1. 實際應用

一般地，一個batch的sample通過model后，我們會得到[batch_size, class_num]的矩陣。如果model的最后一層有softmax，我們就相當于拿到了概率Q。

而對應的label(大小為[batch_size, 1])則對應P，但是我們需要先對label進行softmax歸一化。所以，偽代碼如下：

import torch import torch.nn.functional as F ... predicted = model(samples) log_pre = torch.log(predicted) labels = F.softmax(labels) loss = F.kl_div(log_pre, labels, reduction='batchmean')

類似的，如果model的最后沒有softmax，偽代碼如下：

import torch import torch.nn.functional as F ... predicted = model(samples) log_pre = nn.LogSoftmax(dim=1)(predicted) labels = F.softmax(labels) loss = F.kl_div(log_pre, labels, reduction='batchmean')

總結

以上是生活随笔為你收集整理的一文讲清楚【KL距离】、【torch.nn.functional.kl_div()】和【torch.nn.KLDivLoss()】的关系的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：脚本两则--用于快速部署HADOOP，S
下一篇： Mac Book Pro中idea常用快