日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

一文讲清楚【KL距离】、【torch.nn.functional.kl_div()】和【torch.nn.KLDivLoss()】的关系

發(fā)布時(shí)間:2023/12/10 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一文讲清楚【KL距离】、【torch.nn.functional.kl_div()】和【torch.nn.KLDivLoss()】的关系 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • 一、定義
    • 1. KL距離(Kullback–Leibler divergence)
    • 2. torch.nn.KLDivLoss()
    • 3. torch.nn.functional.kl_div()
  • 二、實(shí)驗(yàn)
    • 1. torch.nn.KLDivLoss()
    • 2. torch.nn.functional.kl_div()
  • 三、結(jié)論
    • 1. 實(shí)際應(yīng)用


一、定義

1. KL距離(Kullback–Leibler divergence)

設(shè)P, Q為兩個(gè)概率(意思就是sum為1,相當(dāng)于做完softmax之后的效果),則KL距離DKL(P∣∣Q)D_{KL}(P||Q)DKL?(PQ)被定義為

2. torch.nn.KLDivLoss()

一個(gè)類(class),通過調(diào)用(__call__)來(lái)實(shí)現(xiàn)loss的計(jì)算。官網(wǎng)的定義如下:

這里可以看出來(lái),y相當(dāng)于P,x相當(dāng)于Q。想要實(shí)現(xiàn)KL距離DKL(P∣∣Q)D_{KL}(P||Q)DKL?(PQ)的話,其使用方法為

# P, Q are two probabilities (normally after softmax) l = torch.nn.KLDivLoss() loss = l(torch.log(Q), P)

這是很顯然的,因?yàn)楦鶕?jù)官網(wǎng)定義
ln=yn?(log?yn?xn)=yn?(log?yn?log?Qn)=Pn?(log?Pn?log?Qn)=Pn?log?PnQn\begin{aligned} l_n &= y_n \cdot (\log y_n - x_n)\\ &= y_n \cdot (\log y_n - \log Q_n) \\ & = P_n\cdot (\log P_n - \log Q_n) \\ & = P_n\cdot \log \frac{P_n}{ Q_n} \end{aligned} ln??=yn??(logyn??xn?)=yn??(logyn??logQn?)=Pn??(logPn??logQn?)=Pn??logQn?Pn???

3. torch.nn.functional.kl_div()

一個(gè)函數(shù)(function),通過直接使用來(lái)實(shí)現(xiàn)loss的計(jì)算。想要實(shí)現(xiàn)KL距離DKL(P∣∣Q)D_{KL}(P||Q)DKL?(PQ)的話,其使用方法為

# P, Q are two probabilities (normally after softmax) loss = torch.nn.functional.kl_div(torch.log(Q), P)

簡(jiǎn)單來(lái)說(shuō),就是torch.nn.KLDivLoss()的簡(jiǎn)化版本,隨調(diào)隨用。

二、實(shí)驗(yàn)

1. torch.nn.KLDivLoss()

我們簡(jiǎn)單設(shè)計(jì)個(gè)小實(shí)驗(yàn)

import torch P = torch.tensor([0.25] * 4 + [0]) Q = torch.tensor([0.2] * 5) l = torch.nn.KLDivLoss(reduction='sum') loss = l(torch.log(Q), P) print(loss) # output: tensor(0.2231)

我們用計(jì)算器算一下
loss=∑i=1i=5Pilog?PiQi=4×0.25×ln?0.250.2+0=0.22314loss = \sum_{i=1}^{i=5} P_i \log \frac{P_i}{Q_i} = 4\times0.25\times\ln\frac{0.25}{0.2} +0= 0.22314 loss=i=1i=5?Pi?logQi?Pi??=4×0.25×ln0.20.25?+0=0.22314
可以看到,是一致的。此外,一般reduction都用batchmean,這個(gè)只是最后要不要平均一下罷了,詳見官網(wǎng)。

2. torch.nn.functional.kl_div()

類似的,我們也做一個(gè)實(shí)驗(yàn)

import torch P = torch.tensor([0.25] * 4 + [0]) Q = torch.tensor([0.2] * 5) loss = torch.nn.functional.kl_div(torch.log(Q), P, reduction='sum') print(loss) # output: tensor(0.2231)

實(shí)驗(yàn)成功!

三、結(jié)論

1. 實(shí)際應(yīng)用

一般地,一個(gè)batch的sample通過model后,我們會(huì)得到[batch_size, class_num]的矩陣。如果model的最后一層有softmax,我們就相當(dāng)于拿到了概率Q。

而對(duì)應(yīng)的label(大小為[batch_size, 1])則對(duì)應(yīng)P,但是我們需要先對(duì)label進(jìn)行softmax歸一化。所以,偽代碼如下:

import torch import torch.nn.functional as F ... predicted = model(samples) log_pre = torch.log(predicted) labels = F.softmax(labels) loss = F.kl_div(log_pre, labels, reduction='batchmean')

類似的,如果model的最后沒有softmax,偽代碼如下:

import torch import torch.nn.functional as F ... predicted = model(samples) log_pre = nn.LogSoftmax(dim=1)(predicted) labels = F.softmax(labels) loss = F.kl_div(log_pre, labels, reduction='batchmean')

總結(jié)

以上是生活随笔為你收集整理的一文讲清楚【KL距离】、【torch.nn.functional.kl_div()】和【torch.nn.KLDivLoss()】的关系的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。