當(dāng)前位置：首頁(yè) > 编程资源 > 综合教程 >内容正文

综合教程

负对数似然(negative log-likelihood)

發(fā)布時(shí)間：2023/12/13 综合教程 39 生活家

生活随笔收集整理的這篇文章主要介紹了负对数似然(negative log-likelihood) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

negative log likelihood
文章目錄
negative log likelihood
似然函數(shù)(likelihood function)
Overview
Definition
離散型概率分布(Discrete probability distributions)
連續(xù)型概率分布(Continuous probability distributions)
最大似然估計(jì)(Maximum Likelihood Estimation,MLE)
對(duì)數(shù)似然(log likelihood)
負(fù)對(duì)數(shù)似然(negative log-likelihood)
Reference
似然函數(shù)(likelihood function)
Overview
在機(jī)器學(xué)習(xí)中，似然函數(shù)是一種關(guān)于模型中參數(shù)的函數(shù)。“似然性(likelihood)”和"概率(probability)"詞意相似，但在統(tǒng)計(jì)學(xué)中它們有著完全不同的含義：概率用于在已知參數(shù)的情況下，預(yù)測(cè)接下來(lái)的觀測(cè)結(jié)果；似然性用于根據(jù)一些觀測(cè)結(jié)果，估計(jì)給定模型的參數(shù)可能值。

Probability is used to describe the plausibility of some data, given a value for the parameter. Likelihood is used to describe the plausibility of a value for the parameter, given some data.

? —from wikipedia[3] ^[3]
[
3]

其數(shù)學(xué)形式表示為：

假設(shè)X XX是觀測(cè)結(jié)果序列，它的概率分布fx f_{x}f
x
?
依賴于參數(shù)θ hetaθ，則似然函數(shù)表示為

?
L(θ∣x)=fθ(x)=Pθ(X=x) L( heta|x)=f_{ heta}(x)=P_{ heta}(X=x)
L(θ∣x)=f
θ
?
(x)=P
θ
?
(X=x)

Definition
似然函數(shù)針對(duì)**離散型概率分布(Discrete probability distributions)和連續(xù)型概率分布(Continuous probability distributions)**的定義通常不同.

離散型概率分布(Discrete probability distributions)
假設(shè)X XX是離散隨機(jī)變量,其概率質(zhì)量函數(shù)p pp依賴于參數(shù)θ hetaθ,則有

?
L(θ∣x)=pθ(x)=Pθ(X=x) L( heta|x)=p_{ heta}(x)=P_{ heta}(X=x)
L(θ∣x)=p
θ
?
(x)=P
θ
?
(X=x)

L(θ∣x) L( heta|x)L(θ∣x)為參數(shù)θ hetaθ的似然函數(shù),x xx為隨機(jī)變量X XX的輸出.

Sometimes the probability of "the value of for the parameter value " is written as P(X = x | θ) or P(X = x; θ).

連續(xù)型概率分布(Continuous probability distributions)
假設(shè)X XX是連續(xù)概率分布的隨機(jī)變量,其密度函數(shù)(density function)f ff依賴于參數(shù)θ hetaθ,則有

L(θ∣x)=fθ(x) L( heta|x)=f_{ heta}(x)
L(θ∣x)=f
θ
?
(x)

最大似然估計(jì)(Maximum Likelihood Estimation,MLE)
假設(shè)每個(gè)觀測(cè)結(jié)果x xx是獨(dú)立同分布的，通過(guò)似然函數(shù)L(θ∣x) L( heta|x)L(θ∣x)求使觀測(cè)結(jié)果X XX發(fā)生的概率最大的參數(shù)θ hetaθ，即argmaxθf(X;θ) argmax_{ heta}f(X; heta)argmax
θ
?
f(X;θ) 。

在“模型已定，參數(shù)未知”的情況下，使用最大似然估計(jì)算法學(xué)習(xí)參數(shù)是比較普遍的。

對(duì)數(shù)似然(log likelihood)
由于對(duì)數(shù)函數(shù)具有單調(diào)遞增的特點(diǎn)，對(duì)數(shù)函數(shù)和似然函數(shù)具有同一個(gè)最大值點(diǎn)。取對(duì)數(shù)是為了方便計(jì)算極大似然估計(jì)，MLE中直接求導(dǎo)比價(jià)困難，通常先取對(duì)數(shù)再求導(dǎo)，找到極值點(diǎn)。

負(fù)對(duì)數(shù)似然(negative log-likelihood)
實(shí)踐中,softmax函數(shù)通常和負(fù)對(duì)數(shù)似然(negative log-likelihood,NLL)一起使用,這個(gè)損失函數(shù)非常有趣,如果我們將其與softmax的行為相關(guān)聯(lián)起來(lái)一起理解.首先,讓我們寫下我們的損失函數(shù):

L(y)=−log(y) L(y)=-log(y)
L(y)=−log(y)

回想一下,當(dāng)我們訓(xùn)練一個(gè)模型時(shí),我們渴望能夠找到使得損失函數(shù)最小的一組參數(shù)(在一個(gè)神經(jīng)網(wǎng)絡(luò)中,參數(shù)指權(quán)重weights和偏移biases).

對(duì)數(shù)函數(shù)如下圖紅線所示：

由于是對(duì)概率分布求對(duì)數(shù)，概率p pp的值為0≤p≤1 0leq{p}leq10≤p≤1,取對(duì)數(shù)后為紅色線條在[0,1] [0,1][0,1]區(qū)間中的部分，再對(duì)其取負(fù)數(shù)，得到負(fù)對(duì)數(shù)似然函數(shù)如下圖所示：

我們希望得到的概率越大越好，因此概率越接近于1，則函數(shù)整體值越接近于0，即使得損失函數(shù)取到最小值。

最大似然估計(jì)的一般步驟如下:
(1) 寫出似然函數(shù);
(2) 對(duì)似然函數(shù)取對(duì)數(shù),得到對(duì)數(shù)似然函數(shù);
(3) 求對(duì)數(shù)似然函數(shù)的關(guān)于參數(shù)組的偏導(dǎo)數(shù),并令其為0,得到似然方程組;
(4) 解似然方程組,得到參數(shù)組的值.

Reference
[1]王海良,李卓恒,林旭鳴.智能問(wèn)答與深度學(xué)習(xí)[M].北京:電子工業(yè)出版社,2019:19-20.

[2]Lj Miranda.Understanding softmax and the negative log-likelihood.2017.

? [link]https://ljvmiranda921.github.io/notebook/2017/08/13/softmax-and-the-negative-log-likelihood/

[3]wikipedia-likelihood function

? [link]https://en.wikipedia.org/wiki/Likelihood_function#Log-likelihood
---------------------
作者：不一樣的雅蘭醬
來(lái)源：CSDN
原文：https://blog.csdn.net/silver1225/article/details/88914652
版權(quán)聲明：本文為博主原創(chuàng)文章，轉(zhuǎn)載請(qǐng)附上博文鏈接！

總結(jié)

以上是生活随笔為你收集整理的负对数似然(negative log-likelihood)的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：一个操作系统的实现:关于CPL、RPL、
下一篇：民生芯动信用卡额度一般是多少钱