日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授

發(fā)布時間:2025/4/5 pytorch 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

←上一篇↓↑下一篇→
2.17 Jupyter/iPython 筆記本的快速指南回到目錄2.19 總結(jié)習(xí)題

Logistic 損失函數(shù)的解釋 ( Explanation of Logistic Regression Cost Function (Optional))

在前面的視頻中,我們已經(jīng)分析了邏輯回歸的損失函數(shù)表達(dá)式,在這節(jié)選修視頻中,我將給出一個簡潔的證明來說明邏輯回歸的損失函數(shù)為什么是這種形式。

回想一下,在邏輯回歸中,需要預(yù)測的結(jié)果 y^\hat{y}y^? ,可以表示為 y^=σ(wTx+b)\hat{y}=\sigma(w^Tx+b)y^?=σ(wTx+b)σ\sigmaσ 是我們熟悉的 SSS 型函數(shù) σ(z)=σ(wTx+b)=11+e?z\sigma(z)=\sigma(w^Tx+b)=\frac{1}{1+e^{-z}}σ(z)=σ(wTx+b)=1+e?z1? 。我們約定 y^=p(y=1∣x)\hat{y}=p(y=1|x)y^?=p(y=1x) ,即算法的輸出 y^\hat{y}y^? 是給定訓(xùn)練樣本 xxx 條件下 yyy 等于1的概率。換句話說,如果 y=1y=1y=1 ,在給定訓(xùn)練樣本 xxx 條件下 y=y^y=\hat{y}y=y^? ;反過來說,如果 y=0y=0y=0 ,在給定訓(xùn)練樣本 xxx 條件下 yyy 等于1減去 y^(y=1?y^)\hat{y}(y=1-\hat{y})y^?(y=1?y^?) ,因此,如果 y^\hat{y}y^? 代表 y=1y=1y=1 的概率,那么 1?y^1-\hat{y}1?y^? 就是 y=0y=0y=0 的概率。接下來,我們就來分析這兩個條件概率公式。

這兩個條件概率公式定義形式為 p(y∣x)p(y|x)p(yx) 并且代表了 y=0y=0y=0 或者 y=1y=1y=1 這兩種情況,我們可以將這兩個公式合并成一個公式。需要指出的是我們討論的是二分類問題的損失函數(shù),因此, yyy 的取值只能是0或者1。上述的兩個條件概率公式可以合并成如下公式:

p(y∣x)=y^y(1?y^)1?yp(y|x)=\hat{y}^y(1-\hat{y})^{1-y}p(yx)=y^?y(1?y^?)1?y

接下來我會解釋為什么可以合并成這種形式的表達(dá)式: (1?y^)(1-\hat{y})(1?y^?)(1?y)(1-y)(1?y) 次方這行表達(dá)式包含了上面的兩個條件概率公式,我來解釋一下為什么。

第一種情況,假設(shè) y=1y=1y=1 ,由于 y=1y=1y=1 ,那么 (y^)y=y^(\hat{y})^y=\hat{y}(y^?)y=y^? ,因為 y^\hat{y}y^? 的1次方等于 y^\hat{y}y^?1?(1?y^)(1?y)1-(1-\hat{y})^{(1-y)}1?(1?y^?)(1?y) 的指數(shù)項 (1?y)(1-y)(1?y) 等于0,由于任何數(shù)的0次方都是1, y^\hat{y}y^? 乘以1等于 y^\hat{y}y^? 。因此當(dāng) y=1y=1y=1p(y∣x)=y^p(y|x)=\hat{y}p(yx)=y^? (圖中綠色部分)。

第二種情況,當(dāng) y=0y=0y=0p(y∣x)p(y|x)p(yx) 等于多少呢? 假設(shè) y=0y=0y=0y^\hat{y}y^?yyy 次方就是 y^\hat{y}y^? 的0次方,任何數(shù)的0次方都等于1,因此 p(y∣x)=1?(1?y^)1?yp(y|x)=1*(1-\hat{y})^{1-y}p(yx)=1?(1?y^?)1?y ,前面假設(shè) y=0y=0y=0 因此 (1?y)(1-y)(1?y) 就等于1,因此 p(y∣x)=1?(1?y^)p(y|x)=1*(1-\hat{y})p(yx)=1?(1?y^?) 。因此在這里當(dāng) y=0y=0y=0 時, p(y∣x)=1?y^p(y|x)=1-\hat{y}p(yx)=1?y^? 。這就是這個公式(第二個公式,圖中紫色字體部分)的結(jié)果。

因此,剛才的推導(dǎo)表明 p(y∣x)=y^(y)(1?y^)(1?y)p(y|x)=\hat{y}^{(y)}(1-\hat{y})^{(1-y)}p(yx)=y^?(y)(1?y^?)(1?y) ,就是 p(y∣x)p(y|x)p(yx) 的完整定義。由于 log?\loglog 函數(shù)是嚴(yán)格單調(diào)遞增的函數(shù),最大化 log?(p(y∣x))\log(p(y|x))log(p(yx)) 等價于最大化 p(y∣x)p(y|x)p(yx) 并且地計算 p(y∣x)p(y|x)p(yx)log?\loglog 對數(shù),就是計算 log?(y^(y)(1?y^)(1?y))\log(\hat{y}^{(y)}(1-\hat{y})^{(1-y)})log(y^?(y)(1?y^?)(1?y)) (其實就是將 p(y∣x)p(y|x)p(yx) 代入),通過對數(shù)函數(shù)化簡為:

ylog?y^+(1?y)log?(1?y^)y\log\hat{y}+(1-y)\log(1-\hat{y})ylogy^?+(1?y)log(1?y^?)

而這就是我們前面提到的損失函數(shù)的負(fù)數(shù) (?L(y^,y))(-L(\hat{y},y))(?L(y^?,y)) ,前面有一個負(fù)號的原因是當(dāng)你訓(xùn)練學(xué)習(xí)算法時需要算法輸出值的概率是最大的(以最大的概率預(yù)測這個值),然而在邏輯回歸中我們需要最小化損失函數(shù),因此最小化損失函數(shù)與最大化條件概率的對數(shù) log?(p(y∣x))\log(p(y|x))log(p(yx)) 關(guān)聯(lián)起來了,因此這就是單個訓(xùn)練樣本的損失函數(shù)表達(dá)式。

mmm 個訓(xùn)練樣本的整個訓(xùn)練集中又該如何表示呢,讓我們一起來探討一下。

讓我們一起來探討一下,整個訓(xùn)練集中標(biāo)簽的概率,更正式地來寫一下。假設(shè)所有的訓(xùn)練樣本服從同一分布且相互獨(dú)立,也即獨(dú)立同分布的,所有這些樣本的聯(lián)合概率就是每個樣本概率的乘積:

P(labelsintrainingset)=∏i=1mP(y(i)∣x(x))。P(labels\ in\ training\ set)=\prod_{i=1}^mP(y^{(i)}|x^{(x)})。P(labels?in?training?set)=i=1m?P(y(i)x(x))

如果你想做最大似然估計,需要尋找一組參數(shù),使得給定樣本的觀測值概率最大,但令這個概率最大化等價于令其對數(shù)最大化,在等式兩邊取對數(shù):

P(labelsintrainingset)=log?∏i=1mP(y(i)∣x(x))=∑i=1mlog?P(y(i)∣x(i))=∑i=1m?L(y^(i),y(i))P(labels\ in\ training\ set)=\log\prod_{i=1}^mP(y^{(i)}|x^{(x)})=\sum_{i=1}^m\log P(y^{(i)}|x^{(i)})=\sum_{i=1}^m-L(\hat{y}^{(i)},y^{(i)})P(labels?in?training?set)=logi=1m?P(y(i)x(x))=i=1m?logP(y(i)x(i))=i=1m??L(y^?(i),y(i))

在統(tǒng)計學(xué)里面,有一個方法叫做最大似然估計,即求出一組參數(shù),使這個式子取最大值,也就是說,使得這個式子取最大值, ∑i=1m?L(y^(i),y(i))\sum_{i=1}^m-L(\hat{y}^{(i)},y^{(i)})i=1m??L(y^?(i),y(i)) ,可以將負(fù)號移到求和符號的外面, ?∑i=1mL(y^(i),y(i))-\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})?i=1m?L(y^?(i),y(i)) ,這樣我們就推導(dǎo)出了前面給出的logistic回歸的成本函數(shù) J(w,b)=∑i=1mL(y^(i),y(i))J(w,b)=\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})J(w,b)=i=1m?L(y^?(i),y(i))

由于訓(xùn)練模型時,目標(biāo)是讓成本函數(shù)最小化,所以我們不是直接用最大似然概率,要去掉這里的負(fù)號,最后為了方便,可以對成本函數(shù)進(jìn)行適當(dāng)?shù)目s放,我們就在前面加一個額外的常數(shù)因子 1m\frac1mm1? ,即:

J(w,b)=1m∑i=1mL(y^(i),y(i))。J(w,b)=\frac1m\sum_{i=1}^mL(\hat{y}^{(i)},y^{(i)})。J(w,b)=m1?i=1m?L(y^?(i),y(i))

總結(jié)一下,為了最小化成本函數(shù) J(w,b)J(w,b)J(w,b) ,我們從logistic回歸模型的最大似然估計的角度出發(fā),假設(shè)訓(xùn)練集中的樣本都是獨(dú)立同分布的條件下。盡管這節(jié)課是選修性質(zhì)的,但還是感謝觀看本節(jié)視頻。我希望通過本節(jié)課您能更好地明白邏輯回歸的損失函數(shù),為什么是那種形式,明白了損失函數(shù)的原理,希望您能繼續(xù)完成課后的練習(xí),前面課程的練習(xí)以及本周的測驗,在課后的小測驗和編程練習(xí)中,祝您好運(yùn)。

課程PPT





←上一篇↓↑下一篇→
2.17 Jupyter/iPython 筆記本的快速指南回到目錄2.19 總結(jié)習(xí)題

總結(jié)

以上是生活随笔為你收集整理的2.18 Logistic 损失函数的解释-深度学习-Stanford吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。