深入理解softmax函数
Softmax回歸模型,該模型是logistic回歸模型在多分類問題上的推廣,在多分類問題中,類標(biāo)簽??可以取兩個(gè)以上的值。Softmax模型可以用來給不同的對(duì)象分配概率。即使在之后,我們訓(xùn)練更加精細(xì)的模型時(shí),最后一步也需要用softmax來分配概率。本質(zhì)上其實(shí)是一種多種類型的線性分割,當(dāng)類標(biāo)簽??取 2 時(shí),就相當(dāng)于是logistic回歸模型。
在 softmax回歸中,我們解決的是多分類問題(相對(duì)于 logistic 回歸解決的二分類問題),類標(biāo)??可以取??個(gè)不同的值(而不是 2 個(gè))。因此,對(duì)于訓(xùn)練集?,我們有?。(注意此處的類別下標(biāo)從 1 開始,而不是 0)。例如,在 MNIST 數(shù)字識(shí)別任務(wù)中,我們有??個(gè)不同的類別。
對(duì)于給定的測試輸入?,我們想用假設(shè)函數(shù)針對(duì)每一個(gè)類別j估算出概率值?。也就是說,我們想估計(jì)??的每一種分類結(jié)果出現(xiàn)的概率。因此,我們的假設(shè)函數(shù)將要輸出一個(gè)??維的向量(向量元素的和為1)來表示這??個(gè)估計(jì)的概率值。 具體地說,我們的假設(shè)函數(shù)??形式如下:
?
交叉熵代價(jià)函數(shù)
? ??
其中,x表示樣本,n表示樣本的總數(shù)。
這種代價(jià)函數(shù)與普通的二次代價(jià)函數(shù)相比,當(dāng)預(yù)測值與實(shí)際值的誤差越大,那么參數(shù)調(diào)整的幅度就更大,達(dá)到更快收斂的效果。
證明如下:
? ?
?其中:
因此,w的梯度公式中原來的被消掉了;另外,該梯度公式中的表示輸出值與實(shí)際值之間的誤差。所以,當(dāng)誤差越大,梯度就越大,參數(shù)w調(diào)整得越快,訓(xùn)練速度也就越快。同理可得,b的梯度為:
?
?
Softmax 回歸 vs. k 個(gè)二元分類器
如果你在開發(fā)一個(gè)音樂分類的應(yīng)用,需要對(duì)k種類型的音樂進(jìn)行識(shí)別,那么是選擇使用 softmax 分類器呢,還是使用 logistic 回歸算法建立 k 個(gè)獨(dú)立的二元分類器呢?
這一選擇取決于你的類別之間是否互斥,例如,如果你有四個(gè)類別的音樂,分別為:古典音樂、鄉(xiāng)村音樂、搖滾樂和爵士樂,那么你可以假設(shè)每個(gè)訓(xùn)練樣本只會(huì)被打上一個(gè)標(biāo)簽(即:一首歌只能屬于這四種音樂類型的其中一種),此時(shí)你應(yīng)該使用類別數(shù)?k?= 4?的softmax回歸。(如果在你的數(shù)據(jù)集中,有的歌曲不屬于以上四類的其中任何一類,那么你可以添加一個(gè)“其他類”,并將類別數(shù)?k?設(shè)為5。)
如果你的四個(gè)類別如下:人聲音樂、舞曲、影視原聲、流行歌曲,那么這些類別之間并不是互斥的。例如:一首歌曲可以來源于影視原聲,同時(shí)也包含人聲 。這種情況下,使用4個(gè)二分類的 logistic 回歸分類器更為合適。這樣,對(duì)于每個(gè)新的音樂作品 ,我們的算法可以分別判斷它是否屬于各個(gè)類別。
現(xiàn)在我們來看一個(gè)計(jì)算視覺領(lǐng)域的例子,你的任務(wù)是將圖像分到三個(gè)不同類別中。(i) 假設(shè)這三個(gè)類別分別是:室內(nèi)場景、戶外城區(qū)場景、戶外荒野場景。你會(huì)使用sofmax回歸還是 3個(gè)logistic 回歸分類器呢? (ii) 現(xiàn)在假設(shè)這三個(gè)類別分別是室內(nèi)場景、黑白圖片、包含人物的圖片,你又會(huì)選擇 softmax 回歸還是多個(gè) logistic 回歸分類器呢?
在第一個(gè)例子中,三個(gè)類別是互斥的,因此更適于選擇softmax回歸分類器 。而在第二個(gè)例子中,建立三個(gè)獨(dú)立的 logistic回歸分類器更加合適。
?
轉(zhuǎn)載于:https://www.cnblogs.com/xiaobaituyun/p/7892729.html
總結(jié)
以上是生活随笔為你收集整理的深入理解softmax函数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: oled
- 下一篇: unity json解析IPA后续