【机器学习】 二次损失函数的不足及交叉熵损失softmax详解
二次代價函數的不足:
以sigmoid激活函數為例,由于初始化是隨機的,假設目標值為0,第一次隨機初始化使得輸入為0.82,那么還可以,多次迭代之后可以收斂到0.09,但如果第一次隨機初始化到0.98,由于sigmoid激活函數的性質,就會使得梯度特別小,從而即使迭代次數特別大,也很難收斂到一個較好的值。故實驗二的輸出0.2很不理想。
這個時候就需要引入交叉熵損失。當然我們可以更換激活函數,但這個為了引出交叉熵函數但作用,我們不換激活函數。
邏輯回歸中使用的就是交叉熵損失函數。
?
對sigmoid函數再多一嘴,sigmoid函數的產生是由最大熵原理而來的,可以參考這篇文章https://blog.csdn.net/zynash2/article/details/79261039
但日常使用的理解其實可以很簡單
具體看文末鏈接,總結一下就是交叉熵損失函數的梯度更新中可以避免對激活函數求導(抵消掉了),從而擺脫了激活函數的限制,實現了真正的誤差越大,梯度越大。
?
Softmax函數
在邏輯回歸二分類問題中,我們通常使用sigmoid將輸出映射到[0,1]區間中以0.5為界限來分類。
LR是一個傳統的二分類模型,它也可以用于多分類任務,其基本思想是:將多分類任務拆分成若干個二分類任務,然后對每個二分類任務訓練一個模型,最后將多個模型的結果進行集成以獲得最終的分類結果。常用的策略有One VS One和One VS All。
softmax回歸是LR在多分類的推廣。https://www.cnblogs.com/lianyingteng/p/7784158.html
?
Softmax的求導
softmax的計算與數值穩定性
?
?
Softmax回歸
多分類LR與Softmax回歸
有了多分類的處理方法,那么我們什么時候該用多分類LR?什么時候要用softmax呢?
總的來說,若待分類的類別互斥,我們就使用Softmax方法;若待分類的類別有相交,我們則要選用多分類LR,然后投票表決。
?
?
參考文章:https://blog.csdn.net/u014313009/article/details/51043064
https://www.cnblogs.com/lianyingteng/p/7784158.html
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的【机器学习】 二次损失函数的不足及交叉熵损失softmax详解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习基础知识】各类熵总结
- 下一篇: 【机器学习】 ID3,C4.5,CART