當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习中的损失函数（着重比较：hinge loss vs softmax loss）

發布時間：2023/12/13 编程问答 39 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习中的损失函数（着重比较：hinge loss vs softmax loss）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

https://blog.csdn.net/u010976453/article/details/78488279

1. 損失函數

損失函數（Loss function）是用來估量你模型的預測值?f(x)

θ?=argminθ1N∑i=1NL(yi,f(xi;θ))+λ?Φ(θ)θ?=arg?minθ1N∑i=1NL(yi,f(xi;θ))+λ?Φ(θ)

其中，前面的均值函數表示的是經驗風險函數，L

2. 常用損失函數

常見的損失誤差有五種：?
1.?鉸鏈損失（Hinge Loss）：主要用于支持向量機（SVM）中；?
2.?互熵損失（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回歸與Softmax 分類中；?
3.?平方損失（Square Loss）：主要是最小二乘法（OLS）中；?
4.?指數損失（Exponential Loss）?：主要用于Adaboost 集成學習算法中；?
5.?其他損失（如0-1損失，絕對值損失）

2.1 Hinge loss

Hinge loss 的叫法來源于其損失函數的圖形，為一個折線，通用的函數表達式為：

L(mi)=max(0,1?mi(w))L(mi)=max(0,1?mi(w))

在機器學習中，Hing 可以用來解?間距最大化?的問題，最有代表性的就是SVM 問題，最初的SVM 優化函數如下：?

argminw,ζ12||w||2+C∑iζist.?yiwTxi≥1?ζiζi≥0argminw,ζ12||w||2+C∑iζist.?yiwTxi≥1?ζiζi≥0

ζi≥1?yiwTxiζi≥1?yiwTxi

J(w)=12||w||2+C∑imax(0,1?yiwTxi)=12||w||2+C∑imax(0,1?mi(w))=12||w||2+C∑iLHinge(mi)J(w)=12||w||2+C∑imax(0,1?yiwTxi)=12||w||2+C∑imax(0,1?mi(w))=12||w||2+C∑iLHinge(mi)

2.2 Softmax Loss

有些人可能覺得邏輯回歸的損失函數就是平方損失，其實并不是。平方損失函數可以通過線性回歸在假設樣本是高斯分布的條件下推導得到，而邏輯回歸得到的并不是平方損失。在邏輯回歸的推導中，它假設樣本服從伯努利分布（0-1分布），然后求得滿足該分布的似然函數，接著取對數求極值等等。而邏輯回歸并沒有求似然函數的極值，而是把極大化當做是一種思想，進而推導出它的經驗風險函數為：最小化負的似然函數（即maxF(y,f(x))→min?F(y,f(x)))

log損失函數的標準形式：?

L(Y,P(Y|X))=?logP(Y|X)L(Y,P(Y|X))=?log?P(Y|X)

邏輯回歸的P(Y=y|x)

其中?

hθ(x)=11+exp(?f(x))hθ(x)=11+exp?(?f(x))

2.3 Squared Loss

最小二乘法是線性回歸的一種，OLS將問題轉化成了一個凸優化問題。在線性回歸中，它假設樣本和噪聲都服從高斯分布（中心極限定理），最后通過極大似然估計（MLE）可以推導出最小二乘式子。最小二乘的基本原則是：最優擬合直線應該是使各點到回歸直線的距離和最小的直線，即平方和最小。

平方損失（Square loss）的標準形式如下：?

L(Y,f(X))=(Y?f(X))2L(Y,f(X))=(Y?f(X))2

當樣本個數為n

L(Y,f(X))=∑i=1n(Y?f(X))2L(Y,f(X))=∑i=1n(Y?f(X))2

在實際應用中，我們使用均方差（MSE）作為一項衡量指標，公式如下：?

MSE=1n∑i=1n(Yi~?Yi)2MSE=1n∑i=1n(Yi~?Yi)2

2.4 Exponentially Loss

損失函數的標準形式是：?

L(Y,f(X))=exp[?Yf(X)]L(Y,f(X))=exp?[?Yf(X)]

fm(x)=fm?1(x)+αmGm(x)fm(x)=fm?1(x)+αmGm(x)

argminα,G=∑i=1Nexp[?yi(fm?1(xi)+αG(xi))]arg?minα,G=∑i=1Nexp?[?yi(fm?1(xi)+αG(xi))]

L(Y,f(X))=12∑i=1nexp[?yif(xI)]L(Y,f(X))=12∑i=1nexp?[?yif(xI)]

2.5 其他損失

0-1 損失函數?

L(Y,f(X))={01ifY≠f(X)ifY=f(X)L(Y,f(X))={0ifY≠f(X)1ifY=f(X)

L(Y,f(X))=|Y?f(X)|L(Y,f(X))=|Y?f(X)|

上述幾種損失函數比較的可視化圖像如下：

3. Hinge loss 與 Softmax loss

SVM和Softmax分類器是最常用的兩個分類器。

SVM將輸出?f(xi,W)f(xi,W)?作為每個分類的評分(沒有規定的標準,難以直接解釋)；

與SVM 不同，Softmax 分類器可以理解為邏輯回歸分類器面對多個分類的一般話歸納，其輸出(歸一化的分類概率)更加直觀,且可以從概率上解釋。

在Softmax分類器中, 函數映射f(xi,W)

Li=?log(efyi∑jefj)Li=?log?(efyi∑jefj)

Li=?fyi+log∑jfjLi=?fyi+log?∑jfj

概率論解釋:?

P(yi|xi,W)=efyi∑jefjP(yi|xi,W)=efyi∑jefj

解釋為給定數據xi

實際操作注意事項——數值穩定: 編程實現softmax函數計算的時候,中間項efyi

P(yi|xi,W)=CefyiC∑jefj=efyi+logC∑jefj+logCP(yi|xi,W)=CefyiC∑jefj=efyi+log?C∑jefj+log?C

C的值可自由選擇,不會影響計算結果,通過這個技巧可以提高計算中的數值穩定性.通常將C設為:?

logC=?maxfjlog?C=?maxfj

該技巧就是將向量f中的數值進行平移,使得最大值為0。

準確地說，SVM分類器使用的是鉸鏈損失（hinge loss），有時候又被稱為最大邊界損失（max-margin loss）。Softmax分類器使用的是交叉熵損失（corss-entropy loss）。Softmax分類器的命名是從softmax函數那里得來的，softmax函數將原始分類評分變成正的歸一化數值，所有數值和為1，這樣處理后交叉熵損失才能應用。

Example：圖像識別

針對給出的圖像，SVM分類器可能給你的是一個[?2.85,0.86,0.28]

這里Hinge Loss計算公式為：?

Li=∑j≠yimax(0,f(xi,W)j?f(xi,W))yi+ΔLi=∑j≠yimax(0,f(xi,W)j?f(xi,W))yi+Δ

設?xi

Li=max(0,?2.85?0.28+1)+max(0,0.86?0.28+1)=1.58Li=max(0,?2.85?0.28+1)+max(0,0.86?0.28+1)=1.58

而Softmax 損失則是對向量?fyi

Li=?log(efyi∑jefj)=?log(0.353)≈1.04Li=?log?(efyi∑jefj)=?log?(0.353)≈1.04

4.總結

機器學習作為一種優化方法，學習目標就是找到優化的目標函數——損失函數和正則項的組合；有了目標函數的“正確的打開方式”，才能通過合適的機器學習算法求解優化。

不同機器學習方法的損失函數有差異，合理理解各種損失優化函數的的特點更有利于我們對相關算法的理解。

參考文獻

1. CS231n 課程?
2. 聊聊機器學習中的損失函數?
3. 知乎專欄-智能單元?
4. 機器學習-損失函數

轉載于:https://www.cnblogs.com/DjangoBlog/p/8691941.html

總結

以上是生活随笔為你收集整理的机器学习中的损失函数（着重比较：hinge loss vs softmax loss）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：分期乐买手机靠谱吗？分期乐买手机这些要留
下一篇： flex label 换行