當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

边框回归的损失函数_分类损失函数，边框回归损失函数

發布時間：2023/12/15 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了边框回归的损失函数_分类损失函数，边框回归损失函数小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

（1）交叉熵損失函數

蔡杰：簡單的交叉熵，你真的懂了嗎？?zhuanlan.zhihu.com

1.1信息量

一條信息的信息量大小和他的不確定性有很大的關系，需要很多外部信息才能確定的信息，我們稱之為這計劃的信息量很大。

我們將事件x0的信息量定義如下，（其中p(x0）表示事件x0發生的概率：則信息量定義為：

由圖像可以看出，事件發生的概率越大，包含的信息量越少

1.2熵的概念

信息量是針對單個事件來說的，但是一件事有多種發生的可能，擲色子可能就有六種情況發生。因此熵表示的的是隨機變量不確定的度量，是對所有可能事件產生的信息量的期望。

表示所有事件可能發生的情況

二分類的時候，只有兩種情況：

1.3相對熵

相對熵又被稱為KL散度,用于衡量同一隨機變量x的p(x)和q(x)兩個分布差異,其中p(x) 描述樣本的真實分布，q(x)描述的是預測的分布，在網絡的學習的過程中q(x)需要不斷的去學習來擬合準確的p(x)的分布。

其中KL的值越小表示兩個分布越接近

1.4交叉熵

第一部分是一個常數部分

可以推導交叉熵損失函數

1.5使用交叉熵而不用平方差

當使用sigmoid做為激活函數的時候，平方差損失函數有時不能滿足誤差越大，權值調整越快，，但是交叉熵損失函數卻可以很好的滿足這一點

（2）smooth_L1損失函數

作者：尹相楠
鏈接：https://www.zhihu.com/question/58200555/answer/621174180
來源：知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。
為了從兩個方面限制梯度：

當預測框與 ground truth 差別過大時，梯度值不至于過大；

當預測框與 ground truth 差別很小時，梯度值足夠小。

考察如下幾種損失函數，其中

為預測框與 groud truth 之間 elementwise 的差異：
損失函數對的導數分別為：
觀察 (4)，當增大時損失對的導數也增大。這就導致訓練初期，預測值與 groud truth 差異過于大時，損失函數對預測值的梯度十分大，訓練不穩定。
根據方程 (5)，對的導數為常數。這就導致訓練后期，預測值與 ground truth 差異很小時，損失對預測值的導數的絕對值仍然為 1，而 learning rate 如果不變，損失函數將在穩定值附近波動，難以繼續收斂以達到更高精度。
最后觀察 (6)，在較小時，對的梯度也會變小，而在很大時，對的梯度的絕對值達到上限 1，也不會太大以至于破壞網絡參數。完美地避開了和損失的缺陷。其函數圖像如下：

由圖中可以看出，它在遠離坐標原點處，圖像和

loss 很接近，而在坐標原點附近，轉折十分平滑，不像 loss 有個尖角，因此叫做 smooth loss。

總結

以上是生活随笔為你收集整理的边框回归的损失函数_分类损失函数，边框回归损失函数的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：《三体》电视剧最新预告发布，今晚在 CC
下一篇：开榨油店的失败教训_想开水果店没有经验？