边框回归的损失函数_分类损失函数,边框回归损失函数
(1)交叉熵?fù)p失函數(shù)
蔡杰:簡(jiǎn)單的交叉熵,你真的懂了嗎??zhuanlan.zhihu.com1.1信息量
一條信息的信息量大小和他的不確定性有很大的關(guān)系,需要很多外部信息才能確定的信息,我們稱之為這計(jì)劃的信息量很大。
我們將事件x0的信息量定義如下,(其中p(x0)表示事件x0發(fā)生的概率:則信息量定義為:
由圖像可以看出,事件發(fā)生的概率越大,包含的信息量越少1.2熵的概念
信息量是針對(duì)單個(gè)事件來說的,但是一件事有多種發(fā)生的可能,擲色子可能就有六種情況發(fā)生。因此熵表示的的是隨機(jī)變量不確定的度量,是對(duì)所有可能事件產(chǎn)生的信息量的期望。
表示所有事件可能發(fā)生的情況二分類的時(shí)候,只有兩種情況:
1.3相對(duì)熵
相對(duì)熵又被稱為KL散度,用于衡量同一隨機(jī)變量x的p(x)和q(x)兩個(gè)分布差異,其中p(x) 描述樣本的真實(shí)分布,q(x)描述的是預(yù)測(cè)的分布,在網(wǎng)絡(luò)的學(xué)習(xí)的過程中q(x)需要不斷的去學(xué)習(xí)來擬合準(zhǔn)確的p(x)的分布。
其中KL的值越小表示兩個(gè)分布越接近
1.4交叉熵
第一部分是一個(gè)常數(shù)部分可以推導(dǎo)交叉熵?fù)p失函數(shù)1.5使用交叉熵而不用平方差
當(dāng)使用sigmoid做為激活函數(shù)的時(shí)候,平方差損失函數(shù)有時(shí)不能滿足誤差越大,權(quán)值調(diào)整越快,,但是交叉熵?fù)p失函數(shù)卻可以很好的滿足這一點(diǎn)
(2)smooth_L1損失函數(shù)
作者:尹相楠
鏈接:https://www.zhihu.com/question/58200555/answer/621174180
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請(qǐng)聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請(qǐng)注明出處。
為了從兩個(gè)方面限制梯度:
考察如下幾種損失函數(shù),其中
為預(yù)測(cè)框與 groud truth 之間 elementwise 的差異:損失函數(shù)對(duì) 的導(dǎo)數(shù)分別為:
觀察 (4),當(dāng) 增大時(shí) 損失對(duì) 的導(dǎo)數(shù)也增大。這就導(dǎo)致訓(xùn)練初期,預(yù)測(cè)值與 groud truth 差異過于大時(shí),損失函數(shù)對(duì)預(yù)測(cè)值的梯度十分大,訓(xùn)練不穩(wěn)定。
根據(jù)方程 (5), 對(duì) 的導(dǎo)數(shù)為常數(shù)。這就導(dǎo)致訓(xùn)練后期,預(yù)測(cè)值與 ground truth 差異很小時(shí), 損失對(duì)預(yù)測(cè)值的導(dǎo)數(shù)的絕對(duì)值仍然為 1,而 learning rate 如果不變,損失函數(shù)將在穩(wěn)定值附近波動(dòng),難以繼續(xù)收斂以達(dá)到更高精度。
最后觀察 (6), 在 較小時(shí),對(duì) 的梯度也會(huì)變小,而在 很大時(shí),對(duì) 的梯度的絕對(duì)值達(dá)到上限 1,也不會(huì)太大以至于破壞網(wǎng)絡(luò)參數(shù)。 完美地避開了 和 損失的缺陷。其函數(shù)圖像如下:
由圖中可以看出,它在遠(yuǎn)離坐標(biāo)原點(diǎn)處,圖像和
loss 很接近,而在坐標(biāo)原點(diǎn)附近,轉(zhuǎn)折十分平滑,不像 loss 有個(gè)尖角,因此叫做 smooth loss。總結(jié)
以上是生活随笔為你收集整理的边框回归的损失函数_分类损失函数,边框回归损失函数的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《三体》电视剧最新预告发布,今晚在 CC
- 下一篇: 开榨油店的失败教训_想开水果店没有经验?