【深度学习】Focal Loss 与 GHM——解决样本不平衡问题
Focal Loss 與 GHM
Focal Loss
Focal Loss 的提出主要是為了解決難易樣本數(shù)量不平衡(注意:這有別于正負(fù)樣本數(shù)量不均衡問(wèn)題)問(wèn)題。下面以目標(biāo)檢測(cè)應(yīng)用場(chǎng)景來(lái)說(shuō)明。
一些 one-stage 的目標(biāo)檢測(cè)器通常會(huì)產(chǎn)生很多數(shù)量的 anchor box,但是只有極少數(shù)是正樣本,導(dǎo)致正負(fù)樣本數(shù)量不均衡。這里假設(shè)我們計(jì)算分類損失函數(shù)為交叉熵公式。
由于在目標(biāo)檢測(cè)中,大量的候選目標(biāo)都是易分樣本,這些樣本的損失很低,但是由于數(shù)量極不平衡,易分樣本數(shù)量相對(duì)來(lái)說(shuō)太多,最終主導(dǎo)了總的損失,但是模型也應(yīng)該關(guān)注那些難分樣本(難分樣本又分為普通難分樣本和特別難分樣本,后面即將講到的GHM就是為了解決特別難分樣本的問(wèn)題)。
基于以上兩個(gè)場(chǎng)景中的問(wèn)題,Focal Loss 給出了很好的解決方法:
GHM
Focal Loss存在一些問(wèn)題:
- 如果讓模型過(guò)多關(guān)注 難分樣本 會(huì)引發(fā)一些問(wèn)題,比如樣本中的離群點(diǎn)(outliers),已經(jīng)收斂的模型可能會(huì)因?yàn)檫@些離群點(diǎn)還是被判別錯(cuò)誤,總而言之,我們不應(yīng)該過(guò)多關(guān)注易分樣本,但也不應(yīng)該過(guò)多關(guān)注難分樣本;
- \(\alpha\) 與 \(\gamma\) 的取值全從實(shí)驗(yàn)得出,且兩者要聯(lián)合一起實(shí)驗(yàn),因?yàn)樗鼈兊娜≈禃?huì)相互影響。
幾個(gè)概念:
梯度模長(zhǎng)g:\(g\) 正比于檢測(cè)的難易程度,\(g\) 越大則檢測(cè)難度越大,\(g\) 從交叉熵?fù)p失求梯度得來(lái)
\[ g=|p-p^*|= \begin{cases} 1-p, & \text{if p* = 1} \\ p, & \text{if p* = 0} \end{cases} \]
\(p\) 是模型預(yù)測(cè)的概率,\(p^*\) 是 Ground-Truth 的標(biāo)簽(取值為1或者0);
\(g\) 正比于檢測(cè)的難易程度,\(g\) 越大則檢測(cè)難度越大;
梯度模長(zhǎng)與樣本數(shù)量的關(guān)系:梯度模長(zhǎng)接近于 0 時(shí)樣本數(shù)量最多(這些可歸類為易分樣本),隨著梯度模長(zhǎng)的增長(zhǎng),樣本數(shù)量迅速減少,但是當(dāng)梯度模長(zhǎng)接近于 1 時(shí)樣本數(shù)量也挺多(這些可歸類為難分樣本)。如果過(guò)多關(guān)注難分樣本,由于其梯度模長(zhǎng)比一般樣本大很多,可能會(huì)降低模型的準(zhǔn)確度。因此,要同時(shí)抑制易分樣本和難分樣本!
抑制方法之梯度密度 \(G(D)\): 因?yàn)橐追謽颖竞吞貏e難分樣本數(shù)量都要比一般樣本多一些,而我們要做的就是衰減 單位區(qū)間數(shù)量多的那類樣本,也就是物理學(xué)上的密度概念。
\[ GD(g) = \frac{1}{l_{\epsilon}}\sum_{k=1}^{N}\delta_{\epsilon}(g_k, g) \]
\(\delta_{\epsilon}(g_k, g)\) 表示樣本 \(1 \sim N(樣本數(shù)量)\) 中,梯度模長(zhǎng)分布在 \((g-\frac{\epsilon}{2}, g+\frac{\epsilon}{2} )\) 范圍內(nèi)的樣本個(gè)數(shù),\(l_{\epsilon}(g)\) 代表了 \((g-\frac{\epsilon}{2}, g+\frac{\epsilon}{2} )\) 區(qū)間的長(zhǎng)度;
最后對(duì)每個(gè)樣本,用交叉熵 \(CE\) \(\times\) 該樣本梯度密度的倒數(shù)即可。
分類問(wèn)題的GHM損失:
\[ L_{GHM-C} = \sum_{i=1}^{N}\frac{L_{CE}(p_i, p_i^*)}{GD(g_i)} \]
回歸問(wèn)題的GHM損失:
\[ L_{GHM-R} = \sum_{i=1}^N \frac{ASL_1(d_i)}{GD(gr_i)} \]
其中,\(ASL_1(d_i)\) 為修正的 smooth L1 Loss。
抑制效果:
參考資料:
5分鐘理解Focal Loss與GHM-解決樣本不平衡利器——知乎
轉(zhuǎn)載于:https://www.cnblogs.com/xxxxxxxxx/p/11602248.html
總結(jié)
以上是生活随笔為你收集整理的【深度学习】Focal Loss 与 GHM——解决样本不平衡问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: django--模板继承、组件、自定义标
- 下一篇: knn人脸识别判断_WEEK1_LRam