Caffe中的损失函数解析
Caffe中的損失函數(shù)解析
導(dǎo)言
在有監(jiān)督的機(jī)器學(xué)習(xí)中,需要有標(biāo)簽數(shù)據(jù),與此同時(shí),也需要有對(duì)應(yīng)的損失函數(shù)(Loss Function)。
在Caffe中,目前已經(jīng)實(shí)現(xiàn)了一些損失函數(shù),包括最常見的L2損失函數(shù),對(duì)比損失函數(shù),信息增益損失函數(shù)等等。在這里做一個(gè)筆記,歸納總結(jié)Caffe中用到的不同的損失函數(shù),以及分析它們各自適合的使用場景。
歐式距離損失函數(shù)(Euclidean Loss)
輸入:
預(yù)測的值:?y??∈[?∞,+∞], 其中,它們的形狀為:N×C×H×W
標(biāo)簽的值:?y∈[?∞,+∞], 其中,它們的形狀為:N×C×H×W
輸出:
損失的值:Loss=12N∑Nn=1∥y??n?yn∥22
適合場景:
回歸,特別是其回歸的值是實(shí)數(shù)值得時(shí)候。
對(duì)比損失函數(shù)(Contrastive loss)
輸入:
形狀:(N×C×1×1)?特征?a∈[?∞,+∞]
形狀:(N×C×1×1)?特征?b∈[?∞,+∞]
形狀:(N×1×1×1)?相似性?y∈[0,1]
輸出:
形狀:(1×1×1×1)
對(duì)比損失函數(shù)為:?E=12N∑n=1N(y)d+(1?y)max(margin?d,0)
其中?d=∣∣∣∣an?bn∣∣∣∣22.
適合場景:
可以用來訓(xùn)練Siamese網(wǎng)絡(luò)
鉸鏈損失函數(shù)(Hinge Loss)
輸入:
形狀:(N×C×H×W)?預(yù)測值?t∈[?∞,+∞]?代表著預(yù)測?K=CHW?個(gè)類中的得分(注:CHW表示著在網(wǎng)絡(luò)設(shè)計(jì)中,不一定要把預(yù)測值進(jìn)行向量化,只有其拉直后元素的個(gè)數(shù)相同即可。) . 在SVM中,?t?是 D 維特征X∈D×N, 和學(xué)習(xí)到的超平面參數(shù)W∈D×K?內(nèi)積的結(jié)果?XTW?
所以,一個(gè)網(wǎng)絡(luò)如果僅僅只有全連接層 + 鉸鏈損失函數(shù),而沒有其它的可學(xué)習(xí)的參數(shù),那么它就等價(jià)于SVM
標(biāo)簽值:
(N×1×1×1)?標(biāo)簽?l, 是一個(gè)整數(shù)類型的數(shù)?ln∈[0,1,2,...,K?1]?其代表在?K?個(gè)類中的正確的標(biāo)簽。
輸出:
形狀:(1×1×1×1)?
損失函數(shù)計(jì)算:?E=1N∑n=1N∑k=1K[max(0,1?δ{ln=k}tnk)]p,?Lp?范數(shù) (默認(rèn)是?p=1, 是 L1 范數(shù); L2 范數(shù),正如在 L2-SVM中一樣,也有實(shí)現(xiàn)),
其中?δ{條件}={1?1成立不成立
應(yīng)用場景:
在一對(duì)多的分類中應(yīng)用,類似于SVM.
信息增益損失函數(shù)(InformationGain Loss)
輸入:
形狀:(N×C×H×W)?預(yù)測值?p??∈[0,1]?內(nèi), 表示這預(yù)測每一類的概率,共?K=CHW?個(gè)類, 每一個(gè)預(yù)測 概率p??n?的和為1:??n∑k=1Kp??nk=1.
形狀:(N×1×1×1)?標(biāo)簽值:?l, 是一個(gè)整數(shù)值,其范圍是?ln∈[0,1,2,...,K?1]?表示著在?K?個(gè)類中的索引。
形狀:(1×1×K×K)?(可選) 信息增益矩陣?H.作為第三個(gè)輸入?yún)?shù),. 如果?H=I, 則它等價(jià)于多項(xiàng)式邏輯損失函數(shù)
輸出:
形狀:(1×1×1×1)
計(jì)算公式:?E=?1N∑n=1NHlnlog(p??n)=?1N∑n=1N∑k=1KHln,klog(p??n,k), 其中?Hln?表示 行?ln?of?H.
多項(xiàng)式邏輯損失函數(shù)(Multinomial Logistic Loss)
輸入:
形狀:(N×C×H×W)?預(yù)測值?p??∈[0,1]范圍中, 表示這預(yù)測的每一類的概率,共?K=CHW?個(gè)類. 每一個(gè)預(yù)測概率p??n?的和為1:??n∑k=1Kp??nk=1.
形狀:(N×1×1×1)?標(biāo)簽?l, 是一個(gè)整數(shù)值,其范圍是?ln∈[0,1,2,...,K?1]?表示著在?K?個(gè)類中的索引。
輸出:
形狀:(1×1×1×1)?計(jì)算公式:?E=?1N∑n=1Nlog(p??n,ln)
應(yīng)用場景:
在一對(duì)多的分類任務(wù)中使用,直接把預(yù)測的概率分布作為輸入.
Sigmoid 交叉熵?fù)p失函數(shù)(Sigmoid Cross Entropy Loss)
輸入:
形狀:?(N×C×H×W)?得分?x∈[?∞,+∞], 這個(gè)層使用 sigmoid 函數(shù)?σ(.)?映射到概率分布?p??n=σ(xn)∈[0,1]
形狀:(N×C×H×W)?標(biāo)簽?y∈[0,1]
輸出:
應(yīng)用場景:?
預(yù)測目標(biāo)概率分布
Softmax+損失函數(shù)(Softmax With Loss)
輸入:
形狀:(N×C×H×W)?預(yù)測值?x∈[?∞,+∞]?代表預(yù)測每個(gè)類的得分。 共?K=CHW?類. 這一層把得分通過softmax映射到概率分布?p??nk=exp(xnk)/[∑k′exp(xnk′)]
形狀:(N×1×1×1)?標(biāo)簽值 是一個(gè)整數(shù)值,其范圍是?ln∈[0,1,2,...,K?1]?表示著在?K?個(gè)類中的索引。
輸出:
應(yīng)用場景:
在一對(duì)多分類中應(yīng)用。
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的Caffe中的损失函数解析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Caffe实践】 多目标输出探究
- 下一篇: Caffe2——cifar10数据集创建