當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Calibration: 一个工业价值极大，学术界却鲜有研究的问题！

發(fā)布時(shí)間：2024/7/5 编程问答 64 豆豆

生活随笔收集整理的這篇文章主要介紹了 Calibration: 一个工业价值极大，学术界却鲜有研究的问题！小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文 | kid丶(知乎作者)
編 | 夕小瑤

盡管深度學(xué)習(xí)給工業(yè)界帶來了一波上線春天，但是總有很多比較難的業(yè)務(wù)，模型反復(fù)迭代后準(zhǔn)確率依然達(dá)不到預(yù)期的產(chǎn)品標(biāo)準(zhǔn)，難以滿足用戶期望。

以下為工業(yè)界常見討（si）論（b）場景：

R&D小哥哥一頓調(diào)參輸出，RoBERTa都用上了，終于將模型從80%準(zhǔn)確率提升到了90%，但是PM小姐姐說，“不行！咱們必須要達(dá)到95%準(zhǔn)確率才能上線！否則就是對(duì)用戶和產(chǎn)品逼格的傷害！”

怎么辦呢？

熟悉工業(yè)界上線套路的小伙伴馬上就能給出答案，那就是 提高模型決策的閾值！ PM小姐姐只是根據(jù)產(chǎn)品標(biāo)準(zhǔn)定義了模型準(zhǔn)確率（或者說精確率，precision），但是并不在乎召回率有多高（畢竟模型只要沒上線，就相當(dāng)于召回率為0）。

那么基于上面的思路：假如模型的softmax輸出可靠，比如二分類場景，模型softmax之后1類的輸出是0.92，能表征模型有92%的把握說這是個(gè)正例，并且模型的這個(gè)把握是精準(zhǔn)的，那么PM小姐姐說要達(dá)到95%準(zhǔn)確率，那我們就瘋狂提高模型的決策閾值就好了，這樣把那些不確定性高的樣本砍掉了，模型準(zhǔn)確率自然就上來了。

然而，神經(jīng)網(wǎng)絡(luò)并不一定這么靠譜，你看模型的測試集輸出的話，卻常常發(fā)現(xiàn)模型要么以99.999的概率輸出來判定正例，要么0.0001的概率輸出來判定負(fù)例，基本沒有樣本落在0.1~0.9區(qū)間內(nèi)。那么這時(shí)候上面的思路就失效了。

那么有沒有辦法讓模型的softmax輸出能真實(shí)的反映決策的置信度呢？ 這個(gè)問題，就被稱為Calibration問題（直譯是叫“校準(zhǔn)”）。

故事要從一篇發(fā)表于2017年的ICML頂會(huì)論文開始，目前這篇論文引用量1001。

論文標(biāo)題：

On Calibration of Modern Neural Networks

鏈接：

https://arxiv.org/pdf/1706.04599.pdf

Arxiv訪問慢的小伙伴可以在【夕小瑤的賣萌屋】后臺(tái)回復(fù)關(guān)鍵詞【0106】下載論文pdf~

神經(jīng)網(wǎng)絡(luò)的 overconfidence

首先，讓咱們來思考一個(gè)普通圖像分類任務(wù)。對(duì)于一張“koala”的圖像，在經(jīng)過神經(jīng)網(wǎng)絡(luò)后會(huì)得到 logits 輸出，經(jīng)過 softmax 層后得到對(duì)各類別的預(yù)測的后驗(yàn)概率，接著我們選擇概率最大的類別（ koala）輸出為最后的預(yù)測類別。這里，最終的預(yù)測類別，其對(duì)應(yīng)的置信度為。在大多情況下，我們只關(guān)心類別的預(yù)測有多準(zhǔn)，根本不 care 置信度是怎樣的。然而，在一些實(shí)際應(yīng)用場景下，置信度的度量也同樣重要。例如：

如上圖，對(duì)于自動(dòng)駕駛中的目標(biāo)識(shí)別任務(wù)，車輛的前方出現(xiàn)了一個(gè)人，神經(jīng)網(wǎng)絡(luò)會(huì)將其識(shí)別成塑料袋，此時(shí)輸出的置信度為50%（低于閾值），則可通過其它傳感器進(jìn)行二次的正確識(shí)別（識(shí)別為人）。但想想看，若神經(jīng)網(wǎng)絡(luò)對(duì)塑料袋預(yù)測的置信度為90%會(huì)怎樣？再例如：

使用 Resnet 模型簡單的對(duì)一些圖片任務(wù)進(jìn)行訓(xùn)練，收斂后的模型對(duì)測試集的平均置信度高達(dá)80%-85%，然而只有將近70%的圖片能被正確分對(duì)（紅色代表分錯(cuò)，綠色代表分對(duì)）。這意味著啥？訓(xùn)練好的模型好像有點(diǎn)盲目自信，即出現(xiàn) overconfidence 現(xiàn)象，或者可以稱為模型的準(zhǔn)確率和置信度不匹配（miscalibration）。

預(yù)期校準(zhǔn)誤差（ECE）

直觀的來看，模型的準(zhǔn)確率應(yīng)當(dāng)和置信度相匹配。一個(gè)完美校準(zhǔn)的模型可定義成如下所示：

即，模型置信度等于概率的條件下模型的預(yù)測為真實(shí)標(biāo)記的概率同樣也為。因此，本文提出一個(gè)新的度量方式叫做 預(yù)期校準(zhǔn)誤差（Expected Calibrated Error, ECE） 來描述模型學(xué)習(xí)的匹配程度：

很簡單，其實(shí)就是將前面那個(gè)完美校準(zhǔn)模型的等式寫成差的期望的形式。我們將期望進(jìn)一步展開可得到：

其中：

這里的代表著一個(gè)個(gè)根據(jù)置信度區(qū)間劃分的一個(gè)個(gè)桶（用來裝樣本的），如下圖所示：

例如，我們將置信區(qū)間平均劃分成5份，然后將樣本按照其置信度挨個(gè)送到對(duì)應(yīng)的桶中，分別計(jì)算每個(gè)桶中的平均置信度和準(zhǔn)確率，兩者的差值（Gap）的期望就是所定義的 ECE。

讀到這的讀者應(yīng)該能逐步體會(huì)本文想干一件啥事了。本文首先引出這樣一個(gè)問題，深度模型在學(xué)習(xí)過程中出現(xiàn)準(zhǔn)確率和置信度的嚴(yán)重不匹配問題，接著提出了一個(gè)合理的評(píng)價(jià)指標(biāo)來描述模型學(xué)習(xí)的匹配程度，所以接下來，它要提出方法來想辦法最小化期望校準(zhǔn)誤差（ECE）。

什么原因?qū)е律窠?jīng)網(wǎng)絡(luò)出現(xiàn)準(zhǔn)確率與置信度不匹配？

然而 ECE 是沒辦法直接最小化的，因此本文嘗試著做一些探索性的實(shí)驗(yàn)來觀察啥因素會(huì)使得模型的 ECE 變大。本文分別從三個(gè)方面上去進(jìn)行實(shí)驗(yàn)：

▲網(wǎng)絡(luò)復(fù)雜度對(duì)ECE的影響

網(wǎng)絡(luò)復(fù)雜度對(duì) ECE 的影響： 首先，作者使用兩個(gè)模型（LeNet和ResNet）分別對(duì)CIFAR-100數(shù)據(jù)集進(jìn)行了訓(xùn)練，準(zhǔn)確率分別為55.1%和69.4%，ResNet 在預(yù)測性能上完爆LeNet。然而，ResNet 置信度（右圖藍(lán)色+紅色部分）的分布和準(zhǔn)確率（右圖藍(lán)色部分）出現(xiàn)了嚴(yán)重的不匹配，導(dǎo)致二者的 Gap （紅色部分）非常大。注意完美校準(zhǔn)模型的分布應(yīng)當(dāng)是藍(lán)色部分剛好和對(duì)角線重合，且沒有紅色 Gap 部分。

▲網(wǎng)絡(luò)的寬度和深度對(duì)ECE的影響

網(wǎng)絡(luò)寬度和深度對(duì) ECE 的影響： 在得知模型復(fù)雜度會(huì)影響模型的 ECE 后，作者緊接著做了網(wǎng)絡(luò)寬度和深度對(duì)模型 ECE 和錯(cuò)誤率（Error）的影響。可以看到，在控制變量前提下，單方面的增加網(wǎng)絡(luò)的深度和寬度均會(huì)使得模型的 Error 降低，這是我們所期望的；然而，ECE也會(huì)同樣的隨著上升。換句話來說，一昧的增加模型復(fù)雜度能有效的提高模型的預(yù)測性能，但同樣帶來的問題是模型的 overconfidence 問題愈發(fā)嚴(yán)重。

▲歸一化和權(quán)重衰減對(duì)ECE的影響

normalization 和 weight decay 對(duì) ECE 的影響： 接著的實(shí)驗(yàn)也是我們?yōu)樘岣吣Ｐ托阅芙?jīng)常使用的 batch normalization 和 loss regularization。左圖： 使用 batch normalization 會(huì)有效的提升模型的性能，但同時(shí)也會(huì)提升模型的 ECE。右圖： weight decay 通常用來調(diào)節(jié) L2 正則的權(quán)重衰減系數(shù)，隨著其系數(shù)的增加相當(dāng)于更多的強(qiáng)調(diào)模型參數(shù) w 要盡可能的小，能有效的防止模型過擬合。該現(xiàn)象表明，模型越不過擬合，其ECE是越小的，也就是說模型越不會(huì) overconfidence ；換句話說，模型對(duì)樣本的擬合程度和對(duì)樣本的置信度是息息相關(guān)的，擬合得越好，置信度越高，所以 ECE 越大。（個(gè)人理解，歡迎評(píng)論區(qū)指正~）

我們?cè)撊绾螌?duì)模型進(jìn)行校準(zhǔn)呢？

作者接下來又做了一個(gè)很有意思的實(shí)驗(yàn)，在CIFAR-100上訓(xùn)練模型500個(gè) epoch，其中在第250個(gè) epoch 和第375個(gè) epoch 下調(diào)節(jié)學(xué)習(xí)率，觀察測試集上的 test error 和 test NLL 的變化情況。Test NLL 的定義如圖中所示，它其實(shí)等價(jià)于測試集上的交叉熵。這個(gè)實(shí)驗(yàn)啥意思呢？我調(diào)節(jié)了一下學(xué)習(xí)率后，測試性能得到了提升，但是測試集上的交叉熵卻出現(xiàn)了過擬合現(xiàn)象（出現(xiàn)了反常的上升現(xiàn)象）。有意思的點(diǎn)來了！ 有人肯定會(huì) argue 不是說好本文研究的是overconfidence嘛？即模型的置信度太高而準(zhǔn)確率過低，這里對(duì) NLL overfitting 豈不是好事，因?yàn)樨?fù)對(duì)數(shù)似然上升了等價(jià)于模型的置信度的降低了。注意：這里的 是對(duì)正確類上的置信度，而前面的實(shí)驗(yàn)是對(duì)預(yù)測類的置信度 ！其實(shí)認(rèn)真想想，是一個(gè)意思，前面之所以 confident 很高的樣本準(zhǔn)確率很低，正是因?yàn)槠湓谡_類別上的置信度太低導(dǎo)致的！！（這部分卡了很久）

該結(jié)果可以表明，模型置信度和準(zhǔn)確率的不匹配很大可能的原因來自于模型對(duì) NLL 的過擬合導(dǎo)致的。所以，咋辦呢？最小化 NLL 唄。

此時(shí)，本文提出在驗(yàn)證集上對(duì)帶 temperature 參數(shù)的 softmax 函數(shù)進(jìn)行校準(zhǔn)。即我們訓(xùn)練完模型后，最小化 NLL 來學(xué)習(xí) temperature 參數(shù)，注意到對(duì)該項(xiàng)的優(yōu)化并不會(huì)影響模型預(yù)測的準(zhǔn)確率，只會(huì)對(duì)模型的 confidence 進(jìn)行校準(zhǔn)。最終的結(jié)果是這樣的，詳細(xì)可參考論文。

討論

上述得實(shí)驗(yàn)結(jié)果我覺得對(duì)很多研究領(lǐng)域都是很有啟發(fā)意義的。

模型的置信度應(yīng)當(dāng)是和準(zhǔn)確率匹配的，這樣的模型我覺得才是有意義的，否則以很高置信度進(jìn)行很離譜的預(yù)測錯(cuò)誤的模型會(huì)讓人感覺這個(gè)模型好像什么都會(huì)、又好像什么都不會(huì)。

ECE 的指標(biāo)是否能反應(yīng)樣本的一些性質(zhì)，例如難易程度、是否為噪聲等。

該文章是間接的去優(yōu)化ECE的，能否有直接優(yōu)化的形式，或者主動(dòng)學(xué)習(xí)里面能否考慮這一點(diǎn)來挑選樣本？

后臺(tái)回復(fù)關(guān)鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】

獲取ACL、CIKM等各大頂會(huì)論文集！

總結(jié)

以上是生活随笔為你收集整理的Calibration: 一个工业价值极大，学术界却鲜有研究的问题！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：打破情感分类准确率 80 分天花板！更加
下一篇：「小公式」平均数与级数