叫我如何相信你?聊一聊语言模型的校准
模型校準這個話題可能比較小眾,但卻真實地困擾了我們很長時間。碰巧最近看到arxiv上這篇論文[1],就決定寫一篇文章跟大家交流。論文很新,十天前作者剛更新了一版。
論文截圖什么是校準
在實際的NLP業務場景中,我們經常遇到一個問題就是調閾值。因為我們需要把模型輸出層sigmoid函數或者softmax函數給出的連續的預測概率轉化成離散輸出,所以需要一個閾值來決定你如何相信你的模型。特別是當應對的領域(domain)復雜多樣,而訓練數據來源比較單一的時候,如何選擇一個比較平衡的閾值是一個尤為棘手的問題。
如果模型給出的概率值和經驗概率是匹配的,即模型是“已校準的(calibrated)”,則會大大方便模型的使用和部署。舉一個直觀的例子,如果在2分類任務里取出100個模型預測概率為0.7的樣本,其中有70個的真實標簽為1,則稱為模型的后驗概率和經驗概率是匹配的。這這個情況下,使用者可以對模型給出的概率值的誤判風險有直接的判斷。
期望校準誤差ECE
對校準程度的度量其實是有一套框架的,這篇文章采用的是稱為期望校準誤差(expected calibration error, ECE)[2]的指標。這個指標的操作起來很簡單,先把0-1概率空間平均分成個桶,每個桶里置入模型預測概率落在桶區間的樣本。然后考察桶里樣本的平均預測概率和正確率之間的誤差。
ECE的計算公式寫在下面,其中為樣本總數,為第個桶中的樣本。
下圖是ECE原論文里的第一張插圖,比較直觀。隨著網絡規模越來越大,擬合能力越來越強,網絡的概率分布都有集中化的趨勢。雖然絕對誤差也越來越小,但網絡給出概率的含義卻對人越來越模糊,ECE(紅色面積)也越來越大。
ECE示意圖。第一行是模型輸出的概率直方圖,可以看出更深的網絡輸出的概率遠比淺層網絡集中(over confident)。第二行是模型分桶后的ECE。可以看出大網絡的總體誤差Error是小的,但ECE明顯是大的。完美的ECE是灰線表示的對角線。在上圖中,評估的是對單一領域(CIFAR-100)的ECE,這在分類問題中已經比較足夠。但在一些特殊的場景,例如NLP的匹配問題上就需要考慮跨域問題。我們希望訓練得到的是一個可以評價語義相似度的通用模型,它在不同領域的應該具有類似的表現。
語言模型的ECE
目前使用的語言模型(例如BERT)已經遠遠超過了resnet級別的卷積神經網絡。這篇論文就探究了一下他們的ECE大概是什么情況,以及有哪些方法可以降低ECE。整篇文章選用了下圖所示規模從小到大的四個模型,分別是帶attention的LSTM(DA),經典匹配模型ESIM,BERT和Roberta。其中后兩種是預訓練語言模型,前兩種模型不經過預訓練。
本文選用的四種模型用來做實驗的數據集有三組,第一組是NLI任務的兩個著名數據集SNLI[3]和MNLI[4];第二組是語義相似性的著名數據集Quora Question Pairs(QQP)和TwitterPPDB;第三組是常識推理領域的兩個數據集Situations with Ad- versarial Generations(SWAG)和HellaSWAG (HSWAG)。在每組任務上,第一個數據集都作為原始領域,劃分訓練集、驗證集和測試集,然后在測試集上考查ECE,這種實驗稱為in domain(ID);而第二個數據集則作為跨領域(out of domain,OD)評價的依據。
在不做任何額外校準的情況下,四個模型在三組數據上的結果如下。主要的結論有以下幾個:
越大的模型精度越好,即Accuracy高
除了NLI任務外,其他任務的ID ECE都是大模型好
除了語義相似度任務外,其他任務的OD ECE也是大模型好
綜合來看,預訓練語言模型有著更好的ECE表現。而且,訓練更充分的RoBERTa模型要優于同等規模的BERT模型。這個結果并不令人意外,預訓練語言模型的優越性已經在太多場合被印證。另外,大家選模型的時候不要猶豫了,能RoBERTa就不要BERT,萬不得已才LSTM。
校準的方法
雖然開箱即用的語言模型已經達到了比較好的校準水平,但還是有一些辦法來進一步強化校準。這篇論文提到的校準方法核心都是把標簽軟化,避免模型產生盲目自信的情況。他們探究的做法有兩種
溫度放縮
標簽平滑
溫度放縮我們在Beam Search那一篇有講到,通過提高softmax的溫度,可以讓輸出概率分布軟化。標簽平滑比較值得講一下,如果給出一個硬標簽來訓練,以分類為例,損失函數通常是(binary) cross entropy,這種訓練策略其實是最大似然估計(maximum likelihood estimation,MLE)。而標簽軟化首先是先選定一個超參數,只將的概率分配給真實標簽,而把剩下的概率平分給其他非真實類別。訓練的時候不再優化交叉熵損失函數,而是優化KL散度,來讓模型輸出概率分布符合平滑后的標簽概率分布。
the one-hot target [1, 0, 0] is transformed into [0.9, 0.05, 0.05] when α = 0.1
校準后的結果如下圖所示。這個表格稍微有點復雜,首先每組任務分為ID和OD兩種類型,每個類型又分為普通MLE訓練和標簽平滑后的訓練兩種方式,每種訓練方式又分為后處理(post-processed)和不后處理(out-of-the-box)。為了方便大家閱讀,作者給單元格圖上了顏色,顏色越深說明ECE越小,即模型的校準性越好。
校準后的結果首先可以看出跟不校準時一樣,RoBERTa比BERT好,所以后面我們只分析RoBERTa,需要特別注意的是這兩個模型的結論并不完全一致。對于RoBERTa比較重要的結論有:
溫度放縮校準是很有效果的,不管是ID還是OD場景,校準后的ECE都有明顯下降
標簽平滑效果在ID情況下較差,在OD的后兩組場景,特別是常識推理場景比較有效
總結
這篇論文很短,但講的東西對于實際工程還算比較實用,尤其是ECE指標對我們評估模型有一定的指導作用。
參考資料
[1]
Calibration of Pre-trained Transformers: https://arxiv.org/abs/2003.07892
[2]On Calibration of Modern Neural Networks: https://arxiv.org/pdf/1706.04599.pdf
[3]SNLI數據集: https://nlp.stanford.edu/pubs/snli_paper.pdf
[4]MNLI數據集: https://www.aclweb.org/anthology/N18-1101/
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,請回復“知識星球”喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的叫我如何相信你?聊一聊语言模型的校准的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 这三篇论文开源了!何恺明等人的Point
- 下一篇: 【科普】国内外高质量数据科学竞赛平台有哪