#Paper Reading# Why Should I Trust You? Explaining the Predictions of Any Classifier
論文題目: "Why Should I Trust You?" Explaining the Predictions of Any Classifier
論文地址: https://dl.acm.org/citation.cfm?Id=2939778
論文發表于: KDD 2016(CCF A類會議)
論文大體內容:
本文主要提出了LIME(Local Interpretable Model-agnostic Explanations)方法,來對任意的分類/回歸模型的預測結果進行“解釋”(特征重要性),是一種模型無關的方法;
Motivation:
現在DNN等深層模型出現后,帶來了效果的提升,但同時帶來了模型的不可解釋性,深度學習訓練出來的模型完全就是個“黑盒子”。在很多應用場景中,模型如果不具有解釋性,完全無法應用,如醫學、律師等領域。所以本文致力于提出一種模型無關的解釋模型,用于解釋“黑盒子”的輸出;
Contribution:
本文主要包括3個貢獻點:
①提出LIME算法,可解釋任何模型的輸出結果;
②提出SP-LIME(Submodular pick-LIME)算法,以盡量少的樣本覆蓋盡量多的特征,以便人工觀察較少的樣本,即可大致判斷模型是否可信;
③通過實驗驗證算法的可行性與有效性;
1. 對“黑盒子”的可解釋性,其實就是體現在feature importance中,TopN個重要的特征就能很好的對結果進行解釋,如本文中對一個人是否有“Flu”的預測:
2. 本文提出的LIME算法,主要原理是這樣的:
經過一個復雜的模型,可以劃分出紅色和藍色區域兩類。當我們要解釋加粗的?時,很難通過解釋全局來解釋這個點。所以這里LIME使用focus局部的方法,做一個?附近點的采樣,從而學習到一個簡單的線性模型(虛線表示),那么這個簡單的線性模型就是我們的解釋模型。?
3. 本文為了簡單,LIME算法都用線性回歸算法,對每個sample x,對其它的sample z的特征進行采樣(取其中某部分feature),并且以z到x的歸一化距離作為sample z的weight,距離(text用cosine值,image用超像素的L2值)越近,weight越大,學習一個線性回歸模型;
4. SP-LIME,使用類MMR的方法來挑選盡量少的樣本覆蓋盡量多的特征,這是NP-Hard問題,所以這里使用貪心思想來獲得局部最優解;
實驗
5. 這里的實驗設計主要為了解決下面6個問題:
①LIME結果是否準確;
②解釋能否讓人信任;
③解釋能否有助于評測整個模型;
④使用LIME后用戶是否能選擇最好的分類器;
⑤無經驗的人類能否根據LIME的結果提升模型效果;
⑥解釋能否給出模型判斷的關鍵依據;
6. Dataset
①Books商品評論信息;
②DVDs商品評論信息;
7. Baseline
①LR;
②NN;
③RF;
④SVM;
8. Metric
①Recall;
②F1;
9. 實驗結果
①對于問題“LIME結果是否準確”,這里直接用LR和Decision Tree兩種模型來實驗,限定只選擇10個feature,發現LIME選擇的feature相比其他方法能取得更好的效果;
②去除掉隨機的25%的feature,然后如果預測結果變了,則預測不可信,即原模型不可信。使用模型和解釋模型跑2次實驗,分別是全部feature,和隨機去掉25%作為不可信的feature,這2次模型的結果一樣則prediction可信,否則prediction不可信(實驗的ground true);解釋模型的linear approximation結果要是改變了,則不可信,否則可信(實驗的prediction);
③用戶對于多個模型(自動化精度差別不大),怎么根據解釋來評估整個模型的效果。這里作者添加了10個人工的噪聲feature,如果重要性TopN的特征中出現了這些噪聲feature,則說明這個模型不可信;
④與實驗③有點類似,這里用的是文本分類來實驗,通過看TopN的重要feature,來協助人工判斷哪個模型更好;經過分析svm的重要特征,發現一些并無關的詞語出現在Top的位置,說明這樣訓練出來的模型是不可靠的,這需要重新清洗樣本,重新訓練;
⑤不斷刪除不重要的feature,作者發現能提升模型效果;
⑥在圖像分類中,作者發現模型把哈士奇predict為狼的依據是雪地,這個是重要的特征點;
參考資料:?
[1] https://blog.csdn.net/evilhunter222/article/details/80043251
[2] https://zhuanlan.zhihu.com/p/58099941
[3] https://github.com/marcotcr/lime
以上均為個人見解,因本人水平有限,如發現有所錯漏,敬請指出,謝謝!
總結
以上是生活随笔為你收集整理的#Paper Reading# Why Should I Trust You? Explaining the Predictions of Any Classifier的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Explaining away
- 下一篇: 一个解决MacBook Pro 突然连接