可解释性lime
區(qū)分信任的兩個(gè)不同的(但相關(guān)的)定義很重要:
(1)信任預(yù)測(cè),即用戶是否充分信任單個(gè)預(yù)測(cè),以便基于該預(yù)測(cè)采取一些行動(dòng);
(2)信任模型,即用戶是否信任模型在部署時(shí)以合理的方式運(yùn)行。
這篇文章提出為單個(gè)預(yù)測(cè)提供解釋作為“信任預(yù)測(cè)”問題的解決方案,并選擇多個(gè)這樣的預(yù)測(cè)(和解釋)作為“信任模型”問題的解決方案。我們的主要貢獻(xiàn)總結(jié)如下。
?LIME,一種算法,通過使用可解釋的模型對(duì)其進(jìn)行局部近似,以忠實(shí)的方式解釋任何分類器或回歸器的預(yù)測(cè)。
?SP-LIME,一種通過子模塊優(yōu)化選擇一組具有代表性的實(shí)例和解釋來解決“信任模型”問題的方法。
通過“解釋預(yù)測(cè)”,我們指的是呈現(xiàn)文本或視覺偽影,這些偽影能夠定性地理解實(shí)例組件(例如文本中的單詞、圖像中的補(bǔ)丁)與模型預(yù)測(cè)之間的關(guān)系。
圖1說明了解釋單個(gè)預(yù)測(cè)的過程。很明顯,如果能提供清晰的解釋,醫(yī)生在模型的幫助下更容易做出決定。在這種情況下,解釋是一個(gè)帶有相對(duì)權(quán)重的癥狀列表-這些癥狀要么對(duì)預(yù)測(cè)有貢獻(xiàn)(綠色),要么是對(duì)預(yù)測(cè)不利的證據(jù)(紅色)。
圖1:解釋個(gè)別預(yù)測(cè)。一個(gè)模型預(yù)測(cè)一個(gè)病人患有流感,lime強(qiáng)調(diào)病人病史中的哪些癥狀導(dǎo)致了這種預(yù)測(cè)。打噴嚏和頭痛被認(rèn)為是導(dǎo)致“流感”預(yù)測(cè)的因素,而“沒有疲勞”則是反對(duì)的證據(jù)。有了這些,醫(yī)生就可以對(duì)模型的預(yù)測(cè)做出明智的決定。(綠色的特征促進(jìn)預(yù)測(cè)流感,紅色的特征阻礙預(yù)測(cè)流感)
如果成百上千的特征對(duì)一個(gè)預(yù)測(cè)有很大的貢獻(xiàn),那么期望用戶理解為什么做出預(yù)測(cè)是不合理的,即使他們可以檢查單個(gè)權(quán)重。這一要求還意味著解釋應(yīng)該容易理解——對(duì)于模型所使用的特性來說,這并不一定正確。
因此,解釋中的“輸入變量”可能與模型使用的特征不同。
我們注意到局部保真度并不意味著全局保真度:全局重要的特性在局部環(huán)境中可能并不重要,反之亦然。雖然全局保真度意味著局部保真度,但呈現(xiàn)可解釋的全局忠實(shí)解釋仍然是復(fù)雜模型的挑戰(zhàn)。
lime的總體目標(biāo)是確定一個(gè)可解釋的模型,使得可以在局部解釋分類器。
這里我們關(guān)注稀疏線性模型作為解釋,并使用擾動(dòng)執(zhí)行搜索。
圖3:展示lime方法的玩具分類的例子。黑盒模型的復(fù)雜決策函數(shù)f(lime不知道)用藍(lán)色/粉色背景表示,線性模型無法很好地逼近。鮮亮的紅十字是正在解釋的例子。LIME對(duì)實(shí)例進(jìn)行采樣,使用f獲取預(yù)測(cè),并通過與被解釋實(shí)例的接近程度(這里用大小表示)來衡量它們的權(quán)重(距離越近,權(quán)重越大)。虛線是在局部(但不是全局)學(xué)習(xí)的可靠的解釋。
在“基督教和無神論”的例子中,對(duì)一個(gè)例子的解釋表明,預(yù)測(cè)是出于相當(dāng)武斷的原因(單詞“Posting”、“Host”和“Re”與基督教或無神論都沒有關(guān)系)。“張貼”一詞出現(xiàn)在訓(xùn)練集中的22%的例子中,其中99%出現(xiàn)在“無神論”一類中。
從解釋中得到這些見解后,很明顯,這個(gè)數(shù)據(jù)集有嚴(yán)重的問題(僅通過研究原始數(shù)據(jù)或預(yù)測(cè)就不明顯),而且這個(gè)分類器進(jìn)行的評(píng)估是不可信的。問題是什么很清楚,以及可以采取哪些步驟來解決這些問題并訓(xùn)練一個(gè)更可信的分類器。
4、用于解釋模型的子模塊選擇
雖然對(duì)單個(gè)預(yù)測(cè)的解釋為用戶提供了對(duì)分類器可靠性的一些理解,但僅從整體上評(píng)估和評(píng)估模型的信任度是不夠的。我們建議通過解釋一組單獨(dú)的實(shí)例來對(duì)模型進(jìn)行全局性的理解。這種方法仍然與模型無關(guān)。
盡管對(duì)多個(gè)實(shí)例的解釋可能很有見地,但這些實(shí)例需要明智地選擇,因?yàn)橛脩艨赡軟]有時(shí)間檢查大量的解釋。我們用預(yù)算B來代表人類所擁有的時(shí)間和耐心,這個(gè)預(yù)算表示為了理解一個(gè)模型,他們?cè)敢饪炊嗌俜N解釋。給定一組實(shí)例X,我們將pick步驟定義為選擇B個(gè)實(shí)例供用戶檢查的任務(wù)。
此外,這種方法應(yīng)該選擇一組不同的、具有代表性的解釋來向用戶展示,即代表模型全局行為方式的非冗余解釋。
在圖5中,我們展示了一個(gè)玩具示例的矩陣W,其中W=d‘=5,其中W是二進(jìn)制的(為了簡(jiǎn)單起見)。重要性函數(shù)應(yīng)將特征f2的得分高于特征f1,即I2>I1,由于特征f2用于解釋更多實(shí)例。
雖然我們希望選擇包含重要組件的實(shí)例,但在它們向用戶展示的組件中,解釋集不能是多余的,即避免選擇具有類似解釋的實(shí)例。在圖5中,在選擇第二行之后,第三行沒有添加任何值,因?yàn)橛脩粢呀?jīng)看到了特性f2和f3,而最后一行添加了新的特征。選擇第二行和最后一行可以覆蓋幾乎所有的特性。我們?cè)诘仁?#xff08;3)中將這種非冗余覆蓋直覺形式化,其中我們將覆蓋定義為給定W和I的集合函數(shù)c,它計(jì)算在集合中V至少一個(gè)實(shí)例中出現(xiàn)的特征的總重要性。
設(shè) c(V∪{i},W,i)?c(V,W,i)是向集合V添加實(shí)例 i 的邊際覆蓋增益。由于子模塊性,貪婪算法迭代地將具有最高邊際覆蓋增益的實(shí)例添加到解中。我們概述了算法2中pick步驟的這種近似,并稱之為 submodular pick。
5、 模擬用戶實(shí)驗(yàn)
5.1 實(shí)驗(yàn)設(shè)置
我們使用兩個(gè)情緒分析數(shù)據(jù)集(書籍和DVD,各2000個(gè)實(shí)例),其中的任務(wù)是將產(chǎn)品評(píng)論分為正面或負(fù)面。我們將每個(gè)數(shù)據(jù)集分為train(1600個(gè)實(shí)例)和test(400個(gè)實(shí)例)。
為了解釋個(gè)別預(yù)測(cè),我們將我們提出的方法(LIME)與parzen進(jìn)行了比較,對(duì)于parzen,我們以具有最高絕對(duì)梯度的K個(gè)特征作為解釋。我們使用交叉驗(yàn)證為parzen和LIME設(shè)置超參數(shù),并設(shè)置N=15000。我們還與greedy過程(類似于Martens和Provost)進(jìn)行比較,其中我們貪婪地刪除對(duì)預(yù)測(cè)類貢獻(xiàn)最大的特征,直到預(yù)測(cè)發(fā)生變化(或達(dá)到特征的最大值K),以及random過程隨機(jī)選擇K個(gè)特征作為解釋。在我們的實(shí)驗(yàn)中設(shè)置K=10。
對(duì)于應(yīng)用pick程序的實(shí)驗(yàn),我們要么進(jìn)行隨機(jī)選擇(random pick,RP),要么執(zhí)行第4節(jié)中描述的程序(submodular pick,SP)。我們通過添加RP或SP作為前綴來引用pick-explainer組合。
5.2 解釋是否與模型相符?
我們衡量分類器上解釋的忠實(shí)性,分類器本身是可解釋的(稀疏邏輯回歸和決策樹)。特別是,我們訓(xùn)練兩個(gè)分類器,使它們?cè)谌魏螌?shí)例中使用的最大特征數(shù)為10。對(duì)于這樣的模型,我們知道一組真正重要的特性。對(duì)于測(cè)試集上的每個(gè)預(yù)測(cè),我們生成解釋并計(jì)算由解釋恢復(fù)的真正重要特征的分?jǐn)?shù)。我們報(bào)告了圖6和圖7中所有測(cè)試實(shí)例的平均召回率。我們觀察到貪婪方法在logistic回歸上與parzen方法相當(dāng),但在決策樹上則更差,因?yàn)橐淮胃淖円粋€(gè)特征通常不會(huì)對(duì)預(yù)測(cè)產(chǎn)生影響。然而,對(duì)于parzen解釋器來說,文本是一個(gè)特別困難的例子,因?yàn)樵诟呔S上難以近似原始分類器,因此parzen的整體召回率很低。在這兩個(gè)數(shù)據(jù)集中,LIME一致地為logistic回歸和決策樹提供了90%的召回率,證明了LIME的解釋對(duì)模型是相當(dāng)忠實(shí)的。
總結(jié)
- 上一篇: BEC高级商务英语考试应试技巧指南
- 下一篇: 降低管理成本、增强团队协作