當前位置：首頁 >

【NLP】探索NLP模型可解释性的7种姿势

發布時間：2025/3/12 31 豆豆

生活随笔收集整理的這篇文章主要介紹了【NLP】探索NLP模型可解释性的7种姿势小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

每次看badcase時，都會懷疑自己的能力，是我哪里做的不對嗎？這都學不會？

幸運的話，會找到一批有共性的問題，再有針對性地加入訓練數據或者改動模型解決。而不幸的話，就是這兒錯一個那兒錯一個，想改動都無從下手。

今天，就推薦一篇香儂科技出品的「NLP模型可解釋性綜述」，幫大家尋找模型預測結果的根據所在，從而更有針對性地進行優化。

論文：Interpreting Deep Learning Models in?Natural?Language?Processing:?A?Review

這篇文章描述的「可解釋性」，旨在理解模型為什么給出當前的預測結果。從預測結果根據的出處來看，作者把可解釋性方法分為三類：

Training-based：從訓練數據找根據，比如某條訓練樣本使得模型將當前測試樣本預測為A類

Test-based：從測試數據本身找根據，比如某個詞、某個片段

Hybrid-based：同時從訓練數據和測試數據找根據

從可解釋性方法的使用來看，又可以分為兩種：

Joint methods：把負責可解釋性的模塊加入到模型中一起訓練

Pos-hoc methods：在訓練后加入可解釋性模塊

接下來的梳理主要以第一種分類體系為主線，不過作者也同時給出了每個方法的使用方式：

Training-based

Influence Functions

這類方法主要通過一個函數，來衡量訓練樣本z對于測試樣本x的影響。最naive的方法就是去掉z再訓練一個模型，但這樣測完的時候就可以領盒飯走人了。不過我們有數學呀！于是在計算訓練loss的時候，我們可以給樣本z的loss加一個擾動，然后就能計算出z對于模型權重的影響，再把x輸入進去，就能計算出每個z對每個x的影響情況。

由于公式太復雜，我就不列出來殺大家的腦細胞了。其中有個問題是Hessian矩陣比較難算，對于深度模型簡直是災難。于是又有學者提出了更簡單的方法：Turn over dropout。

該方法的核心思想是，在訓練完模型后，得到每個樣本的一個mask矩陣m(z)，應用mask之后可以分離出那些不受樣本z影響的神經元。于是我們可以應用矩陣得到兩個子網絡，再輸入x后預測，就能計算出預測的diff。

KNNs Based Interpretation

基于KNN的方法旨在通過測試樣本的隱層表示找到相近的訓練樣本。

這個方法理解起來就容易多了，而且很實用。比如我們在做分類任務時，有的測試樣本置信度沒那么高，這時就可以通過KNN的方法去找相近的TopK個訓練樣本，根據它們的label分布來幫助預測：

Kernel based Interpretation

這類方法比較老了，參考文獻都是18、19年的。具體做法是，先用核函數對預測樣本x和多個訓練樣本l計算相似度K(x,l)，之后把相似度矩陣投影成更高維的表示，再輸入神經網絡進行預測。之后再利用LRP（Layerwise Relevance Propagation）反向計算每層、每個神經元的相關性分數，傳導回訓練樣本那一層就能知道每個樣本對測試數據的影響了。

在訓練時，Kernel和投影層都是一起訓練的，所以這種方法既需要在訓練時加入，又需要訓練后的計算。

Test-based

Saliency-based Interpretation

這種方法的核心思想是利用一些metric計算測試樣本中token、spen的重要程度。作者列出了很多種可以用的metirc：

Attention-based Interpretation

這個相信大家都熟悉了，就是通過觀察attention矩陣來分析token的重要程度。

但有意思的事，作者也在參考文獻中發現了一些質疑的聲音：Attention確實能給可解釋性提供幫助嗎？

在一篇19年的工作《Attention is not explanation》中，該作者提到，如果注意力權重真的能提供可解釋性，那它應該具備兩個性質：

注意力權重應該和基于特征的Saliency-based方法有很高的相關性

改變注意力權重會影響預測結果

但是之后，該作者通過一系列的實驗，證實attention不具備上述兩個性質。所以直到現在（2021年11月），注意力機制是否能提供可解釋性這個問題還處于爭論之中。

不過該工作的實驗是基于BiLSTM+Attention的，仍然有很多基于BERT的實驗表明，注意力機制確實學到了不少的語言知識。

Explanation Generation

這個方法就有意思了，上述我們介紹的可解釋性方法，對于人類來說可讀性都比較弱。而這類方法就要求輸出對人類更友好的「解釋」。比如：

Extractive/Abstractive Rationale：通過抽取或者生成的方式，把樣本中對結果影響大的部分輸出出來

Concept-based：將預測樣本聯系到一些抽象概念上，比如在對餐廳的評價中，哪些詞語是形容口味的、環境的等等，相當于給出了推理過程

Hierarchical：自底向上分別給句子的每個token、span打分，哪個片段是正向、哪個是負向，也相當于給出了推理過程

總結

可解釋性算是一個沒那么熱的方向，首先是深度模型確實太復雜了、太隨機了，有時候自己想的一堆idea都沒用，一個bug反而有提升。到了解釋的時候全靠猜，可能是哪里分布不一致？或者是模型已經足夠強了，我加的輸入知識它不需要？其次是大部分人都是結果導向，有時間研究不確定的可解釋性，不如花心思在指標提升上。

要說可解釋性重不重要，那肯定是重要的。如果對模型的了解更深入，就可以避免一些高風險的badcase。比如風控領域，一個反動內容可能會滅了一家公司，再比如醫療領域，一個錯誤的預測可能影響患者的生命。

論文的結尾，作者列出了很多的開放問題等待大家探索：

到底怎樣才算可解釋？

如何評估這些探究可解釋性的方法？

是為算法工程師提供解釋，還是為看到結果的用戶提供解釋？

目前的可解釋性方法大多研究分類任務，而其他任務呢？

很多可解釋性方法提供的結果不一致

是否要犧牲性能獲取更高的可解釋性？

可解釋性方法如何應用？它的價值有多少？

那么最后，深度模型是否真的可解釋？這個問題我也沒有想清楚，世上無法解釋的東西太多了。

往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件

本站qq群554839127，加入微信群請掃碼：

總結

以上是生活随笔為你收集整理的【NLP】探索NLP模型可解释性的7种姿势的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【深度学习】6万字解决算法面试中的深度学
下一篇：轻量级RTSP服务和内置RTSP网关的区