當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

基于业务解释的特征重要性计算

發(fā)布時(shí)間：2023/12/19 编程问答 19 豆豆

生活随笔收集整理的這篇文章主要介紹了基于业务解释的特征重要性计算小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

總第220篇/張俊紅

如果有學(xué)過(guò)或者用過(guò)一些算法的同學(xué)，應(yīng)該對(duì)特征重要性這個(gè)概念并不陌生。算法一般都是用來(lái)做預(yù)測(cè)的，而預(yù)測(cè)也不是憑空發(fā)生的，是基于一些已有的變量(x)進(jìn)行預(yù)測(cè)的，那在眾多的x中每個(gè)x對(duì)最終的預(yù)測(cè)貢獻(xiàn)的信息具體是多少呢？比如要預(yù)測(cè)明天是否會(huì)下雨，第一個(gè)x是明天的空氣濕度，第二個(gè)x是明天天晴或天陰，第三個(gè)x是明天的溫度，第四個(gè)x是明天是星期幾，在預(yù)測(cè)明天是否會(huì)下雨這件事上這四個(gè)不同的x對(duì)預(yù)測(cè)的影響肯定是不一樣的，我們把這個(gè)影響大小稱(chēng)為特征重要性。

那特征重要性和基于業(yè)務(wù)解釋的特征重要性有什么區(qū)別呢？是經(jīng)常聽(tīng)到很多做數(shù)據(jù)分析的人說(shuō)學(xué)算法是為了更好的做數(shù)據(jù)分析，為了更好的推進(jìn)業(yè)務(wù)。為了推進(jìn)業(yè)務(wù)就需要你的結(jié)果是可解釋的，你不能拿著一個(gè)黑盒模型告訴業(yè)務(wù)說(shuō)，模型結(jié)果是明天會(huì)下雨，至于為什么，不知道。這肯定是不可以的，所以我們需要對(duì)我們的結(jié)果進(jìn)行解釋。

關(guān)于特征重要性，不同模型的計(jì)算方法略有不同，但是一個(gè)總體大原則就是誰(shuí)對(duì)模型預(yù)測(cè)結(jié)果準(zhǔn)確度貢獻(xiàn)越大，誰(shuí)的重要性就高。很多模型都會(huì)自帶feature_importance屬性，可以得出每個(gè)特征的重要性得分。

特征重要性得分讓我們知道了不同特征之間的重要性情況，除此之外，我們還想知道在其他特征不變的情況，某一個(gè)特征內(nèi)部重要性分布是什么樣的。這個(gè)也是有現(xiàn)成方法，叫做部分依賴(lài)圖，英文全稱(chēng)是Partial Dependence Plots，簡(jiǎn)稱(chēng)PDP。

圖片來(lái)源于sklearn官網(wǎng)

上圖中第一行三張圖分別表示收入中位數(shù)、平均入住率、房屋年齡對(duì)房?jī)r(jià)中位數(shù)的影響程度，可以看到有線(xiàn)性正向，反比例負(fù)向，基本無(wú)關(guān)三種趨勢(shì)。右下角的圖表反映了兩個(gè)特征之間的相互作用。

講完了特征重要和特征內(nèi)部各取值對(duì)預(yù)測(cè)影響關(guān)系以外，我們?cè)賮?lái)介紹我們今天的主角——Shapley value值。

Shapley value翻譯過(guò)來(lái)表示夏普利值，是用來(lái)說(shuō)明自己的收入和付出是等效的，是一種分配方式。有一個(gè)經(jīng)典的財(cái)產(chǎn)分配的例子：

假定現(xiàn)在有100萬(wàn)財(cái)產(chǎn)，這100萬(wàn)需要分配給ABC三個(gè)人。該怎么分配呢？可以平均分配，也可以按照每個(gè)人的權(quán)力大小進(jìn)行分配，已知A擁有50%的票力，b擁有40%的票力，c擁有10%的票力。前面這兩種方法雖然可以對(duì)財(cái)產(chǎn)進(jìn)行分配，但是針對(duì)某個(gè)人分到的財(cái)產(chǎn)不是最多的。所以通過(guò)投票來(lái)決定如何分配，規(guī)則規(guī)定，當(dāng)超過(guò)50%的票認(rèn)可了某種方案時(shí)，才能獲得整個(gè)財(cái)產(chǎn)，否則三人將一無(wú)所獲。

c可以提出這樣的方案，a：70%，b：0，c：30%。這個(gè)方案能被a、c接受，因?yàn)閷?duì)a、c來(lái)說(shuō)這是一個(gè)比按票力分配有明顯改進(jìn)的方案，盡管b被排除出去，但是a、c的票力構(gòu)成大多數(shù)（60%）。　　

在這樣的情況下，b會(huì)向a提出這樣一個(gè)方案，a：80%，b20%，c：0。此時(shí)a和b所得均比剛才c提出的方案要好，但c成了一無(wú)所有，但a、b票力綜合構(gòu)成多數(shù)（90%）……這樣的過(guò)程可以一直進(jìn)行下去。　　

最終的分配結(jié)果會(huì)是怎樣的呢？夏普里提出了一種計(jì)算權(quán)利的度量。他給出了一個(gè)衡量博弈方先驗(yàn)實(shí)力的方法，根據(jù)他的理論求的的聯(lián)盟者的先驗(yàn)實(shí)力被稱(chēng)之為夏普里值。

夏普里值是這樣的一個(gè)值：在各種可能的聯(lián)盟次序下，參與者對(duì)聯(lián)盟的邊際貢獻(xiàn)之和除以各種可能的聯(lián)盟組合。

關(guān)于夏普利值更多的內(nèi)容可以查閱：
https://wiki.mbalib.com/wiki/%E5%A4%8F%E6%99%AE%E5%88%A9%E5%80%BC

以上是關(guān)于Shapley value比較學(xué)術(shù)方面的介紹，那如果應(yīng)用到模型中被用來(lái)說(shuō)明特征重要性時(shí)應(yīng)該如何計(jì)算呢？

針對(duì)每一個(gè)特征(x)，計(jì)算該特征下面每一個(gè)樣本取值對(duì)預(yù)測(cè)結(jié)果的影響程度，然后對(duì)所有樣本的影響程度求均值，就是這個(gè)特征的對(duì)預(yù)測(cè)結(jié)果的整體影響程度。

如下圖所示，隨著RM的增加，RM的SHAP Value值也是增加的：

下圖是把模型中用到的所有特征的重要性全部繪制出來(lái)了，每一行代表一個(gè)特征，顏色代表特征的取值大小，顏色越紅說(shuō)明這個(gè)特征的值越大，橫軸代表
特征取值對(duì)預(yù)測(cè)結(jié)果重要性的影響：

下圖是把每個(gè)特征內(nèi)每個(gè)樣本對(duì)預(yù)測(cè)結(jié)果的影響程度取均值，得到每個(gè)特征的重要性：

關(guān)于SHAP Value的計(jì)算在Python中有現(xiàn)成的庫(kù)可以使用，github鏈接如下：

https://github.com/slundberg/shap

以上就是關(guān)于基于業(yè)務(wù)解釋的特征重要性計(jì)算方法。

總結(jié)

以上是生活随笔為你收集整理的基于业务解释的特征重要性计算的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：抖音牵狗情侣头像制作方法是什么抖音牵狗
下一篇：游戏驿站股票代码