日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

5.2 部分依赖图 (Partial Dependence Plot, PDP)

發(fā)布時間:2024/5/17 编程问答 85 豆豆
生活随笔 收集整理的這篇文章主要介紹了 5.2 部分依赖图 (Partial Dependence Plot, PDP) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

部分依賴圖(短 PDP 或 PD 圖)顯示了一個或兩個特征對機(jī)器學(xué)習(xí)模型的預(yù)測結(jié)果的邊際效應(yīng) (J. H. Friedman 200127)。 部分依賴圖可以顯示目標(biāo)和特征之間的關(guān)系是線性的、單調(diào)的還是更復(fù)雜的。 例如,當(dāng)應(yīng)用于線性回歸模型時,部分依賴圖始終顯示線性關(guān)系。

回歸的偏依賴函數(shù)定義為:f^xS(xS)=ExC[f^(xS,xC)]=∫f^(xS,xC)dP(xC)\hat{f}_{x_S}(x_S)=E_{x_C}\left[\hat{f}(x_S,x_C)\right]=\int\hat{f}(x_S,x_C)d\mathbb{P}(x_C)f^?xS??(xS?)=ExC??[f^?(xS?,xC?)]=f^?(xS?,xC?)dP(xC?)

xS 是應(yīng)該繪制部分依賴函數(shù)的特征和,XC 是機(jī)器學(xué)習(xí)模型f^\hat{f}f^?中使用的其他特征。通常,集合 S 中只有一兩個特征。 S 中的特征是我們想知道對預(yù)測的影響的特征。 特征向量xS 和XC組合起來構(gòu)成總的特征空間x。 部分依賴通過在集合 C 中的特征分布上邊緣化機(jī)器學(xué)習(xí)模型輸出來工作,以便該函數(shù)顯示我們感興趣的集合 S 中的特征與預(yù)測結(jié)果之間的關(guān)系。 通過邊緣化其他特征,我們得到一個僅依賴于 S 中的特征的函數(shù),包括與其他特征的交互。

偏函數(shù)f^xS\hat{f}_{x_S}f^?xS??通過計算訓(xùn)練數(shù)據(jù)中的平均值來估計,也稱為蒙特卡羅方法:f^xS(xS)=1n∑i=1nf^(xS,xC(i))\hat{f}_{x_S}(x_S)=\frac{1}{n}\sum_{i=1}^n\hat{f}(x_S,x^{(i)}_{C})f^?xS??(xS?)=n1?i=1n?f^?(xS?,xC(i)?)

偏函數(shù)告訴我們對于給定的特征 S 值,預(yù)測的平均邊際效應(yīng)是什么。 在這個公式中,xC(i)x^{(i)}_{C}xC(i)? 是數(shù)據(jù)集中我們不感興趣的特征的實際特征值,n 是數(shù)據(jù)集中的實例數(shù)。PDP 的一個假設(shè)是 C 中的特征與 S 中的特征不相關(guān)。如果違反了這個假設(shè),則為部分依賴圖計算的平均值將包括非常不可能甚至不可能的數(shù)據(jù)點(參見缺點)。

對于機(jī)器學(xué)習(xí)模型輸出概率的分類,部分依賴圖顯示給定 S 中不同特征值的特定類別的概率。處理多個類別的一種簡單方法是為每個類別畫一條線或繪圖。

部分依賴圖是一種全局方法:該方法考慮所有實例并給出關(guān)于特征與預(yù)測結(jié)果的全局關(guān)系的陳述。

分類特征

到目前為止,我們只考慮了數(shù)值特征。 對于分類特征,部分依賴很容易計算。 對于每個類別,我們通過強(qiáng)制所有數(shù)據(jù)實例具有相同的類別來獲得 PDP 估計。 例如,如果我們查看自行車租賃數(shù)據(jù)集并對季節(jié)的部分依賴圖感興趣,我們會得到 4 個數(shù)字,每個季節(jié)一個。 為了計算“夏天”的值,我們將所有數(shù)據(jù)實例的季節(jié)替換為“夏天”并對預(yù)測進(jìn)行平均。

5.2.1 例子

實際上,特征集 S 通常只包含一個特征或最多包含兩個,因為一個特征產(chǎn)生 2D 圖,而兩個特征產(chǎn)生 3D 圖。 除此之外的一切都非常棘手。 即使是 2D 紙或顯示器上的 3D 也已經(jīng)具有挑戰(zhàn)性。

讓我們回到回歸示例,在該示例中,我們預(yù)測在給定日期將租用的自行車數(shù)量。 首先我們擬合一個機(jī)器學(xué)習(xí)模型,然后我們分析部分依賴關(guān)系。 在這種情況下,我們擬合了一個隨機(jī)森林來預(yù)測自行車的數(shù)量,并使用部分依賴圖來可視化模型學(xué)習(xí)到的關(guān)系。 下圖顯示了天氣特征對預(yù)測自行車數(shù)量的影響。

圖 5.2:自行車數(shù)量預(yù)測模型以及溫度、濕度和風(fēng)速的 PDP。 最大的差異體現(xiàn)在溫度上。 天氣越熱,租用的自行車就越多。 這種趨勢上升到 20 攝氏度,然后趨于平緩并在 30 攝氏度時略微下降。x 軸上的標(biāo)記表示數(shù)據(jù)分布。

對于溫暖但不太熱的天氣,該模型預(yù)測平均有大量租用自行車。 當(dāng)濕度超過 60% 時,潛在的騎自行車者越來越不愿意租用自行車。 另外,風(fēng)越大越喜歡騎車的人越少,這也是有道理的。 有趣的是,當(dāng)風(fēng)速從 25 公里/小時增加到 35 公里/小時時,預(yù)測的自行車租賃數(shù)量不會下降,但訓(xùn)練數(shù)據(jù)不多,因此機(jī)器學(xué)習(xí)模型可能無法學(xué)習(xí)到對該范圍的有意義的預(yù)測。 至少在直覺上,我預(yù)計自行車的數(shù)量會隨著風(fēng)速的增加而減少,尤其是在風(fēng)速非常高的情況下。

為了說明具有分類特征的部分依賴圖,我們檢查了季節(jié)特征對預(yù)測的自行車租賃的影響。


圖 5.3:自行車數(shù)量預(yù)測模型和季節(jié)的 PDP。 出乎意料的是,所有季節(jié)都對模型預(yù)測顯示出類似的影響,只有在春季,該模型預(yù)測的自行車租賃量較少。

我們還計算了宮頸癌分類的部分依賴性。 這次我們擬合了一個隨機(jī)森林,根據(jù)風(fēng)險因素來預(yù)測女性是否可能患上宮頸癌。 我們計算并可視化癌癥概率對隨機(jī)森林不同特征的部分依賴:

圖 5.4:基于使用激素避孕藥的年齡和年份的癌癥概率 PDP。 對于年齡,PDP 顯示概率在 40 歲之前較低,并在 40 歲之后增加。 服用激素避孕藥的時間越長,預(yù)測的癌癥風(fēng)險就越高,尤其是在 10 年后。 對于這兩個特征,沒有多少具有大值的數(shù)據(jù)點可用,因此這些區(qū)域的 PD 估計不太可靠。

我們還可以同時可視化兩個特征的部分依賴關(guān)系:


圖 5.5:癌癥概率的 PDP 與年齡和懷孕次數(shù)的相互作用。 該圖顯示了 45 歲時癌癥概率的增加。對于 25 歲以下的女性,與懷孕 0 次或超過 2 次的女性相比,懷孕 1 次或 2 次的女性預(yù)測的癌癥風(fēng)險較低。 但是在得出結(jié)論時要小心:這可能只是相關(guān)性而不是因果關(guān)系!

5.2.2 優(yōu)勢

部分依賴圖的計算很直觀:如果我們強(qiáng)制所有數(shù)據(jù)點假設(shè)該特征值,則特定特征值的部分依賴函數(shù)表示平均預(yù)測。根據(jù)我的經(jīng)驗,外行通常很快就能理解 PDP 的概念。

如果您計算 PDP 的特征與其他特征不相關(guān),那么 PDP 完美地代表了該特征如何平均影響預(yù)測。在不相關(guān)的情況下,解釋很清楚:部分依賴圖顯示了當(dāng)?shù)?j 個特征發(fā)生變化時數(shù)據(jù)集中的平均預(yù)測如何變化。當(dāng)特征相關(guān)時會更復(fù)雜,另見劣勢。

部分依賴圖很容易實現(xiàn)。

部分依賴圖的計算具有因果解釋。我們干預(yù)一個特征并測量預(yù)測的變化。這樣做時,我們分析了特征與預(yù)測之間的因果關(guān)系。這種關(guān)系是模型的因果關(guān)系——因為我們明確地將結(jié)果建模為特征的函數(shù)——但不一定適用于現(xiàn)實世界!

5.2.3 劣勢

部分依賴函數(shù)中現(xiàn)實的最大特征數(shù)是兩個。這不是 PDP 的錯,而是二維表示(紙或屏幕)的錯,也是我們無法想象超過 3 維的錯。

一些 PD 圖不顯示特征分布。省略分布可能會產(chǎn)生誤導(dǎo),因為您可能會過度解釋幾乎沒有數(shù)據(jù)的區(qū)域。通過顯示 rug(x 軸上數(shù)據(jù)點的指標(biāo))或直方圖可以輕松解決此問題。

獨立性假設(shè)是 PD 圖的最大問題。假設(shè)為其計算部分依賴的特征與其他特征不相關(guān)。例如,假設(shè)您想根據(jù)人的體重和身高預(yù)測他的步行速度。對于特征之一的部分依賴,例如身高,我們假設(shè)其他特征(體重)與身高無關(guān),這顯然是錯誤的假設(shè)。對于特定高度(例如 200 cm)的 PDP 計算,我們對重量的邊際分布進(jìn)行平均,其中可能包括低于 50 kg 的重量,這對于 2 米的人來說是不現(xiàn)實的。換句話說:當(dāng)特征相關(guān)時,我們在特征分布的實際概率非常低的區(qū)域創(chuàng)建新的數(shù)據(jù)點(例如,不太可能有人身高 2 米但體重小于 50 公斤)。此問題的一種解決方案是使用條件分布而不是邊際分布的累積局部效應(yīng)圖或短 ALE 圖。

異質(zhì)效應(yīng)可能被隱藏,因為 PD 圖僅顯示平均邊際效應(yīng)。假設(shè)對于一個特征,你的數(shù)據(jù)點有一半與預(yù)測有正相關(guān)——特征值越大預(yù)測越大——而另一半有負(fù)相關(guān)——特征值越小預(yù)測越大。 PD 曲線可能是一條水平線,因為數(shù)據(jù)集兩半的影響可能會相互抵消。然后您得出結(jié)論,該特征對預(yù)測沒有影響。通過繪制單獨的條件期望曲線而不是聚合線,我們可以發(fā)現(xiàn)異質(zhì)效應(yīng)。

5.2.4 軟件和替代品

有許多實現(xiàn) PDP 的 R 包。 我在示例中使用了 iml 包,但也有 pdp 或 DALEX。 在 Python 中,scikit-learn 中內(nèi)置了部分依賴圖,您可以使用 PDPBox。

本書中介紹的 PDP 的替代方案是 ALE 圖和 ICE 曲線。

總結(jié)

以上是生活随笔為你收集整理的5.2 部分依赖图 (Partial Dependence Plot, PDP)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。