python特征选择工具_一个Python特征选择工具,助力实现高效机器学习
選自GitHub
機器之心編譯
參與:Panda
鑒于特征選擇在機器學(xué)習(xí)過程中的重要性,數(shù)據(jù)科學(xué)家 William Koehrsen 近日在 GitHub 上公布了一個特征選擇器 Python 類,幫助研究者更高效地完成特征選擇。本文是 Koehrsen 寫的項目介紹及案例演示文章。
項目地址:https://github.com/WillKoehrsen/feature-selector
特征選擇(feature selection)是查找和選擇數(shù)據(jù)集中最有用特征的過程,是機器學(xué)習(xí)流程中的一大關(guān)鍵步驟。不必要的特征會降低訓(xùn)練速度、降低模型可解釋性,并且最重要的是還會降低其在測試集上的泛化表現(xiàn)。
目前存在一些專用型的特征選擇方法,我常常要一遍又一遍地將它們應(yīng)用于機器學(xué)習(xí)問題,這實在讓人心累。所以我用 Python 構(gòu)建了一個特征選擇類并開放在了 GitHub 上。這個 FeatureSelector 包含一些最常用的特征選擇方法:
1.具有高缺失值百分比的特征
2.共線性(高度相關(guān)的)特征
3.在基于樹的模型中重要度為零的特征
4.重要度較低的特征
5.具有單個唯一值(unique value)的特征
在本文中,我們將介紹在示例機器學(xué)習(xí)數(shù)據(jù)集上使用 FeatureSelector 的全過程。我們將看到如何快速實現(xiàn)這些方法,從而實現(xiàn)更高效的工作流程。
完整代碼已在 GitHub 上提供,歡迎任何人貢獻。這個特征選擇器是一項正在進行的工作,將根據(jù)社區(qū)需求繼續(xù)改進!
示例數(shù)據(jù)集
為了進行演示,我們將使用來自 Kaggle「家庭信用違約風(fēng)險」機器學(xué)習(xí)競賽的一個數(shù)據(jù)樣本。了解該競賽可參閱:https://towardsdatascience.com/machine-learning-kaggle-competition-part-one-getting-started-32fb9ff47426,完整數(shù)據(jù)集可在這里下載:https://www.kaggle.com/c/home-credit-default-risk/data。這里我們將使用部分?jǐn)?shù)據(jù)樣本來進行演示。
數(shù)據(jù)示例。TARGET 是分類標(biāo)簽
這個競賽是一個監(jiān)督分類問題,這也是一個非常合適的數(shù)據(jù)集,因為其中有很多缺失值、大量高度關(guān)聯(lián)的(共線性)特征,還有一些無助于機器學(xué)習(xí)模型的無關(guān)特征。
創(chuàng)建實例
要創(chuàng)建一個 FeatureSelector 類的實例,我們需要傳入一個結(jié)構(gòu)化數(shù)據(jù)集,其中觀察在行中,特征在列中。我們可以使用一些僅操作特征的方法,但基于重要度的方法也需要訓(xùn)練標(biāo)簽。因為這是一個監(jiān)督分類任務(wù),所以我們將使用一組特征和一組標(biāo)簽。
(請確保在 feature_selector.py 所在目錄下運行這段代碼)
方法
這個特征選擇器有 5 種用于查找待移除特征的方法。我們可以訪問任何已被識別出來的特征并通過人工方式將它們移出數(shù)據(jù),也可以使用 FeatureSelector 中的 remove 函數(shù)。
這里我們將介紹其中每種識別方法,還將展示如何同時運行這 5 種方法。此外,FeatureSelector 還有幾個圖表繪制功能,因為可視化地檢查數(shù)據(jù)是機器學(xué)習(xí)的一大關(guān)鍵部分。
缺失值
查找和移除特征的第一個方法很簡單:查找缺失值比例超過特定閾值的特征。下面的調(diào)用能識別缺失值比例超過 60% 的特征(粗體是輸出結(jié)果)。
我們可以在一個 dataframe 中查看每一列的缺失值比例:
要查看待移除特征,我們可以讀取 FeatureSelector 的 ops 屬性,這是一個 Python 特征詞典,特征會以列表的形式給出。
最后,我們可以繪制一張所有特征的缺失值分布圖:
共線性特征
共線性特征是指彼此之間高度關(guān)聯(lián)的特征。在機器學(xué)習(xí)領(lǐng)域,高方差和較低的模型可解釋性導(dǎo)致在測試集上的泛化能力下降。
identify_collinear 方法能基于指定的相關(guān)系數(shù)值查找共線性特征。對于每一對相關(guān)的特征,它都會標(biāo)識出其中要移除的一個(因為我們只需要移除其中一個):
使用熱圖可以很好地可視化共線性。下圖展示了所有至少有一個相關(guān)關(guān)系(correlation)超過閾值的特征:
和之前一樣,我們可以訪問將會被移除的整個相關(guān)特征列表,或者在一個 dataframe 中查看高度相關(guān)的特征對。
如果我們想全面了解數(shù)據(jù)集,我們還可以通過將 plot_all = True 傳入該調(diào)用,繪制出數(shù)據(jù)中所有相關(guān)性的圖表:
零重要度特征
前面兩種方法可被應(yīng)用于任何結(jié)構(gòu)化的數(shù)據(jù)集并且結(jié)果是確定的——對于一個給定的閾值,每次結(jié)果都一樣。接下來的方法是專為監(jiān)督式機器學(xué)習(xí)問題設(shè)計的,其中我們有訓(xùn)練模型的標(biāo)簽并且是非確定性的。identify_zero_importance 函數(shù)能根據(jù)梯度提升機(GBM)學(xué)習(xí)模型查找重要度為零的特征。
我們可以使用基于樹的機器學(xué)習(xí)模型(比如 boosting ensemble)求取特征重要度。這個重要度的絕對值沒有相對值重要,我們可以將相對值用于確定對一個任務(wù)而言最相關(guān)的特征。我們還可以通過移除零重要度特征來在特征選擇中使用特征重要度。在基于樹的模型中,零重要度的特征不會被用于分割任何節(jié)點,所以我們可以移除它們而不影響模型表現(xiàn)。
FeatureSelector 能使用來自 LightGBM 庫的梯度提升機來得到特征重要度。為了降低方差,所得到的特征重要度是在 GBM 的 10 輪訓(xùn)練上的平均。另外,該模型還使用早停(early stopping)進行訓(xùn)練(也可關(guān)閉該選項),以防止在訓(xùn)練數(shù)據(jù)上過擬合。
下面的代碼調(diào)用了該方法并提取出了零重要度特征:
我們傳入的參數(shù)解釋如下:
task:根據(jù)我們的問題,要么是「classification」,要么是「regression」
eval_metric:用于早停的度量(如果早停禁用了,就不必使用)
n_iterations:訓(xùn)練輪數(shù),最后結(jié)果取多輪的平均
early_stopping:是否為訓(xùn)練模型使用早停
這時候我們可以使用 plot_feature_importances 繪制兩個圖表:
左圖給出了 plot_n 最重要的特征(重要度進行了歸一化,總和為 1)。右圖是對應(yīng)特征數(shù)量的累積重要度。藍色豎線標(biāo)出了累積重要度為 99% 的閾值。
對于基于重要度的方法,有兩點需要記住:
訓(xùn)練梯度提升機是隨機的,這意味著模型每次運行后,特征重要度都會改變。
這應(yīng)該不會有太大的影響(最重要的特征不會突然就變成最不重要的),但這會改變某些特征的排序,也會影響識別出的零重要度特征的數(shù)量。如果特征重要度每次都改變,請不要感到驚訝!
要訓(xùn)練機器學(xué)習(xí)模型,特征首先要經(jīng)過 one-hot 編碼。這意味著某些被識別為零重要度的特征可能是在建模過程中加入的 one-hot 編碼特征。
當(dāng)我們到達特征移除階段時,還有一個選項可移除任何被添加進來的 one-hot 編碼的特征。但是,如果我們要在特征選擇之后做機器學(xué)習(xí),我們還是必須要 one-hot 編碼這些特征。
低重要度特征
接下來的方法基于零重要度函數(shù),使用來自模型的特征重要度來進一步選擇。identify_low_importance 函數(shù)能找到重要度最低的特征,這些特征無助于指定的總重要性。
比如,下面的調(diào)用能找到最不重要的特征,即使沒有這些特征也能達到 99% 的重要度。
根據(jù)前面的累積重要度圖和這一信息,梯度提升機認(rèn)為很多特征都與學(xué)習(xí)無關(guān)。重申一下,每次訓(xùn)練運行后該方法的結(jié)果都不一樣。
我們也可以在一個 dataframe 中查看所有特征重要度:
low_importance 方法借鑒了主成分分析(PCA)中的一種方法,其中僅保留維持一定方差比例(比如 95%)所需的主成分是很常見的做法。要納入考慮的總重要度百分比基于同一思想。
只有當(dāng)我們要用基于樹的模型來做預(yù)測時,基于特征重要度的方法才真正有用。除了結(jié)果隨機之外,基于重要度的方法還是一種黑箱方法,也就是說我們并不真正清楚模型認(rèn)為某些特征無關(guān)的原因。如果使用這些方法,多次運行它們看到結(jié)果的改變情況,也許可以創(chuàng)建具有不同參數(shù)的多個數(shù)據(jù)集來進行測試!
單個唯一值特征
最后一個方法相當(dāng)基礎(chǔ):找出任何有單個唯一值的列。僅有單個唯一值的特征不能用于機器學(xué)習(xí),因為這個特征的方差為 0。舉個例子,如果一個特征僅有一個值,那么基于樹的模型就永遠不能進行區(qū)分(因為沒有可做區(qū)分的依據(jù))。
不同于其它方法,這個方法沒有可選參數(shù):
我們可以繪制每個類別唯一值數(shù)量的直方圖:
還有一點要記住,在計算唯一值之前,NaNs 已經(jīng)使用 Pandas 默認(rèn)移除了。
移除特征
在確定了待移除特征之后,我們有兩種移除它們的選擇。所有要移除的特征都存儲在 FeatureSelector 的 ops 詞典中,我們可以使用這個列表來手動移除它們,當(dāng)然也可使用內(nèi)置的 remove 函數(shù)。
對于這一方法,我們需傳入要用于移除特征的 methods。如果我們想使用所實現(xiàn)的所有方法,我們只需使用 methods = 'all'
這個方法會返回一個包含被移除特征的 dataframe。另外,要移除在機器學(xué)習(xí)過程中創(chuàng)建的 one-hot 編碼的特征:
在執(zhí)行操作之前檢查將被移除的特征可能是個好想法!原來的數(shù)據(jù)集會被存儲在 FeatureSelector 的 data 屬性中用作備份!
一次運行所有方法
注意,多次運行該模型的總特征數(shù)量可能也各不相同。之后就可以調(diào)用 remove 函數(shù)來移除這些特征了。
總結(jié)
這個特征選擇器類實現(xiàn)了訓(xùn)練機器學(xué)習(xí)模型之前幾種用于移除特征的常見操作。其提供了可用于識別待移除特征的函數(shù)以及可視化函數(shù)。這些方法可以單獨使用,也可以一次全部應(yīng)用以實現(xiàn)高效的工作流程。
其中 missing、collinear 和 single_unique 方法是確定性的,而基于特征重要度的方法會隨每次運行而變化。與機器學(xué)習(xí)領(lǐng)域很相似,特征選擇很大程度上是實證式的,需要測試多種組合才能找到最優(yōu)解。最好的做法是在流程中嘗試多種配置,并且 FeatureSelector 提供了一種用于快速評估特征選擇參數(shù)的方法。
本文為機器之心編譯,轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。
?------------------------------------------------
免責(zé)聲明:本文來自騰訊新聞客戶端自媒體,不代表騰訊新聞、騰訊網(wǎng)的觀點和立場。
總結(jié)
以上是生活随笔為你收集整理的python特征选择工具_一个Python特征选择工具,助力实现高效机器学习的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google的投票站点在用Asp.net
- 下一篇: 有前途的人工智能大数据分析相关职业:Py