【数据竞赛】百赛百试,十试九灵的特征筛选策略-Pearson Correlation
作者:杰少
Kaggle競賽知識點--Pearson Correlation!
簡 介
Pearson相關(guān)性在采用線性模型建模時是必不可少的一種建模策略,它不僅可以用來判斷特征與目標(biāo)變量之間的關(guān)系,與此同時還可以對冗余特征進(jìn)行篩選,其對于特征之間相關(guān)性的篩選在我嘗試的所有競賽中基本都帶來了很不錯的提升。即使沒有提升,效果在刪去了很多特征之后效果并沒有下降。Pearson相關(guān)系數(shù)的計算是非常簡單而且實用的。
在一些統(tǒng)計學(xué)的博客中,大家認(rèn)為:
完美:如果值接近± 1,那么這就是一個完美的相關(guān)性:當(dāng)一個變量增加時,另一個變量也趨向于增加(如果是正的)或減少(如果是負(fù)的)。
高度相關(guān):如果系數(shù)值介于± 0.50和± 1,那么就說這是一個很強的相關(guān)性。
中度相關(guān):如果值介于± 0.30和± 0.49,則稱為中等相關(guān)性。
低度相關(guān):當(dāng)值低于± 0.29時,則表示相關(guān)性很小。
無相關(guān)性:當(dāng)值為零時。
到目前為止,Pearson Correlation的方法依然是我所有競賽中都必須會嘗試的策略之一。
Pearson Correlation
Pearson Correlation系數(shù)的計算
表示兩個特征,為第個樣本對應(yīng)X特征的值,為第個樣本對應(yīng)Y特征的值;
代碼
1. 特征標(biāo)簽的篩選
計算與標(biāo)簽的相關(guān)性進(jìn)行特征的篩選
| f1 | 0.612372 |
| f2 | 1.000000 |
| f3 | 0.866025 |
2. 標(biāo)簽標(biāo)簽的篩選
計算與標(biāo)簽之間的相關(guān)性,進(jìn)行特征冗余度篩選。
適用問題
Pearson Correlation目前一般多用于連續(xù)特征變量之間的相關(guān)性計算,針對類別特征,尤其是無序的類別特征,需要進(jìn)行特定的編碼轉(zhuǎn)化之后效果會好些,如果是使用線性模型進(jìn)行的建模,Pearson Correlation的使用基本就成了必然,而且大多數(shù)情況下,都是有不錯提升的。
參考文獻(xiàn)
The 5 Feature Selection Algorithms every Data Scientist should know
https://www.youtube.com/watch?v=lVOzlHx_15s
總結(jié)
以上是生活随笔為你收集整理的【数据竞赛】百赛百试,十试九灵的特征筛选策略-Pearson Correlation的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Win7系统防火墙设置不了怎么办
- 下一篇: 爱奇艺如何开启两指双击触发奇观功能