日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据竞赛】百赛百试,十试九灵的特征筛选策略-Pearson Correlation

發(fā)布時間:2025/3/12 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据竞赛】百赛百试,十试九灵的特征筛选策略-Pearson Correlation 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

作者:杰少

Kaggle競賽知識點--Pearson Correlation!

簡 介

Pearson相關(guān)性在采用線性模型建模時是必不可少的一種建模策略,它不僅可以用來判斷特征與目標(biāo)變量之間的關(guān)系,與此同時還可以對冗余特征進(jìn)行篩選,其對于特征之間相關(guān)性的篩選在我嘗試的所有競賽中基本都帶來了很不錯的提升。即使沒有提升,效果在刪去了很多特征之后效果并沒有下降。Pearson相關(guān)系數(shù)的計算是非常簡單而且實用的。

在一些統(tǒng)計學(xué)的博客中,大家認(rèn)為:

  • 完美:如果值接近± 1,那么這就是一個完美的相關(guān)性:當(dāng)一個變量增加時,另一個變量也趨向于增加(如果是正的)或減少(如果是負(fù)的)。

  • 高度相關(guān):如果系數(shù)值介于± 0.50和± 1,那么就說這是一個很強的相關(guān)性。

  • 中度相關(guān):如果值介于± 0.30和± 0.49,則稱為中等相關(guān)性。

  • 低度相關(guān):當(dāng)值低于± 0.29時,則表示相關(guān)性很小。

  • 無相關(guān)性:當(dāng)值為零時。

到目前為止,Pearson Correlation的方法依然是我所有競賽中都必須會嘗試的策略之一。

Pearson Correlation

Pearson Correlation系數(shù)的計算

  • 表示兩個特征,為第個樣本對應(yīng)X特征的值,為第個樣本對應(yīng)Y特征的值;

代碼

1. 特征標(biāo)簽的篩選

  • 計算與標(biāo)簽的相關(guān)性進(jìn)行特征的篩選

import?pandas?as?pd? import?numpy?as?np??? #?構(gòu)建數(shù)據(jù)集 df?=?pd.DataFrame() df['f1']?=?[1,0,0,0,0]?*?10 df['f2']?=?[1,1,0,0,0]?*?10 df['f3']?=?[-1,-2,-3,-4,-5]?*?10 df['y']??=?[1,1,0,0,0]?*?10 def?Pearson_cor_Selector(X,?y,num_feats):cor_list?????=?[]feature_name?=?X.columns.tolist()#?calculate?the?correlation?with?y?for?each?featurefor?i?in?X.columns.tolist():cor?=?np.corrcoef(X[i],?y)[0,?1]cor_list.append(cor)scores?=?pd.DataFrame({'fea':feature_name,?'score':cor_list})#?replace?NaN?with?0cor_list?=?[0?if?np.isnan(i)?else?i?for?i?in?cor_list]#?feature?namecor_feature?=?X.iloc[:,np.argsort(np.abs(cor_list))[-num_feats:]].columns.tolist()#?feature?selection??0?for?not?select,?1?for?selectcor_support?=?[True?if?i?in?cor_feature?else?False?for?i?in?feature_name]return?scores,?cor_featurescores,?cor_feature?=?Pearson_cor_Selector(df[['f1','f2','f3']],?y?=?df['y'].values,num_feats?=?2) print(str(len(cor_feature)),?'selected?features') 2 selected features cor_feature ['f3', 'f2'] scores
feascore012
f10.612372
f21.000000
f30.866025

2. 標(biāo)簽標(biāo)簽的篩選

  • 計算與標(biāo)簽之間的相關(guān)性,進(jìn)行特征冗余度篩選。

df['f2_bar']?=?df['f2'].values? def?Pearson_cor_Selector2(X1,?X2,?threshold?=?0.99):?'''X1,X2:兩個不同的特征值threshold:閾值'''is_redundancy?=?0cor?=?np.corrcoef(X1,?X2)[0,?1]if?cor?>=?threshold:is_redundancy?=?1return?is_redundancy Pearson_cor_Selector2(df['f2'].values,?df['f2_bar'].values) 1 Pearson_cor_Selector2(df['f3'].values,?df['f2_bar'].values) 0

適用問題

Pearson Correlation目前一般多用于連續(xù)特征變量之間的相關(guān)性計算,針對類別特征,尤其是無序的類別特征,需要進(jìn)行特定的編碼轉(zhuǎn)化之后效果會好些,如果是使用線性模型進(jìn)行的建模,Pearson Correlation的使用基本就成了必然,而且大多數(shù)情況下,都是有不錯提升的。

參考文獻(xiàn)

  • The 5 Feature Selection Algorithms every Data Scientist should know

  • https://www.youtube.com/watch?v=lVOzlHx_15s

  • 往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機器學(xué)習(xí)在線手冊深度學(xué)習(xí)筆記專輯《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯溫州大學(xué)《機器學(xué)習(xí)課程》視頻 本站qq群851320808,加入微信群請掃碼:

    總結(jié)

    以上是生活随笔為你收集整理的【数据竞赛】百赛百试,十试九灵的特征筛选策略-Pearson Correlation的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。