當前位置：首頁 >

如何用python进行相关性分析_如何在python中检查连续变量和分类变量之间的相关性？...

發(fā)布時間：2024/9/30 21 豆豆

生活随笔收集整理的這篇文章主要介紹了如何用python进行相关性分析_如何在python中检查连续变量和分类变量之间的相关性？... 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

將分類變量轉(zhuǎn)換為虛擬變量，并將變量放在numpy.array中。例如：

data.csv：age,size,color_head

4,50,black

9,100,blonde

12,120,brown

17,160,black

18,180,brown

提取數(shù)據(jù)：import numpy as np

import pandas as pd

df = pd.read_csv('data.csv')

DF：

將分類變量轉(zhuǎn)換color_head為虛擬變量：df_dummies = pd.get_dummies(df['color_head'])

del df_dummies[df_dummies.columns[-1]]

df_new = pd.concat([df, df_dummies], axis=1)

del df_new['color_head']

df_new：

把它放在numpy數(shù)組中：x = df_new.values

計算相關性：correlation_matrix = np.corrcoef(x.T)

print(correlation_matrix)

輸出：array([[ 1. , 0.99574691, -0.23658011, -0.28975028],

[ 0.99574691, 1. , -0.30318496, -0.24026862],

[-0.23658011, -0.30318496, 1. , -0.40824829],

[-0.28975028, -0.24026862, -0.40824829, 1. ]])

總結(jié)

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。