當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习实战-逻辑回归-19

發(fā)布時間：2024/9/15 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习实战-逻辑回归-19 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

機器學(xué)習(xí)實戰(zhàn)-邏輯回歸-用戶流失預(yù)測

import numpy as np train_data = np.genfromtxt('Churn-Modelling.csv',delimiter=',',dtype=np.str) test_data = np.genfromtxt('Churn-Modelling-Test-Data.csv',delimiter=',',dtype=np.str) x_train = train_data[1:,:-1] y_train = train_data[1:,-1].astype(int) x_test = test_data[1:,:-1] y_test = test_data[1:,-1].astype(int) x_train = np.delete(x_train,[0,1,2],axis=1) x_test = np.delete(x_test,[0,1,2],axis=1) x_train[:5]

y_train[:5]

# x_train[x_train=='Female'] = 0 # x_train[x_train=='Male'] = 1 from sklearn.preprocessing import LabelEncoder labelencoder1 = LabelEncoder() x_train[:,1] = labelencoder1.fit_transform(x_train[:,1]) x_test[:,1] = labelencoder1.transform(x_test[:,1]) labelencoder2 = LabelEncoder() x_train[:,2] = labelencoder2.fit_transform(x_train[:,2]) x_test[:,2] = labelencoder2.transform(x_test[:,2])

x_train = x_train.astype(np.float32) x_test = x_test.astype(np.float32) y_train = y_train.astype(np.float32) y_test = y_test.astype(np.float32) from sklearn.preprocessing import StandardScaler sc = StandardScaler() x_train = sc.fit_transform(x_train) x_test = sc.transform(x_test)

from sklearn.linear_model import LinearRegression from sklearn.metrics import classificationLR = LinearRegression() LR.fit(x_train,y_train)predictions = LR.predict(x_test) print(classification_report(y_test, predictions))

機器學(xué)習(xí)實戰(zhàn)-邏輯回歸-糖尿病預(yù)測模型

import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns

# 載入數(shù)據(jù) diabetes_data = pd.read_csv('diabetes.csv') diabetes_data.head()

# 數(shù)據(jù)信息 diabetes_data.info(verbose=True)

# 數(shù)據(jù)描述 diabetes_data.describe()

# 數(shù)據(jù)形狀 diabetes_data.shape

# 查看標(biāo)簽分布 print(diabetes_data.Outcome.value_counts()) # 使用柱狀圖的方式畫出標(biāo)簽個數(shù)統(tǒng)計 p=diabetes_data.Outcome.value_counts().plot(kind="bar") plt.show()

# 可視化數(shù)據(jù)分布 p=sns.pairplot(diabetes_data, hue = 'Outcome') plt.show()

這里畫的圖主要是兩種類型，直方圖和散點圖。單一特征對比的時候用的是直方圖，不同特征對比的時候用的是散點圖，顯示兩個特征的之間的關(guān)系。觀察數(shù)據(jù)分布我們可以發(fā)現(xiàn)一些異常值，比如Glucose葡萄糖，BloodPressure血壓，SkinThickness皮膚厚度，Insulin胰島素，BMI身體質(zhì)量指數(shù)這些特征應(yīng)該是不可能出現(xiàn)0值的。

# 把葡萄糖，血壓，皮膚厚度，胰島素，身體質(zhì)量指數(shù)中的0替換為nan colume = ['Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI'] diabetes_data[colume] = diabetes_data[colume].replace(0,np.nan) # pip install missingno import missingno as msno p=msno.bar(diabetes_data) plt.show()

# 設(shè)定閥值 thresh_count = diabetes_data.shape[0]*0.8 # 若某一列數(shù)據(jù)缺失的數(shù)量超過20%就會被刪除 diabetes_data = diabetes_data.dropna(thresh=thresh_count, axis=1) p=msno.bar(diabetes_data) plt.show()

# 導(dǎo)入插補庫 from sklearn.preprocessing import Imputer # 對數(shù)值型變量的缺失值，我們采用均值插補的方法來填充缺失值 imr = Imputer(missing_values='NaN', strategy='mean', axis=0) colume = ['Glucose', 'BloodPressure', 'BMI'] # 進行插補 diabetes_data[colume] = imr.fit_transform(diabetes_data[colume]) p=msno.bar(diabetes_data) plt.show()

plt.figure(figsize=(12,10)) # 畫熱力圖，數(shù)值為兩個變量之間的相關(guān)系數(shù) p=sns.heatmap(diabetes_data.corr(), annot=True) plt.show()

# 把數(shù)據(jù)切分為特征x和標(biāo)簽y x = diabetes_data.drop("Outcome",axis = 1) y = diabetes_data.Outcome from sklearn.model_selection import train_test_split # 切分數(shù)據(jù)集，stratify=y表示切分后訓(xùn)練集和測試集中的數(shù)據(jù)類型的比例跟切分前y中的比例一致 # 比如切分前y中0和1的比例為1:2，切分后y_train和y_test中0和1的比例也都是1:2 x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3, stratify=y) from sklearn.linear_model import LogisticRegression from sklearn.metrics import classification_reportLR = LogisticRegression() LR.fit(x_train,y_train)predictions = LR.predict(x_test) print(classification_report(y_test, predictions))

總結(jié)

以上是生活随笔為你收集整理的机器学习实战-逻辑回归-19的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。