當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习接口和代码之线性回归

發布時間：2023/12/20 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习接口和代码之线性回归小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

線性回歸sklearn 接口和代碼

官網api：https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares

LinearRegression

class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1)參數說明：fit_intercept：bool，選擇是否需要計算截距，默認為True，如果中心化了的數據可以選擇falsenormalize：bool，選擇是否需要標準化（在回歸之前，對X減去平均值再除以二范數），默認為false，如果fit_intercept被設置為False時，該參數將忽略。在這里還是建議將標準化的工作放在訓練模型之前。通過設置sklearn.preprocessing.StandardScaler來實現，而在此處設置為falsecopy_x:bool量，選擇是否復制X數據，默認True,如果不復制數據，數據在運行過程中修改，不會覆蓋原始數據,如果否，可能會因為中心化把X數據覆蓋n_job:int量，選擇幾核用于計算，默認1，-1表示全速運行# 其實這里面的參數基本都不怎么需要涉及，往往默認參數就夠用。可用屬性：coef_:訓練后的輸入端模型系數，如果label有兩個，即y值有兩列。那么是一個2D的arrayintercept_: 截距

可用的methods

fit

fit(X,y,sample_weight=None):? 參數：X: array, 稀疏矩陣 [n_samples,n_features]?y: array [n_samples, n_targets]?sample_weight: 權重，形狀為[n_samples]的numpy數組?---------在版本0.17后添加了sample_weight

get_params(deep=True)

?返回對regressor 的設置值

predict(X)

?預測基于 R^2值

score

評估

案例一：自己實現線性回歸，用最小二乘

# -*- coding:utf-8 -*-from sklearn.model_selection import train_test_split # 數據劃分的類 import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import pandas as pd# 設置字符集，防止中文亂碼 mpl.rcParams['font.sans-serif']=[u'simHei'] mpl.rcParams['axes.unicode_minus']=False# 加載數據 # 日期、時間、有功功率、無功功率、電壓、電流、廚房用電功率、洗衣服用電功率、熱水器用電功率 path1='/datas/household_power_consumption_1000.txt' df = pd.read_csv(path1, sep=';', low_memory=False) # 沒有混合類型的時候可以通過low_memory=F調用更多內存，加快效率） print(df)## 功率和電流之間的關系 X = df.iloc[:,2:4] Y = df.iloc[:,5]## 數據分割 X2_train,X2_test,Y2_train,Y2_test = train_test_split(X, Y, test_size=0.2, random_state=0)# 將X和Y轉換為矩陣的形式 X = np.mat(X2_train) Y = np.mat(Y2_train).reshape(-1,1)# 計算θ theta = (X.T * X).I * X.T * Y print(theta)# 對測試集合進行測試 y_hat = np.mat(X2_test) * theta# 畫圖 t=np.arange(len(X2_test)) plt.figure(facecolor='w') plt.plot(t, Y2_test, 'r-', linewidth=2, label=u'真實值') plt.plot(t, y_hat, 'g-', linewidth=2, label=u'預測值') plt.legend(loc = 'lower right') plt.title(u"線性回歸預測功率與電流之間的關系", fontsize=20) plt.grid(b=True) plt.show()

案例二：家庭用電預測：線性回歸算法(時間與功率&功率與電流之間的關系)

from sklearn.model_selection import train_test_split # 數據劃分的類 from sklearn.linear_model import LinearRegression # 線性回歸的類 from sklearn.preprocessing import StandardScaler # 數據標準化import numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import pandas as pd# 設置字符集，防止中文亂碼 mpl.rcParams['font.sans-serif']=[u'simHei'] mpl.rcParams['axes.unicode_minus']=False# 加載數據 # 日期、時間、有功功率、無功功率、電壓、電流、廚房用電功率、洗衣服用電功率、熱水器用電功率 path1='datas/household_power_consumption_1000.txt' df = pd.read_csv(path1, sep=';', low_memory=False) # 沒有混合類型的時候可以通過low_memory=F調用更多內存，加快效率） print(df.head()) # 獲取前五行數據 print(df.info())# 異常數據處理(異常數據過濾) new_df = df.replace('?', np.nan) # 替換非法字符為np.nan datas = new_df.dropna(axis=0, how = 'any') # 只要有一個數據為空，就進行行刪除操作 print(datas.describe().T) # 觀察數據的多種統計指標(只能看數值型的) print(df.info()) # 查看格式信息# 創建一個時間函數格式化字符串 def date_format(dt):# dt顯示是一個series/tuple；dt[0]是date，dt[1]是timeimport timet = time.strptime(' '.join(dt), '%d/%m/%Y %H:%M:%S')return (t.tm_year, t.tm_mon, t.tm_mday, t.tm_hour, t.tm_min, t.tm_sec)# 需求：構建時間和功率之間的映射關系，可以認為：特征屬性為時間；目標屬性為功率值。 # 獲取x和y變量, 并將時間轉換為數值型連續變量 X = datas.iloc[:, 0:2] X = X.apply(lambda x: pd.Series(date_format(x)), axis=1) Y = datas['Global_active_power']print(X.head(2))# 對數據集進行測試集合訓練集劃分 # X：特征矩陣(類型一般是DataFrame) # Y：特征對應的Label標簽(類型一般是Series) # test_size: 對X/Y進行劃分的時候，測試集合的數據占比, 是一個(0,1)之間的float類型的值 # random_state: 數據分割是基于隨機器進行分割的，該參數給定隨機數種子；給一個值(int類型)的作用就是保證每次分割所產生的數數據集是完全相同的 X_train,X_test,Y_train,Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)print(X_train.shape) print(X_test.shape) print(Y_train.shape)# 查看訓練集上的數據信息(X) print(X_train.describe())# 數據標準化 # StandardScaler：將數據轉換為標準差為1的數據集(有一個數據的映射) # scikit-learn中：如果一個API名字有fit，那么就有模型訓練的含義，沒法返回值 # scikit-learn中：如果一個API名字中有transform，那么就表示對數據具有轉換的含義操作 # scikit-learn中：如果一個API名字中有predict，那么就表示進行數據預測，會有一個預測結果輸出 # scikit-learn中：如果一個API名字中既有fit又有transform的情況下，那就是兩者的結合(先做fit，再做transform) ss = StandardScaler() # 模型對象創建 X_train = ss.fit_transform(X_train) # 訓練模型并轉換訓練集 X_test = ss.transform(X_test) # 直接使用在模型構建數據上進行一個數據標準化操作 (測試集)print(pd.DataFrame(X_train).describe())# 模型訓練 lr = LinearRegression(fit_intercept=True) # 模型對象構建 lr.fit(X_train, Y_train) # 訓練模型# 模型預測 y_predict = lr.predict(X_test) # 預測結果print("訓練集上R2:", lr.score(X_train, Y_train)) print("測試集上R2:", lr.score(X_test, Y_test)) mse = np.average((y_predict-Y_test)**2) # 開根號 rmse = np.sqrt(mse) print("rmse:", rmse)# 輸出模型訓練得到的相關參數 print("模型的系數(θ):", end="") print(lr.coef_) print("模型的截距:", end='') print(lr.intercept_)# 模型保存/持久化 # 在機器學習部署的時候，實際上其中一種方式就是將模型進行輸出；另外一種方式就是直接將預測結果輸出 # 模型輸出一般是將模型輸出到磁盤文件 from sklearn.externals import joblib# 保存模型要求給定的文件所在的文件夾比較存在 joblib.dump(ss, "result/data_ss.model") # 將標準化模型保存 joblib.dump(lr, "result/data_lr.model") # 將模型保存# 加載模型 ss3 = joblib.load("result/data_ss.model") # 加載模型 lr3 = joblib.load("result/data_lr.model") # 加載模型# 使用加載的模型進行預測 data1 = [[2006, 12, 17, 12, 25, 0]] data1 = ss3.transform(data1) print(data1) lr3.predict(data1)# 預測值和實際值畫圖比較 t=np.arange(len(X_test)) plt.figure(facecolor='w') # 建一個畫布，facecolor是背景色 plt.plot(t, Y_test, 'r-', linewidth=2, label='真實值') plt.plot(t, y_predict, 'g-', linewidth=2, label='預測值') plt.legend(loc = 'upper left') # 顯示圖例，設置圖例的位置 plt.title("線性回歸預測時間和功率之間的關系", fontsize=20) plt.grid(b=True) # 加網格 plt.show()# 功率和電流之間的關系 X = datas.iloc[:,2:4] Y2 = datas.iloc[:,5]# 數據分割 X2_train,X2_test,Y2_train,Y2_test = train_test_split(X, Y2, test_size=0.2, random_state=0)# 數據歸一化 scaler2 = StandardScaler() X2_train = scaler2.fit_transform(X2_train) # 訓練并轉換 X2_test = scaler2.transform(X2_test) # 直接使用在模型構建數據上進行一個數據標準化操作# 模型訓練 lr2 = LinearRegression() lr2.fit(X2_train, Y2_train)# 結果預測 Y2_predict = lr2.predict(X2_test)# 模型評估 print("電流預測準確率: ", lr2.score(X2_test, Y2_test)) print("電流參數:", lr2.coef_)# 繪制圖表 t=np.arange(len(X2_test)) plt.figure(facecolor='w') plt.plot(t, Y2_test, 'r-', linewidth=2, label=u'真實值') plt.plot(t, Y2_predict, 'g-', linewidth=2, label=u'預測值') plt.legend(loc = 'lower right') plt.title(u"線性回歸預測功率與電流之間的關系", fontsize=20) plt.grid(b=True) plt.show()

案例三：家庭用電預測：線性回歸算法(時間與電壓的多項式關系)

from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import PolynomialFeatures from sklearn.pipeline import Pipelineimport numpy as np import matplotlib as mpl import matplotlib.pyplot as plt import pandas as pd# 創建一個時間字符串格式化字符串 def date_format(dt):import timet = time.strptime(' '.join(dt), '%d/%m/%Y %H:%M:%S')return (t.tm_year, t.tm_mon, t.tm_mday, t.tm_hour, t.tm_min, t.tm_sec)# 設置字符集，防止中文亂碼 mpl.rcParams['font.sans-serif'] = [u'simHei'] mpl.rcParams['axes.unicode_minus'] = False# 加載數據 path = 'datas\household_power_consumption_200.txt' ## 200行數據 path = 'datas\household_power_consumption_1000.txt' ## 1000行數據 df = pd.read_csv(path, sep=';', low_memory=False)# 日期、時間、有功功率、無功功率、電壓、電流、廚房用電功率、洗衣服用電功率、熱水器用電功率 names2 = df.columns names = ['Date', 'Time', 'Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity','Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']# 異常數據處理(異常數據過濾) new_df = df.replace('?', np.nan) datas = new_df.dropna(axis=0, how='any') # 只要有數據為空，就進行刪除操作# 時間和電壓之間的關系(Linear) # 獲取x和y變量, 并將時間轉換為數值型連續變量 X = datas[names[0:2]] X = X.apply(lambda x: pd.Series(date_format(x)), axis=1) Y = datas[names[4]].values# 對數據集進行測試集合訓練集劃分 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)# 數據標準化 ss = StandardScaler() X_train = ss.fit_transform(X_train) # 訓練并轉換 X_test = ss.transform(X_test) # 直接使用在模型構建數據上進行一個數據標準化操作# 模型訓練 lr = LinearRegression() lr.fit(X_train, Y_train) # 訓練模型# 模型預測 y_predict = lr.predict(X_test)# 模型效果 print("準確率:", lr.score(X_test, Y_test))# 預測值和實際值畫圖比較 t = np.arange(len(X_test)) plt.figure(facecolor='w') plt.plot(t, Y_test, 'r-', linewidth=2, label=u'真實值') plt.plot(t, y_predict, 'g-', linewidth=2, label=u'預測值') plt.legend(loc='lower right') plt.title(u"線性回歸預測時間和功率之間的關系", fontsize=20) plt.grid(b=True) # 網格 plt.show()# 時間和電壓之間的關系(Linear-多項式) # Pipeline：管道的意思，講多個操作合并成為一個操作 # Pipleline總可以給定多個不同的操作，給定每個不同操作的名稱即可，執行的時候，按照從前到后的順序執行 # Pipleline對象在執行的過程中，當調用某個方法的時候，會調用對應過程的對應對象的對應方法 # eg：在下面這個案例中，調用了fit方法， # 那么對數據調用第一步操作：PolynomialFeatures的fit_transform方法對數據進行轉換并構建模型 # 然后對轉換之后的數據調用第二步操作: LinearRegression的fit方法構建模型 # eg: 在下面這個案例中，調用了predict方法， # 那么對數據調用第一步操作：PolynomialFeatures的transform方法對數據進行轉換 # 然后對轉換之后的數據調用第二步操作: LinearRegression的predict方法進行預測 models = [Pipeline([('Poly', PolynomialFeatures()), # 給定進行多項式擴展操作，第一個操作：多項式擴展('Linear', LinearRegression(fit_intercept=False)) # 第二個操作，線性回歸]) ] model = models[0] # 獲取x和y變量, 并將時間轉換為數值型連續變量 X = datas[names[0:2]] X = X.apply(lambda x: pd.Series(date_format(x)), axis=1) Y = datas[names[4]]# 對數據集進行測試集合訓練集劃分 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)# 數據標準化 ss = StandardScaler() X_train = ss.fit_transform(X_train) # 訓練并轉換 X_test = ss.transform(X_test) # 直接使用在模型構建數據上進行一個數據標準化操作# 模型訓練 t = np.arange(len(X_test)) N = 5 d_pool = np.arange(1, N, 1) # 階 m = d_pool.size clrs = [] # 顏色 for c in np.linspace(16711680, 255, m):clrs.append('#%06x' % int(c)) line_width = 3plt.figure(figsize=(12, 6), facecolor='w') # 創建一個繪圖窗口，設置大小，設置顏色 for i, d in enumerate(d_pool):plt.subplot(N - 1, 1, i + 1)plt.plot(t, Y_test, 'r-', label=u'真實值', ms=10, zorder=N)# 設置管道對象中的參數值，Poly是在管道對象中定義的操作名稱，后面跟參數名稱；中間是兩個下劃線model.set_params(Poly__degree=d) # 設置多項式的階乘model.fit(X_train, Y_train) # 模型訓練# Linear是管道中定義的操作名稱# 獲取線性回歸算法模型對象lin = model.get_params()['Linear']output = u'%d階，系數為：' % d# 判斷lin對象中是否有對應的屬性if hasattr(lin, 'alpha_'):idx = output.find(u'系數')output = output[:idx] + (u'alpha=%.6f, ' % lin.alpha_) + output[idx:]if hasattr(lin, 'l1_ratio_'):idx = output.find(u'系數')output = output[:idx] + (u'l1_ratio=%.6f, ' % lin.l1_ratio_) + output[idx:]print(output, lin.coef_.ravel())# 模型結果預測y_hat = model.predict(X_test)# 計算評估值s = model.score(X_test, Y_test)# 畫圖z = N - 1 if (d == 2) else 0label = u'%d階, 準確率=%.3f' % (d, s)plt.plot(t, y_hat, color=clrs[i], lw=line_width, alpha=0.75, label=label, zorder=z)plt.legend(loc='upper left')plt.grid(True)plt.ylabel(u'%d階結果' % d, fontsize=12)# 預測值和實際值畫圖比較 plt.suptitle(u"線性回歸預測時間和功率之間的多項式關系", fontsize=20) plt.grid(b=True) plt.show()

總結

以上是生活随笔為你收集整理的机器学习接口和代码之线性回归的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：小白学电脑计算机的组成,新手学电脑步骤,
下一篇：【软件相关】Multisim完整教程