當前位置：首頁 >

Python数模笔记-StatsModels 统计回归（3）模型数据的准备

發布時間：2025/3/15 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python数模笔记-StatsModels 统计回归（3）模型数据的准备小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、讀取數據文件

回歸分析問題所用的數據都是保存在數據文件中的，首先就要從數據文件讀取數據。

數據文件的格式很多，最常用的是 .csv，.xls 和 .txt 文件，以及 sql 數據庫文件的讀取。

歡迎關注 Youcans 原創系列，每周更新數模筆記

Python數模筆記-PuLP庫
Python數模筆記-StatsModels統計回歸
Python數模筆記-Sklearn
Python數模筆記-NetworkX
Python數模筆記-模擬退火算法

使用 pandas 從數據文件導入數據的程序最為簡單，示例如下：

（1）讀取 .csv 文件：

df = pd.read_csv("./example.csv", engine="python", encoding="utf_8_sig")# engine="python"允許處理中文路徑，encoding="utf_8_sig"允許讀取中文數據

（2）讀取 .xls 文件：

df = pd.read_excel("./example.xls", sheetname='Sheet1', header=0, encoding="utf_8_sig")# sheetname 表示讀取的sheet，header=0 表示首行為標題行， encoding 表示編碼方式

（3）讀取 .txt 文件：

df = pd.read_table("./example.txt", sep="\t", header=None)# sep 表示分隔符，header=None表示無標題行，第一行是數據

2、數據文件的拆分與合并

統計回歸所需處理的數據量可能非常大，必要時需對文件進行拆分或合并，也可以用 pandas 進行處理，示例如下：
　　（1）將 Excel 文件分割為多個文件

# 將 Excel 文件分割為多個文件import pandas as pddfData = pd.read_excel('./example.xls', sheetname='Sheet1')nRow, nCol = dfData.shape # 獲取數據的行列# 假設數據共有198,000行，分割為 20個文件，每個文件 10,000行for i in range(0, int(nRow/10000)+1):saveData = dfData.iloc[i*10000+1:(i+1)*10000+1, :] # 每隔 10,000fileName= './example_{}.xls'.format(str(i))saveData.to_excel(fileName, sheet_name = 'Sheet1', index = False)

（2）將多個 Excel 文件合并為一個文件

# 將多個 Excel 文件合并為一個文件import pandas as pd## 兩個 Excel 文件合并#data1 = pd.read_excel('./example0.xls', sheetname='Sheet1')#data2 = pd.read_excel('./example1.xls', sheetname='Sheet1')#data = pd.concat([data1, data2])# 多個 Excel 文件合并dfData = pd.read_excel('./example0.xls', sheetname='Sheet1')for i in range(1, 20):fileName = './example_{}.xls'.format(str(i))dfNew = pd.read_excel(fileName)dfData = pd.concat([dfData, dfNew])dfData.to_excel('./example', index = False)# = 關注 Youcans，分享原創系列 https://blog.csdn.net/youcans =

3、數據的預處理

在實際工作中，在開始建立模型和擬合分析之前，還要對原始數據進行數據預處理（data preprocessing），主要包括：缺失值處理、重復數據處理、異常值處理、變量格式轉換、訓練集劃分、數據的規范化、歸一化等。

數據預處理的很多內容已經超出了 Statsmodels 的范圍，在此只介紹最基本的方法：

（1）缺失數據的處理

導入的數據存在缺失是經常發生的，最簡單的處理方式是刪除缺失的數據行。使用 pandas 中的 .dropna() 刪除含有缺失值的行或列，也可以對特定的列進行缺失值刪除處理。

dfNew = dfData.dropna(axis = 0)) # 刪除含有缺失值的行

有時也會填充缺失值或替換缺失值，在此就不做介紹了。
　　
　　（2）重復數據的處理
　　
　　對于重復數據，通常會刪除重復行。使用 pandas 中的 .duplicated() 可以查詢重復數據的內容，使用 .drop_duplicated() 可以刪除重復數據，也可以對指定的數據列進行去重。

dfNew = dfData.drop_duplicates(inplace=True) # 刪除重復的數據行

（3）異常值處理

數據中可能包括異常值，是指一個樣本中的數值明顯偏離樣本集中其它樣本的觀測值，也稱為離群點。異常值可以通過箱線圖、正態分布圖進行識別，也可以通過回歸、聚類建模進行識別。
　　
　　箱線圖技術是利用數據的分位數識別其中的異常點。箱形圖分析也超過本文的內容，不能詳細介紹了。只能籠統地說通過觀察箱形圖，可以查看整體的異常情況，進而發現異常值。

dfData.boxplot() # 繪制箱形圖

對于異常值通常不易直接刪除，需要結合具體情況進行考慮和處理。使用 pandas 中的 .drop() 可以直接刪除異常值數據行，或者使用判斷條件來判定并刪除異常值數據行。

# 按行刪除，drop() 默認 axis=0 按行刪除dfNew = dfData.drop(labels=0) # 按照行號 labels，刪除行號為 0 的行dfNew = dfData.drop(index=dfData[dfData['A']==-1].index[0]) # 按照條件檢索，刪除 dfData['A']=-1 的行

4、Python 例程（Statsmodels）

4.1 問題描述

數據文件中收集了 30個月本公司牙膏銷售量、價格、廣告費用及同期的市場均價。
　　（1）分析牙膏銷售量與價格、廣告投入之間的關系，建立數學模型；
　　（2）估計所建立數學模型的參數，進行統計分析；
　　（3）利用擬合模型，預測在不同價格和廣告費用下的牙膏銷售量。
　　
　　本問題及數據來自：姜啟源、謝金星，數學模型（第 3版），高等教育出版社。
　　需要說明的是，本文例程并不是問題最佳的求解方法和結果，只是使用該問題及數據示范讀取數據文件和數據處理的方法。

4.2 Python 程序

# LinearRegression_v3.py # v1.0: 調用 statsmodels 實現一元線性回歸 # v2.0: 調用 statsmodels 實現多元線性回歸 # v3.0: 從文件讀取數據樣本 # 日期：2021-05-06 # Copyright 2021 YouCans, XUPTimport numpy as np import pandas as pd import statsmodels.api as sm import matplotlib.pyplot as plt# 主程序 = 關注 Youcans，分享原創系列 https://blog.csdn.net/youcans = def main():# 讀取數據文件readPath = "../data/toothpaste.csv" # 數據文件的地址和文件名try:if (readPath[-4:] == ".csv"):dfOpenFile = pd.read_csv(readPath, header=0, sep=",") # 間隔符為逗號，首行為標題行# dfOpenFile = pd.read_csv(filePath, header=None, sep=",") # sep: 間隔符，無標題行elif (readPath[-4:] == ".xls") or (readPath[-5:] == ".xlsx"): # sheet_name 默認為 0dfOpenFile = pd.read_excel(readPath, header=0) # 首行為標題行# dfOpenFile = pd.read_excel(filePath, header=None) # 無標題行elif (readPath[-4:] == ".dat"): # sep: 間隔符，header：首行是否為標題行dfOpenFile = pd.read_table(readPath, sep=" ", header=0) # 間隔符為空格，首行為標題行# dfOpenFile = pd.read_table(filePath,sep=",",header=None) # 間隔符為逗號，無標題行else:print("不支持的文件格式。")print(dfOpenFile.head())except Exception as e:print("讀取數據文件失敗：{}".format(str(e)))return# 數據預處理dfData = dfOpenFile.dropna() # 刪除含有缺失值的數據print(dfData.dtypes) # 查看 df 各列的數據類型print(dfData.shape) # 查看 df 的行數和列數# colNameList = dfData.columns.tolist() # 將 df 的列名轉換為列表 list# print(colNameList) # 查看列名列表 list# featureCols = ['price', 'average', 'advertise', 'difference'] # 篩選列，建立自變量列名 list# X = dfData[['price', 'average', 'advertise', 'difference']] # 根據自變量列名 list，建立自變量數據集# 準備建模數據：分析因變量 Y(sales) 與自變量 x1~x4 的關系y = dfData.sales # 根據因變量列名 list，建立因變量數據集x0 = np.ones(dfData.shape[0]) # 截距列 x0=[1,...1]x1 = dfData.price # 銷售價格x2 = dfData.average # 市場均價x3 = dfData.advertise # 廣告費x4 = dfData.difference # 價格差，x4 = x1 - x2X = np.column_stack((x0,x1,x2,x3,x4)) #[x0,x1,x2,...,x4]# 建立模型與參數估計# Model 1：Y = b0 + b1*X1 + b2*X2 + b3*X3 + b4*X4 + emodel = sm.OLS(y, X) # 建立 OLS 模型results = model.fit() # 返回模型擬合結果yFit = results.fittedvalues # 模型擬合的 y 值print(results.summary()) # 輸出回歸分析的摘要print("\nOLS model: Y = b0 + b1*X + ... + bm*Xm")print('Parameters: ', results.params) # 輸出：擬合模型的系數# 擬合結果繪圖fig, ax = plt.subplots(figsize=(10, 8))ax.plot(range(len(y)), y, 'bo', label='sample')ax.plot(range(len(yFit)), yFit, 'r--', label='predict')ax.legend(loc='best') # 顯示圖例plt.show() # YouCans, XUPTreturn#= 關注 Youcans，分享原創系列 https://blog.csdn.net/youcans = if __name__ == '__main__':main()

4.3 程序運行結果：

period price average advertise difference sales 0 1 3.85 3.80 5.50 -0.05 7.38 1 2 3.75 4.00 6.75 0.25 8.51 2 3 3.70 4.30 7.25 0.60 9.52 3 4 3.70 3.70 5.50 0.00 7.50 4 5 3.60 3.85 7.00 0.25 9.33OLS Regression Results ============================================================================== Dep. Variable: sales R-squared: 0.895 Model: OLS Adj. R-squared: 0.883 Method: Least Squares F-statistic: 74.20 Date: Fri, 07 May 2021 Prob (F-statistic): 7.12e-13 Time: 11:51:52 Log-Likelihood: 3.3225 No. Observations: 30 AIC: 1.355 Df Residuals: 26 BIC: 6.960 Df Model: 3 Covariance Type: nonrobust ==============================================================================coef std err t P>|t| [0.025 0.975] ------------------------------------------------------------------------------ const 8.0368 2.480 3.241 0.003 2.940 13.134 x1 -1.1184 0.398 -2.811 0.009 -1.936 -0.300 x2 0.2648 0.199 1.332 0.195 -0.144 0.674 x3 0.4927 0.125 3.938 0.001 0.236 0.750 x4 1.3832 0.288 4.798 0.000 0.791 1.976 ============================================================================== Omnibus: 0.141 Durbin-Watson: 1.762 Prob(Omnibus): 0.932 Jarque-Bera (JB): 0.030 Skew: 0.052 Prob(JB): 0.985 Kurtosis: 2.885 Cond. No. 2.68e+16 ==============================================================================OLS model: Y = b0 + b1*X + ... + bm*Xm Parameters: const 8.036813 x1 -1.118418 x2 0.264789 x3 0.492728 x4 1.383207

歡迎關注 Youcans 原創系列，每周更新數模筆記

版權說明：

本問題及數據來自：姜啟源、謝金星，數學模型（第 3版），高等教育出版社

本文內容及例程為作者原創，并非轉載書籍或網絡內容。。

Python數模筆記-PuLP庫（1）線性規劃入門
Python數模筆記-PuLP庫（2）線性規劃進階
Python數模筆記-PuLP庫（3）線性規劃實例
Python數模筆記-NetworkX（1）圖的操作
Python數模筆記-NetworkX（2）最短路徑
Python數模筆記-NetworkX（3）條件最短路徑
Python數模筆記-StatsModels 統計回歸（1）簡介
Python數模筆記-StatsModels 統計回歸（2）線性回歸
Python數模筆記-StatsModels 統計回歸（3）模型數據的準備
Python數模筆記-StatsModels 統計回歸（4）可視化
Python數模筆記-Sklearn （1）介紹
Python數模筆記-Sklearn （2）聚類分析
Python數模筆記-Sklearn （3）主成分分析
Python數模筆記-Sklearn （4）線性回歸
Python數模筆記-Sklearn （5）支持向量機
Python數模筆記-模擬退火算法（1）多變量函數優化
Python數模筆記-模擬退火算法（2）約束條件的處理
Python數模筆記-模擬退火算法（3）整數規劃問題
Python數模筆記-模擬退火算法（4）旅行商問題

總結

以上是生活随笔為你收集整理的Python数模笔记-StatsModels 统计回归（3）模型数据的准备的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【OpenCV 例程200篇】96. 谐
下一篇： python基础课程2（看代码看注释）-