當前位置：首頁 > 编程语言 > python >内容正文

python

python多元线性回归实例_利用Python进行数据分析之多元线性回归案例

發布時間：2023/12/20 python 65 豆豆

生活随笔收集整理的這篇文章主要介紹了 python多元线性回归实例_利用Python进行数据分析之多元线性回归案例小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

線性回歸模型屬于經典的統計學模型，該模型的應用場景是根據已知的變量(自變量)來預測某個連續的數值變量(因變量)。例如，餐廳根據每天的營業數據(包括菜譜價格、就餐人數、預定人數、特價菜折扣等)預測就餐規模或營業額；網站根據訪問的歷史數據(包括新用戶的注冊量、老用戶分活躍度、網頁內容的更新頻率等)預測用戶的支付轉化率。

在開始多元線性模型前介紹下一元線性模型。數學公式可以表示為：

一個因變量，一個自變量。參數求解公式為：

多元線性回歸模型與一元線性回歸模型的區別就是，自變量的增加。其數學表達式為：

可以簡寫為：

β代表多元線性回歸模型的偏回歸系數，e代表了模型擬合后每一個樣本的誤差項。利用最小二乘法求解β，可以得到：

將相應的x值，y值代入公式即可求得β。

我們構建模型的目的是為了預測，即根據已知的自變量X值預測未知的因變量y的值。本文是利用Python 實現這一目標。

這里以某產品的利潤數據集為例，該數據集包含5個變量，分別是產品的研發成本、管理成本、市場營銷成本、銷售市場和銷售利潤。其中銷售利潤Profit為因變量，其他變量為自變量。

回歸模型的建模和預測

將導入數據的數據進行切割，訓練集用來訓練模型，測試集用來預測。

測試集刪除因變量Profit，剩下的自變量進行預測，結果用來跟刪除的因變量進行對比，比較模型的預測能力。

數據集中的State變量為字符型的離散變量，需要進行啞變量處理。將State套在C()中，表示將其當作分類(Category)變量處理。以上默認State(California)為對照組。

接下來通過pandas中的get_dummies函數生成啞變量，以New York作為對照組。

如上結果所示，從離散變量State中衍生出來的啞變量在回歸系數的結果里只保留了Florida和California，而New York作為了參照組。得到的結果表示該模型公式為：

Profit=58068.05+0.80RD_Spend-0.06Administation+0.01Marketing_Spend+1440.86Florida+513.47California

如何解釋該模型呢，以RD_Spend和Florida為例，在其他變量不變的情況下，研發成本每增加2美元，利潤會增加0.80美元；在其他變量不變的情況下，以New York為基準線，如果在Florida銷售產品，利潤會增加1440.86美元。

雖然模型已經建成，但是模型的好壞還需要模型的顯著性檢驗和回歸系數的顯著性檢驗。

回歸模型的假設檢驗

模型的顯著性檢驗使用F檢驗。

手工計算F值和模型自帶的F統計值計算完全一致。，接下倆將計算得出的F統計值和理論F分布的值進行比較。

計算出的F統計值遠遠大于理論F值，這里可以拒絕原假設，即認為多元線性回歸是顯著的，也就是回歸模型的偏回歸系數不全為0。

回歸系數的顯著性檢驗t檢驗

如上結果所示，模型的概覽信息包含三個部分，第一部分主要是有關模型的信息，例如模型的判決系數R2，用來衡量自變量對因變量的解釋程度，模型的F統計值，用來檢驗模型的顯著性；第二部分主要包含偏回歸系數的信息，例如回歸系數的Coef、t統計量值、回歸系數的置信區間等；第三部分主要涉及模型的誤差項e的有關信息。

在第二部分的內容中，含有每個偏回歸系數的t統計量值，它的計算就是由估計值coef和標準差std err的商所得的，同時也有t統計量值對應的概率值p，用來判別統計量是否顯著的直接辦法，通常概率值p小于0.05時表示拒絕原假設。從返回的結果可知，只有截距項Intercept和研發成本RD_Spend對應的值小于0.05，才說明其余變量都沒有通過系數的顯著性檢驗，即在模型中這些變量不是影響利潤的重要因素。

回歸模型的診斷

當回歸模型建好之后，并不意味著建模過程的結束，還需要進一步對模型進行診斷。由統計學知識可知，線性回歸模型需要滿足一些假設前提，只有滿足了這些假設，模型才是合理的。需滿足：誤差e服從正態分布，無多重共線性，線性相關性，誤差項e的獨立性，方差齊性。

正態性檢驗，由y=Xβ+e來說，等式右邊的自變量屬于已知變量，而等式左邊的因變量服從正態分布，要求殘差項要求正態分布，但其實質就是要求因變量服從正態分布。關于正態性檢驗通常運用兩類方法，分別是定性的圖形法(直方圖、PP圖或QQ圖)和定量的非參數法(Shapiro檢驗和K-S檢驗)，以下是直方圖法，

從圖中看，和密度曲線和正態分布密度曲線的趨勢比較吻合，故直觀上可以認為利潤變量服從正態分布。以下是PP圖和QQ圖法，

PP圖思想是對比正態分布的累計概率值和實際分布的累計概率值，而QQ圖則比正態分布的分位數和實際分布的分位數。判斷變量是否近似服從正態分布的標準是：如果散點都比較均勻地散落在直線上，就說明近似服從正態分布，否則就認為數據不服從正態分布。如圖所知，不管是PP圖還是QQ圖，繪制的散點均落在直線的附近，沒有較大的偏離，故認為利潤變量近似服從正態分布。

多重共線性檢驗

多重共線性是指模型中的自變量之間存在較高的線性相關關系，它的存在給模型帶來嚴重的后果。可以使用方差膨脹因子VIF來鑒定，如果VIF大于10，則說明變量間存在多重共線性；如果如果VIF大于100，則表明變量之間存在嚴重的多重共線性。VIF的計算公式為:

如上計算所示，兩個自變量對應的方差膨脹因子均小于10，說明構建模型的數據并不存在多重共線性。

線性相關性檢驗

線性相關性即用于建模的因變量和自變量之間存在線性相關關系，可以使用Pearson相關系數和可視化方法進行識別，皮爾遜計算公式為:

如上圖結果所示，自變量中只有研發成本和市場營銷成本與利潤之間存在較高的相關系數，相關系數分別達到0.978和0.739，而其他變量與利潤之間幾乎沒有線性相關性可言。以管理成本Administration為例，與利潤之間的相關系數只有0.2，被認定為不相關，但是能說明兩者不具有線性相關關系，當存在非線性相關關系時，皮爾遜系數也會很小，因此需要可視化的方法觀測因變量和自變量之間的散點關系。可以使用seaborn模塊中的pairplot函數。

從圖中結果可知，研發成本和利潤之間的散點圖幾乎為一條向上傾斜的直線(左下角)，說明這兩種變量之間確實存在很強的線性相關；市場營銷成本與利潤之間的散點圖同樣向上傾斜，但也有很多點的分布還是比較分散的(見第一列第三行)；管理成本和利潤之間的散點圖呈水平趨勢，而且分布也比較寬，說明兩者之間確實沒有任何關系(第一列第二行)。

以重構的model2為例，綜合考慮相關系數，散點圖矩陣和t檢驗的結果，最終確定只保留model2中的RDSpend和Marketing_Spend兩個自變量，下面重新對該模型做修正。

異常值檢驗

由于多元線性回歸模型容易受到極端值的影響，故需要利用統計方法對觀測樣本進行異常點檢測。如果在建模過程發現異常數據，需要對數據集進行整改，如刪除異常值或衍生出是否為異常值的啞變量。對于線性回歸模型，通常利用帽子矩陣，DFFITS準則，學生化殘差或cook距離進行異常點檢測。基于get_influence方法獲得四種統計量的值。

以上合并了四種統計量的值，這里使用標準化殘差法將異常值查詢出來，當標準化殘差大于2時，即可認為對應的數據點為異常值。

異常比例為2.5%，比較小，故考慮將其刪除。

新的模型公式為：Profit=51827.42+0.80RD_Spend+0.02Marketing_Spend

獨立性檢驗

殘差e的獨立性檢驗也就是因變量y的獨立性檢驗。通常使用Durbin-Watson統計值來測試，如果DW值在2 左右，則表明殘差之間時不相關的；如果與2偏離的教員，則說明不滿足殘差的獨立性假設。

DW統計量的值為2.065，比較接近于2，故可以認為模型的殘差項之間是滿足獨立性這個假設前提的。

方差齊性檢驗

方差齊性是要求模型殘差項的方差不隨自變量的變動而呈現某種趨勢，否則，殘差的趨勢就可以被自變量刻畫。關于方差齊性的檢驗，一般可以使用兩種方法，即圖形法(散點圖)和統計檢驗法(BP檢驗)。

如圖所示，標準化殘差沒有隨自變量的變動而呈現喇叭性，所有的散點幾乎均勻的分布在參考線y=0的附近。所以，可以說明模型的殘差項滿足方差齊性的前提假設。

經過前文的模型構造、假設檢驗和模型診斷，最新紅確定合理的模型model4。接下來就是利用測試集完成預測。

如上圖所示，繪制了有關模型在測試集上的預測值和實際值的散點圖。兩者非常接近，散點在直線附近波動，說明模型的預測效果還是不錯的。

總結

以上是生活随笔為你收集整理的python多元线性回归实例_利用Python进行数据分析之多元线性回归案例的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python读取.ttf字体文件
下一篇： python爬虫实践——自动登录抽屉新热

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python多元线性回归实例_利用Python进行数据分析之多元线性回归案例

總結