當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

常用于评价回归模型优劣的统计量包括( )。_第四十一讲 R-判断回归模型性能的指标...

發布時間：2023/12/15 编程问答 71 豆豆

生活随笔收集整理的這篇文章主要介紹了常用于评价回归模型优劣的统计量包括( )。_第四十一讲 R-判断回归模型性能的指标... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

當回歸模型建立好以后，如何評價該回歸模型是否與另一個回歸模型有區別，如何比較兩個回歸模型的性能？這一講中，我們將給大家介紹幾個評價回歸模型性能的統計指標。

1. 模型性能指標

在回歸模型中，最常用的評估指標包括：

R平方（R2），它是預測變量能解釋結果變量變異的百分比例，范圍為0到1。 R2是觀察到的實際結果與模型構建的預測值之間的相關系數的平方。R平方越高，模型越好。

均方根誤差（root mean squared error, RMSE），它測量的是模型預測的結果與實際觀察結果間的平均誤差。從數學上講，RMSE是均方誤差（mean squared error, MSE）的平方根，該均方根是觀察到的實際值與模型預測的值之間的均方差。因此，MSE = mean((observeds - predicteds)^2)和RMSE = sqrt(MSE)。RMSE越低，模型越好。

殘差標準誤／殘留標準誤差（residual standard error, RSE），也稱為模型sigma(model sigma)，是針對模型中預測變量數量進行調整的RMSE。RSE越低，模型越好。實際上，RMSE和RSE之間的差異很小，尤其是對于多元數據(含有多個預測變量的模型)而言。

像RMSE一樣，平均絕對誤差（mean absolute error, MAE）也可以測量預測誤差。在數學上，它是觀察到的結果與預測的結果之間的平均絕對差MAE = mean(abs(observeds - predicteds))。與RMSE相比，MAE對異常值的敏感性較低。

F統計量：它提供了模型的整體重要性。它評估至少一個預測變量是否具有非零系數。F統計量越大，對應的統計顯著性p值（p <0.05）越小。

上述性能指標都存在一個問題，即預測變量在解釋結果上即便沒有顯著貢獻，但當加入新的預測變量進模型時，也會對上述性能指標產生影響，這些性能指標對模型的變化是非常敏感的。即，在模型中包括新加的變量時，將始終增加R2并降低RMSE。

因此，我們需要一個更加穩定的指標來指導最佳模型的選擇。

關于R2，有一個調整預測變量數的指標，稱為調整后的R方（Adjusted R-squared），它有效地考慮了模型中的預測變量數量的不同，從而使各個模型可比較。

此外，還有其他四個重要指標- AIC，AICc，BIC和Mallows Cp –它們通常用于模型評估和選擇，是MSE的無偏估計。這些指標數值越低，表示模型越好。

AIC（Akaike‘s Information Criteria）的基本思想是對模型中包含額外變量的行為進行懲罰。每當增加一個新變量時，它將增加一個懲罰值，從而達到控制額外預測變量的效果。AIC越低，模型越好。

AICc是AIC的變體版本，主要是針對小樣本量進行了校正。

BIC（Bayesian information criteria）是AIC的另一種變體，它利用了貝葉斯原理，當模型中增加新的變量時，它將受到比AIC更大的懲罰。

Mallows Cp：是AIC的另一種變體，有Colin Mallows發明，因而稱為Mallows Cp。

通常，用于測量回歸模型性能，以及用于模型間的比較的最常用指標是：校正R方，AIC，BIC和Cp。

2. 加載所需的R包

tidyverse 用于數據處理和可視化
modelr 用于計算回歸模型性能指標
broom 輕松創建包含模型統計指標的整潔數據框（數據集）

library(tidyverse) library(modelr) library(broom)

3. 數據示例

我們將使用R的內置數據集swiss。

# 加載數據 library(datasets) data("swiss") # 查看數據（隨機選取3行數據來查看） sample_n(swiss, 3) Fertility Agriculture Examination Education Catholic Infant.Mortality 1 77.3 89.7 5 2 100.00 18.3 2 76.1 35.3 9 7 90.57 26.6 3 83.1 45.1 6 9 84.84 22.2

研究問題：根據社會經濟相關的多個指標（Agriculture，Examination，Education，Catholic，Infant.Mortality）預測生育力得分（Fertility）。

4. 建立回歸模型

我們首先創建兩個模型：

模型1，包括所有預測變量（[.]表示數據swiss中所有出了結果變量Fertility外所有的變量）

模型2，包括除變量Examination外的所有預測變量（[.-Examination]表示所有的變量，減去Examination）

model1 <- lm(Fertility ~., data = swiss) model2 <- lm(Fertility ~. -Examination, data = swiss)

5. 評估模型性能

有許多用于評估模型質量的R函數和軟件包，包括：

5.1 Stats軟件包

summary() [stats 軟件包中]，返回R平方，調整后的R方和RSE
AIC()和BIC()[stats 軟件包中]，分別計算AIC和BIC

summary(model1) AIC(model1) BIC(model1)

5.2 modelr軟件包

rsquare()，rmse()和mae()[modelr軟件包中]，分別計算R2，RMSE和MAE。

library(modelr) data.frame(R2 = rsquare(model1, data = swiss),RMSE = rmse(model1, data = swiss),MAE = mae(model1, data = swiss) )

5.3 caret軟件包

R2()，RMSE()并MAE()[caret軟件包中]，分別計算R2，RMSE和MAE。

library(caret) predictions <- model1 %>% predict(swiss) data.frame(R2 = R2(predictions, swiss$Fertility),RMSE = RMSE(predictions, swiss$Fertility),MAE = MAE(predictions, swiss$Fertility) )

5.4 broom軟件包

glance() [broom軟件包中]，可以一次性計算所有的指標：R2，調整后的R方，sigma（RSE），AIC，BIC。

library(broom) glance(model1)

5.5 手動計算

手動計算R2，RMSE和MAE：

swiss %>%add_predictions(model1) %>%summarise(R2 = cor(Fertility, pred)^2,MSE = mean((Fertility - pred)^2),RMSE = sqrt(MSE),MAE = mean(abs(Fertility - pred)))

6. 比較回歸模型的性能

在這里，我們將使用該函數glance()來簡單比較兩個模型的整體質量：

# 計算model 1的各個參數 glance(model1) %>%dplyr::select(adj.r.squared, sigma, AIC, BIC, p.value) ## adj.r.squared sigma AIC BIC p.value ## 1 0.671 7.17 326 339 5.59e-10 # 計算model 2的各個參數 glance(model2) %>%dplyr::select(adj.r.squared, sigma, AIC, BIC, p.value) ## adj.r.squared sigma AIC BIC p.value ## 1 0.671 7.17 325 336 1.72e-10

從上面的輸出中可以看出：

這兩個模型的調整后的R方（0.67）完全相同，這意味著它們在解釋結果（此處為生育力得分Fertility）方面是等效的。此外，它們具有相同的殘留標準誤差（RSE或sigma = 7.17）。但是，模型2比模型1更簡單，因為它包含更少的變量。在統計學中，有一個原則就是，如果簡單跟復雜效果一樣，永遠默認簡單模型更好。

模型2的AIC和BIC低于模型1的AIC和BIC。在模型比較中，具有更低AIC和BIC分數的模型是首選。

最后，模型2的統計p值低于模型1的統計p值。這意味著模型2在統計上比模型1顯著性差異更大，這也與上述結論一致。

請注意，RMSE和RSE的度量單位與結果變量是相同的。將RSE除以結果變量的平均值將得到預測誤差率，該誤差率應盡可能小：

sigma(model1)/mean(swiss$Fertility) ## [1] 0.102

在我們的示例中，平均預測錯誤率是10％。

7. 總結

請注意，以上例子中，這些回歸指標都是對內部數據性能進行評價。即，它們是根據用于構建回歸模型的相同數據計算得出的。他們表示的是該模型與現有數據（訓練數據集）的擬合程度，但并不衡量模型與新的測試數據集的擬合程度。

通常，我們并不十分在乎模型在訓練數據上的效果如何。我們更在乎的是，我們建的模型對另一個完全獨立的測試數據集的預測準確性。

但是，并不是每個研究都能找個一個或者多個相對獨立的測試數據集，因此，我們有了交叉驗證法和自舉重采樣（bootstrap-resampling）驗證法來對該模型對測試數據集的預測準確性進行評估。

我們將在第四十二和四十三講中進行解說。

參考內容：

1. Alboukadel Kassambara, Machine Learning Essentials: Practical Guide in R

如果您覺得我說的對您有幫助，請點贊讓我感到您的支持，您的支持是我寫作最大的動力~

ijournal：高顏值的期刊檢索網站，助您快速找到理想目標期刊（weixin小程序也上線了哦）

投必得：全專業中英文論文潤色編輯助力您的論文快速發表，點擊了解業務詳情

專欄傳送門：

投必得科研軟件安裝使用手冊；投必得：SCI期刊介紹與選擇；投必得，教你寫論文；投必得統計分析大講堂；投必得科研生活解憂雜貨店

總結

以上是生活随笔為你收集整理的常用于评价回归模型优劣的统计量包括( )。_第四十一讲 R-判断回归模型性能的指标...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：正义执行！“合同的神”RNG因合同纠纷被
下一篇： opengl 纹理贴到对应的位置_一步步