當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

回归的误差服从正态分布吗_盘点10大回归类型：总有一款深得你心

發(fā)布時(shí)間：2024/9/27 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了回归的误差服从正态分布吗_盘点10大回归类型：总有一款深得你心小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

全文共2507字，預(yù)計(jì)學(xué)習(xí)時(shí)長(zhǎng)5分鐘

除了統(tǒng)計(jì)模型和其他的一些算法，回歸是機(jī)器學(xué)習(xí)成功運(yùn)行的重要構(gòu)成要素。回歸的核心是尋找變量之間的關(guān)系，而機(jī)器學(xué)習(xí)需要根據(jù)這種關(guān)系來(lái)預(yù)測(cè)結(jié)果。

顯然，任何稱(chēng)職的機(jī)器學(xué)習(xí)工程師都應(yīng)重視回歸，但回歸也有很多種。線(xiàn)性回歸和邏輯回歸通常是人們最先學(xué)習(xí)的算法，然而還有許多回歸類(lèi)型。每種類(lèi)型都有各自的重要性，并且有最適合應(yīng)用的情境。那么，該用哪一種呢？

本文將用通俗易懂的方式介紹最常用的回歸類(lèi)型，遇到具體任務(wù)時(shí)你便知曉該使用哪一種。

1. 線(xiàn)性回歸Linear regression

線(xiàn)性回歸是最典型的回歸類(lèi)型，大約250年前就已出現(xiàn)，也被稱(chēng)為普通最小二乘法(OLS)和線(xiàn)性最小二乘法回歸。可以使用它對(duì)小數(shù)據(jù)集進(jìn)行計(jì)算，甚至可以手動(dòng)計(jì)算。目前線(xiàn)性回歸常用于插值，但不適合實(shí)際預(yù)測(cè)和主動(dòng)分析。

另外，現(xiàn)代數(shù)據(jù)常常結(jié)構(gòu)混亂，線(xiàn)性回歸容易“滯后”：線(xiàn)性回歸過(guò)于精確。如果模型對(duì)一組數(shù)據(jù)計(jì)算精確，對(duì)另一組數(shù)據(jù)卻極不精確，而線(xiàn)性回歸本應(yīng)描述一般模式，過(guò)于精確會(huì)使其在幾乎所有情況下變得不穩(wěn)定。

2. 嶺回歸Ridge regression

嶺回歸是線(xiàn)性回歸的重要改進(jìn)，增加了誤差容忍度，對(duì)回歸系數(shù)進(jìn)行了限制，從而得到更加真實(shí)的結(jié)果，并且結(jié)果更容易解釋。該方法用于解決自變量之間相互關(guān)聯(lián)(多重共線(xiàn)性)時(shí)的數(shù)據(jù)冗余問(wèn)題。

嶺回歸需要使用如下公式來(lái)評(píng)估參數(shù)：

3. 套索回歸Lasso-regression

套索回歸與嶺回歸類(lèi)似，但回歸系數(shù)可為0(模型中排除了一些符號(hào))。

4. 偏最小二乘法回歸Partial least squares(PLS)

與自變量數(shù)目相比，觀(guān)察結(jié)果很少時(shí)，或者自變量高度相關(guān)時(shí)，PLS會(huì)很有用。PLS可將自變量減少，并使其不相關(guān)，類(lèi)似于主成分分析。然后，對(duì)這些自變量而非原始數(shù)據(jù)進(jìn)行線(xiàn)性回歸。

PLS強(qiáng)調(diào)發(fā)展預(yù)測(cè)模型，不用于篩選變量。與OLS不同，PLS可以包含多個(gè)連續(xù)因變量。PLS利用相關(guān)結(jié)構(gòu)識(shí)別較小的效應(yīng)，并對(duì)因變量中的多元模式進(jìn)行建模。

來(lái)源：Pexels

5. 邏輯回歸Logistic regression

邏輯回歸廣泛應(yīng)用于臨床試驗(yàn)、量化，或者欺詐分析——當(dāng)測(cè)試藥物或信用卡交易的信息可以二進(jìn)制形式(是/否)獲得時(shí)。線(xiàn)性回歸固有的缺點(diǎn)它也有，如低誤差容忍度、依賴(lài)數(shù)據(jù)集，但總的來(lái)說(shuō)，邏輯回歸更好，并且可以簡(jiǎn)化為線(xiàn)性回歸類(lèi)型來(lái)簡(jiǎn)化計(jì)算。有些版本如泊松回歸得到了改進(jìn)，以便有時(shí)需要得到非二進(jìn)制答案，例如分類(lèi)、年齡組、甚至回歸樹(shù)。

6. 生態(tài)回歸 Ecological Regression

生態(tài)回歸用于將數(shù)據(jù)劃分為相當(dāng)大的層或組的情況(回歸分別應(yīng)用于每個(gè)層或組)，例如，在政治學(xué)中生態(tài)回歸用于根據(jù)匯總數(shù)據(jù)評(píng)估選民的群體行為。

然而，應(yīng)該警惕“大數(shù)據(jù)的詛咒”：如果對(duì)數(shù)百萬(wàn)次回歸進(jìn)行統(tǒng)計(jì)，其中一些模型可能完全不準(zhǔn)確，成功的模型將被高度(且人為)一致的嘈雜模型“擊潰”。因此，這種類(lèi)型的回歸不適合預(yù)測(cè)極端事件(地震)和研究因果關(guān)系(全球變暖)。

7.貝葉斯線(xiàn)性回歸Bayesian linear regression

貝葉斯線(xiàn)性回歸與嶺回歸類(lèi)似，但它的前提是所有可能的誤差都服從正態(tài)分布。因此，假設(shè)對(duì)數(shù)據(jù)結(jié)構(gòu)有基本了解，就可能獲得更精確的模型(特別是與線(xiàn)性回歸相比)。

然而，在實(shí)際操作中，若處理大數(shù)據(jù)，對(duì)數(shù)據(jù)的初始了解并不能保證準(zhǔn)確性，所以這種假設(shè)是基于共軛值的，即本質(zhì)上是人為的，這是這種回歸類(lèi)型的一個(gè)顯著缺陷。

觀(guān)測(cè)變量的計(jì)算：

誤差服從正態(tài)分布：

8. 分位數(shù)回歸Quantile regression

分位數(shù)回歸用于極端事件，包括故意在結(jié)果中引入偏差，從而提高模型的準(zhǔn)確性。

9. 最小絕對(duì)偏差Least absolute deviations(LAD)

最小絕對(duì)偏差也稱(chēng)為最小絕對(duì)誤差(LAE)、最小絕對(duì)值(LAV)、最小絕對(duì)殘差(LAR)、絕對(duì)偏差之和或L1范數(shù)條件，是最小的模量方法。它用于從包含隨機(jī)誤差的測(cè)量值中評(píng)估未知值，以及估算給定函數(shù)的表示法(近似值)。最小絕對(duì)偏差看起來(lái)像線(xiàn)性回歸，但使用的是絕對(duì)值而不是平方。因此，模型的準(zhǔn)確性有所提高，且沒(méi)有使計(jì)算復(fù)雜化。

10. 刀切法重采樣Jackknife resampling(大折刀法)

刀切法重采樣是一種用于聚類(lèi)和數(shù)據(jù)細(xì)化的新型回歸方法。這種方法不具有典型回歸類(lèi)型的缺點(diǎn)，能為回歸問(wèn)題提供近似但非常準(zhǔn)確、抗誤差的解決方案，自變量相關(guān)或不“服從”正態(tài)分布時(shí)都可使用。

這種類(lèi)型的回歸很適合黑盒類(lèi)型預(yù)測(cè)算法，它非常接近線(xiàn)性回歸，沒(méi)有精度損失，即使傳統(tǒng)回歸假設(shè)(變量不相關(guān)、數(shù)據(jù)正態(tài)分布、條件方差恒定)由于數(shù)據(jù)性質(zhì)不被接受，它依舊可以使用。

假設(shè)樣本如下：

在概率統(tǒng)計(jì)理論中，假設(shè)這是一組獨(dú)立同分布的隨機(jī)變量，且以下是要研究的數(shù)據(jù)：

約翰?圖基(John Tukey)在1949年提出的觀(guān)點(diǎn)(即“大折刀法”)是對(duì)一個(gè)樣本做大量的研究，排除一個(gè)觀(guān)察結(jié)果(并返回之前被排除的結(jié)果)。下面列出了從原始數(shù)據(jù)中獲得的樣本：

每一項(xiàng)都有n個(gè)新樣本，樣本容量為n-1，且都可用來(lái)計(jì)算計(jì)量經(jīng)濟(jì)學(xué)感興趣的統(tǒng)計(jì)數(shù)據(jù)的價(jià)值(樣本容量減1)：

通過(guò)獲得的統(tǒng)計(jì)值，可了解其分布和分布的特征，如期望、中值、分位數(shù)、散點(diǎn)和均方差。

那么，該使用哪一種回歸？

· 如果模型需要連續(xù)的因變量：

線(xiàn)性回歸是最常見(jiàn)和最直接的使用類(lèi)型。如果有一個(gè)連續(xù)的因變量，可能要首先考慮線(xiàn)性回歸模型。然而，要注意線(xiàn)性回歸的幾個(gè)缺點(diǎn)，如對(duì)異常值和多重共線(xiàn)性很敏感。在這種情況下，最好使用更高級(jí)的線(xiàn)性回歸變體，如嶺回歸、套索回歸和偏最小二乘法回歸(PLS)。

· 如果模型需要分類(lèi)因變量：

應(yīng)使用邏輯回歸。這種模型最適合二元因變量。在進(jìn)行更復(fù)雜的分類(lèi)建模之前，最好先使用這種模型。分類(lèi)變量的有些值可以根據(jù)特征放入可計(jì)數(shù)的不同組中。邏輯回歸對(duì)因變量進(jìn)行變換，然后使用最大似然估計(jì)法而非最小二乘法來(lái)估計(jì)參數(shù)。

· 如果模型需要計(jì)數(shù)因變量：

應(yīng)使用泊松回歸。計(jì)數(shù)數(shù)據(jù)往往遵循泊松分布，因此泊松回歸很適合。使用泊松變量可以計(jì)算和評(píng)估發(fā)生率。

留言點(diǎn)贊關(guān)注

我們一起分享AI學(xué)習(xí)與發(fā)展的干貨

歡迎關(guān)注全平臺(tái)AI垂類(lèi)自媒體 “讀芯術(shù)”

總結(jié)

以上是生活随笔為你收集整理的回归的误差服从正态分布吗_盘点10大回归类型：总有一款深得你心的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： php验证mysql内数据_MySQL中
下一篇：贾又福大象鸿蒙,奏乐！继续吹！库里又创记