线性回归中的前提假设
生活随笔
收集整理的這篇文章主要介紹了
线性回归中的前提假设
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
在談線性回歸模型的時(shí)候被問到,在線性回歸中,有三個(gè)假設(shè),是哪三個(gè)?
當(dāng)時(shí)回答出來自變量x和因變量y之間是線性變化關(guān)系,也就是說,如果x進(jìn)行線性變化的話,y也會(huì)有相應(yīng)的線性變化。
提到數(shù)據(jù)樣本的時(shí)候也答道了樣本點(diǎn)之間要求是獨(dú)立同分布的(根據(jù)MLE準(zhǔn)則,假定對(duì)樣本加上高斯白噪聲e的情況下)。
但是第三個(gè)最終還是沒有答上來,面試官也沒有再給提示,所以回來自己再查一下。
LR的wiki頁面(http://en.wikipedia.org/wiki/Linear_regression)中,有提到了LR的假設(shè),分別是:
Weak exogeneity:弱外生性。看意思是說假設(shè)用來預(yù)測(cè)的自變量x是沒有測(cè)量誤差的。這一假設(shè)當(dāng)然是不現(xiàn)實(shí)的,不過如果沒有這個(gè)假設(shè)的話,模型的復(fù)雜度會(huì)大大增加。
Linearity:線性。就是因變量y是多個(gè)自變量x之間的線性組合。
Constant variance (aka homoscedasticity):同方差性。意思是說不同的因變量x的方差都是相同的。
Independence of errors:誤差獨(dú)立性。即是變量之間是獨(dú)立的(有些方法可以處理變量之間不獨(dú)立的情況,如generalized least squares等)。
Lack of multicollinearity in the predictors:預(yù)測(cè)變量之中沒有多重共線性。多重共線性意思是說,This can be triggered by having two or more perfectly correlated predictor variables (e.g. if the same predictor variable is mistakenly given twice, either without transforming one of the copies or by transforming one of the copies linearly). It can also happen if there is too little data available compared to the number of parameters to be estimated (e.g. fewer data points than regression coefficients). 其后果是:In the case of multicollinearity, the parameter vector β will be non-identifiable—it has no unique solution. 我的理解是說,沒有特征之間的交叉或者多次重復(fù)某些互相相關(guān)的特征。其實(shí)感覺,如果有特征交叉或多次重復(fù)相關(guān)特征的話,應(yīng)該就是非線性模型了。當(dāng)時(shí)上課的時(shí)候李老師在如何用線性回歸模型來描述非線性特征中提到了,就是使用特征交叉、對(duì)同一個(gè)feature分區(qū)間改變權(quán)重(區(qū)間之間也可以交叉)一類的方法。如果這樣導(dǎo)致特征過多、計(jì)算量大,而想要降低維度的話,可以使用聚類來把相似特征聚到一起,或者使用L1范數(shù)來進(jìn)行特征選擇。
感覺這幾個(gè)假設(shè)中,我提到了線性假設(shè)(線性假設(shè)應(yīng)該也算是包含了沒有多重共線性吧,個(gè)人猜測(cè)),獨(dú)立同分布假設(shè)中應(yīng)該算是包含了同方差性、誤差獨(dú)立性。所以,可能沒提到的那個(gè)指的是弱外生性,也就是假設(shè)樣本點(diǎn)的取得是沒有測(cè)量誤差的,這一個(gè)假設(shè)一般現(xiàn)實(shí)中都不滿足,但是都會(huì)假設(shè)滿足來降低模型復(fù)雜度。
當(dāng)時(shí)回答出來自變量x和因變量y之間是線性變化關(guān)系,也就是說,如果x進(jìn)行線性變化的話,y也會(huì)有相應(yīng)的線性變化。
提到數(shù)據(jù)樣本的時(shí)候也答道了樣本點(diǎn)之間要求是獨(dú)立同分布的(根據(jù)MLE準(zhǔn)則,假定對(duì)樣本加上高斯白噪聲e的情況下)。
但是第三個(gè)最終還是沒有答上來,面試官也沒有再給提示,所以回來自己再查一下。
LR的wiki頁面(http://en.wikipedia.org/wiki/Linear_regression)中,有提到了LR的假設(shè),分別是:
Weak exogeneity:弱外生性。看意思是說假設(shè)用來預(yù)測(cè)的自變量x是沒有測(cè)量誤差的。這一假設(shè)當(dāng)然是不現(xiàn)實(shí)的,不過如果沒有這個(gè)假設(shè)的話,模型的復(fù)雜度會(huì)大大增加。
Linearity:線性。就是因變量y是多個(gè)自變量x之間的線性組合。
Constant variance (aka homoscedasticity):同方差性。意思是說不同的因變量x的方差都是相同的。
Independence of errors:誤差獨(dú)立性。即是變量之間是獨(dú)立的(有些方法可以處理變量之間不獨(dú)立的情況,如generalized least squares等)。
Lack of multicollinearity in the predictors:預(yù)測(cè)變量之中沒有多重共線性。多重共線性意思是說,This can be triggered by having two or more perfectly correlated predictor variables (e.g. if the same predictor variable is mistakenly given twice, either without transforming one of the copies or by transforming one of the copies linearly). It can also happen if there is too little data available compared to the number of parameters to be estimated (e.g. fewer data points than regression coefficients). 其后果是:In the case of multicollinearity, the parameter vector β will be non-identifiable—it has no unique solution. 我的理解是說,沒有特征之間的交叉或者多次重復(fù)某些互相相關(guān)的特征。其實(shí)感覺,如果有特征交叉或多次重復(fù)相關(guān)特征的話,應(yīng)該就是非線性模型了。當(dāng)時(shí)上課的時(shí)候李老師在如何用線性回歸模型來描述非線性特征中提到了,就是使用特征交叉、對(duì)同一個(gè)feature分區(qū)間改變權(quán)重(區(qū)間之間也可以交叉)一類的方法。如果這樣導(dǎo)致特征過多、計(jì)算量大,而想要降低維度的話,可以使用聚類來把相似特征聚到一起,或者使用L1范數(shù)來進(jìn)行特征選擇。
感覺這幾個(gè)假設(shè)中,我提到了線性假設(shè)(線性假設(shè)應(yīng)該也算是包含了沒有多重共線性吧,個(gè)人猜測(cè)),獨(dú)立同分布假設(shè)中應(yīng)該算是包含了同方差性、誤差獨(dú)立性。所以,可能沒提到的那個(gè)指的是弱外生性,也就是假設(shè)樣本點(diǎn)的取得是沒有測(cè)量誤差的,這一個(gè)假設(shè)一般現(xiàn)實(shí)中都不滿足,但是都會(huì)假設(shè)滿足來降低模型復(fù)雜度。
總結(jié)
以上是生活随笔為你收集整理的线性回归中的前提假设的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Adaboost方法分类新闻数据
- 下一篇: SVM中为何间隔边界的值为正负1