统计学任务4打卡
線性回歸:
就是能夠用一個直線較為精確地描述數(shù)據(jù)之間的關(guān)系。這樣當(dāng)出現(xiàn)新的數(shù)據(jù)的時候,就能夠預(yù)測出一個簡單的值。線性回歸中最常見的就是房價的問題。一直存在很多房屋面積和房價的數(shù)據(jù),如下圖所示:
在這種情況下,就可以利用線性回歸構(gòu)造出一條直線來近似地描述放假與房屋面積之間的關(guān)系,從而就可以根據(jù)房屋面積推測出房價。
2 線性回歸的函數(shù)模型
通過線性回歸構(gòu)造出來的函數(shù)一般稱之為了線性回歸模型。線性回歸模型的函數(shù)一般寫作為:
3 線性回歸模型的代價函數(shù)
通過線性回歸算法,我們可能會得到很多的線性回歸模型,但是不同的模型對于數(shù)據(jù)的擬合或者是描述能力是不一樣的。我們的目的最終是需要找到一個能夠最精確地描述數(shù)據(jù)之間關(guān)系的線性回歸模型。這是就需要用到代價函數(shù)。代價函數(shù)就是用來描述線性回歸模型與正式數(shù)據(jù)之前的差異。如果完全沒有差異,則說明此線性回歸模型完全描述數(shù)據(jù)之前的關(guān)系。如果需要找到最佳擬合的線性回歸模型,就需要使得對應(yīng)的代價函數(shù)最小,相關(guān)的公式描述如下:
Hypothesis,表示的就是線性回歸模型Cost Function,代價函數(shù)Goal,就是要求對應(yīng)的代價函數(shù)最小4 線性回歸模型求解
假設(shè)在線性回歸模型中僅僅只存在一個函數(shù),就是斜率參數(shù)。即theta-0是0。如果存在如下的數(shù)據(jù):
圖中對應(yīng)的3個點(diǎn)分別為(1,1),(2,2),(3,3)那么很明顯,最佳線性回歸模型就是h(x)=x。如果通過實(shí)驗(yàn)證明呢?我們畫出在theta-1處于不同值的代價函數(shù)。
5 線性回歸模型的特點(diǎn):
1,建模速度快,不需要很復(fù)雜的計(jì)算,在數(shù)據(jù)量大的情況下依然運(yùn)行速度很快。
2,可以根據(jù)系數(shù)給出每個變量的理解和解釋。
3,對異常值很敏感。
卡方分布:
設(shè) X1,X2,......Xn相互獨(dú)立, 都服從標(biāo)準(zhǔn)正態(tài)分布N(0,1), 則稱隨機(jī)變量χ2=X12+X22+......+Xn2所服從的分布為自由度為 n 的χ2分布.[1]?
卡方分布的 期望E(χ2)=n,方差D(χ2)=2n
卡方分布:若n個相互獨(dú)立的隨機(jī)變量ξ?、ξ?、……、ξn ,均服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)(也稱獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布),則這n個服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量的平方和構(gòu)成一新的隨機(jī)變量,其分布規(guī)律稱為 分布(chi-squaredistribution)。其中參數(shù)n稱為自由度(通俗講,樣本中獨(dú)立或能自由變化的自變量的個數(shù),稱為自由度),正如正態(tài)分布中均值或方差不同就是另一個正態(tài)分布一樣,自由度不同就是另一個分布。記為 分布的均值為自由度 n,記為 E() = n;分布的方差為2倍的自由度(2n),記為 D() = 2n。
?
從分布圖可以看出:分布在第一象限內(nèi),卡方值都是正值,呈正偏態(tài)(右偏態(tài)),隨著參數(shù) n 的增大,分布趨近于正態(tài)分布;隨著自由度n的增大,分布向正無窮方向延伸(因?yàn)榫祅越來越大),分布曲線也越來越低闊(因?yàn)榉讲?n越來越大)。
方差分析:
實(shí)驗(yàn)中,我們要考察的指標(biāo)為試驗(yàn)指標(biāo),影響的條件成為因素。由于各種因素的影響,使得測試數(shù)據(jù)結(jié)果呈波動狀,包含不可控的隨機(jī)因素、人為調(diào)控的可控因素。
?
應(yīng)用條件:
1、各樣本是相互獨(dú)立的隨機(jī)樣本
2、各樣本均來自正態(tài)分布總體
3、各樣本的總體方差相等,即具有方差齊性
?
單因素方差分析(one-way ANOVA)
試驗(yàn)參數(shù)
假設(shè)因素A有s個水平A1,A2…..,As,每個水平下進(jìn)行nj次獨(dú)立試驗(yàn),樣本總數(shù)n
?
?觀測變量總離差平方和?=?組間離差平方和?+?組內(nèi)離差平方和,表述為:SST=SSA+SSE。
組內(nèi)差異——測量誤差、個體差異
????????SSE(誤差平方和)各個水平下,樣本觀察值與樣本均值差異的平方和
??????? 組內(nèi)自由度??dfe=n-s
組間差異——不同實(shí)驗(yàn)條件處理
????????SSA(因素A的效應(yīng)平方和)各個水平下樣本平均值與數(shù)據(jù)總平均差異的平方和
??????? 組間自由度??dfa=s-1
均方 = 離差平方和 / 自由度 ? SA=SSA/dfa?? SE=SSE/dfe
?
?
單因素方差分析基本步驟
1、提出原假設(shè):H0——無差異;H1——有顯著差異
2、選擇檢驗(yàn)統(tǒng)計(jì)量:方差分析采用的檢驗(yàn)統(tǒng)計(jì)量是F統(tǒng)計(jì)量,即F值檢驗(yàn)
| 拒絕H0 | F>F0.05(dfa,dfe) | 組間均方>>組內(nèi)均方,來自不同正態(tài)總體 |
| 接受H0 | F<F0.05(dfa,dfe) | 組間均方<<組內(nèi)均方,來自相同正態(tài)總體 |
3、計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀測值和概率P值
4、給定顯著性水平,并作出決策
?
方差齊性檢驗(yàn) ? ? ?——對控制變量不同水平下各觀測變量總體方差是否相等進(jìn)行檢驗(yàn)
控制變量不同水平下觀測變量總體方差無顯著差異是方差分析的前提要求。
若不滿足,便不能認(rèn)為各總體分布相同。
?
多重比較檢驗(yàn) ? ? ?——控制變量的不同水平對觀測變量的影響程度如何
實(shí)現(xiàn)對各個水平下觀測變量總體均值的逐對比較
?
?
多(雙)因素方差分析
?
單獨(dú)效應(yīng)???——其他因素固定,某一因素不同水平之間均數(shù)的差別
交互效應(yīng) ??——某因素的單獨(dú)效應(yīng),隨另一因素水平而變化,且不能用隨機(jī)誤差解釋
試驗(yàn)參數(shù)
??????? 假設(shè)因素A有r個水平(A1,A2…..,Ar),因素B有s個水平(B1,B2……,Bs),每個ABzuhe進(jìn)行t次獨(dú)立試驗(yàn),樣本總數(shù)n
?
所有數(shù)據(jù)平均值μ,αi是水平Ai的效應(yīng),βj是水平Bj的效應(yīng),γij表示Ai與Bj的交互作用
同樣計(jì)算離差平方和SST=SSA+SSE+SSB+SSAB
SSE(誤差平方和)每個(ij)水平下測量值與均值差異的平方和
SSA、SSB(因素A\B的效應(yīng)平方和)、SSAB(AB交互效應(yīng)平方和)
?
例如雙因素方差分析的基本步驟
??????? 1、提出原假設(shè):
| ? | 因素A(r) | 因素B(s) | AB交互作用(rs) |
| 無顯著差異 | H01 | H02 | H03 |
| 有顯著差異 | H11 | H12 | H13 |
?
??????? 2、F值檢驗(yàn)
| 拒絕H01 | F0.05(dfa,dfe)<FA | 因素A不同存在顯著差異 |
| 拒絕H02 | F0.05(dfb,dfe)<FB | 因素B不同存在顯著差異 |
| 拒絕H03 | F0.05(dfab,dfe)<FAB | 因素A與B存在交互效應(yīng) |
轉(zhuǎn)載于:https://www.cnblogs.com/zhgmen/p/10672771.html
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
- 上一篇: eclipse自动补全
- 下一篇: 创建一个dynamics 365 CRM