《商务与经济统计》(三)
第十三章:實驗設計與方差分析(AN0VA)
獨立變量/因子、處理、、總體、因變量/響應變量、實驗單元、完全隨機化設計。
1、應用方差分析需要三個假定:① 對每個總體,響應變量/因變量服從正態分布;
② 響應變量的方差(),對所有總體都是相同的;③?觀測值必須是獨立的。
2、
3、對于一個完全隨機化實驗設計,如何應用方差分析來檢驗k個總體均值是否相等?
即:只要樣本容量全相等,總樣本均值=k個樣本均值的算術平均。
4、(注:若H0為真,則MSTR給出的是σ2的一個無偏估計;若k個總體均值不等,MSTR將高估總體方差)
(注:MSE永遠給出的是σ2的一個無偏估計)
5、方差估計的比較:F檢驗
若原假設H0為真,則MSTR和MSE均給出σ2的兩個獨立的無偏估計量。
(由11章,對于正態總體,σ2的兩個獨立估計量之比的抽樣分布服從F分布。)
因此,若原假設H0為真,并且ANOVA的假定滿足,則
MSTR/MSE的抽樣分布服從一個分子自由度為k-1,分母為nT-k的F分布。
但是,若H0不成立,MSTR是高估總體方差的,該比值將被夸大,因此可用來拒絕H0.
方差分析表(ANOVA table):方差分析可以看作將總平方和及其自由度分解成它們對應來源(處理+誤差)的一個過程。
6、對于一個完全隨機化實驗,可以應用方差分析來檢驗k個總體均值是否相等的問題;
同樣,對于觀測性研究得到的數據,也可用ANOVA 來檢驗三個或三個以上的總體均值是否相等的問題。
7、多重比較方法:確定在k個均值中間到底那幾個均值之間存在差異。
①、LSD(Least—Significant ?Difference),最小顯著性差異法。
其實, 通過判斷樣本均值之差的大小而決定是否拒絕H0更容易些,此時:
Fisher的LSD方法也可用于建立兩個總體均值之差的置信區間估計。
②、? 比較方式的第Ⅰ類錯誤:
實驗方式的第Ⅰ類錯誤:
8、隨機化區組設計(一個人隨機試驗各種方案)
完全隨機化設計中,當外部因素(實驗中未考慮到)引起的差異使得分母MSE變大時,F值將會變小,造成“處理均值之間不存在差異”的假象。“隨機化區組設計”的實驗設計方法可消除MSE項中來自外部的變異,以達到控制變異外部來源的目的。
ANOVA方法:①、計算總平方和SST(自由度:). ? ? ?
? ? ? 式中,表示總樣本均值,表示在區組i(甲乙丙)中對應于處理j(方案123)的觀測值。
②、計算處理平方和SSTR(自由度:k-1). ? ? ??,MSTR=SSTR/(k-1)
式中,b表示區組(甲乙丙)總數,表示第j個處理(方案123)的樣本均值。
③、計算區組平方和SSBL(自由度:b-1). ? ? ? ?,MSBL=SSBL/(b-1)
式中,k表示處理(方案123)總數,表示第i個區組(甲乙丙)的樣本均值。
④、計算誤差平方和SSE(自由度:(k-1)(b-1)). ? ? ? ? ?,MSE=SSE/(k-1)(b-1)
⑤、檢驗統計量:F=MSTR/MSE, ? ? ? 自由度:k-1
p-值是對應于F值的F分布上側曲線下方的面積。若p-值≤α,則拒絕原假設。
9、析因實驗是一種實驗設計,能允許我們同時得到有關兩個或兩個以上因子(獨立變量)同時存在時的一些統計結論。
回答最開始的案例,控制某些條件的影響下,檢驗不同因子的影響程度。
交互作用:當一個因子的水平與另一個因子的水平相互作用時,對響應變量產生的影響。
第十四章:簡單線性回歸
1、簡單線性回歸模型:y=β0+β1x+ε???? ε:誤差項(隨機變量) ? ??
簡單線性回歸方程:E(y)=β0+β1x??? 平均值or期望/截距/斜率/回歸線(正/負/無線性關系)
估計的簡單線性回歸方程:
:
2、最小二乘法:利用樣本數據,通過使應變量的觀測值與應變量的預測值之間的離差平方和達到最小的方法,求得b0和b1的值。
3、判定系數:為估計的回歸方程提供了一個擬合優度的度量。 ? ? ? ? ??第i個殘差:
誤差平方和SSE:? ? ? ? ? ? ? ? ? ? ? ? 回歸平方和SSR:
總的平方和SST:? ? ? ? ? ? ? ? ? ? ? ? ??
判定系數:?表示總平方和中有%能被估計的回歸方程所解釋。
4、有一個較大的值估計的回歸方程可以直接應用,需要進行變量之間關系的顯著性檢驗。
回歸分析中的顯著性檢驗以對誤差項的假定為依據:
因為,在中,如果,則x和y不存在線性關系,因此,為了檢驗兩變量之間是否存在一個顯著的回歸關系,我們必須進行一個假設檢驗,用來判定是否為0.
通常使用的檢驗方法有兩種:t檢驗和F檢驗。
而每一種方法都需要知道誤差項方差的估計值:
的方差也是應變量y的值關于回歸直線的方差,因此誤差平方和SSE是實際觀測值關于估計的回歸直線變異性的度量。
,
方法一、t檢驗
方法二、F檢驗
在僅有一個自變量的情況下,F檢驗得到與t檢驗同樣的結論;但如果回歸方程有≥2個自變量時,F檢驗僅被用來檢驗回歸方程總體的顯著關系。
注1:如果H0不成立,MSE仍是σ2的一個無偏估計量,但MSR高估σ2。
如果H0成立,MSE/MSR均為無偏估計量,此時,MSR/MSE應接近于1.
注2:我們只是拒絕了H0:β1=0,和證實了變量x和y之間存在統計顯著關系,但并不能做出x和y存在線性關系的結論。
5、區間估計(置信區間+預測區間)
①、y的平均值的置信區間
②、y的一個個別值的預測區間
6、殘差分析
①、關于x的殘差圖(X:自變量的值;Y:對應的殘差值)
在對殘差圖進行有效解釋之前,經驗和好的判斷永遠是關鍵因素。
②、關于的殘差圖(X:應變量的預測值;Y:對應的殘差值)
殘差圖和x殘差圖的圖形模式相同。
對于多元回歸分析,因為有一個以上的自變量,所以關于的殘差圖有更廣泛的應用。
③、標準化殘差
如果隨機誤差項服從正態分布標準化殘差的分布服從標準正態分布當查看標準化殘差圖時,大約有95%標準化殘差介于[-2,2]。
7、正態概率圖(確定誤差項是否服從正態分不到另一種方法)
①、從均值為0,標準差為1的標準正態概率分布中隨機抽取10個數值,并從小到大排序,過程反復進行,每個位置得到的值是個隨機變量,分別被稱為一/二…階順序統計量。
②、統計已經證明,來自標準正態概率分布的容量為10的樣本,一階順序統計量的期望值為-1.55,這個期望值被稱為正態分數。(由n個觀測值組成的數據集,就有n個順序統計量和n個正態分數)
③、將n個標準化殘差也按從小打到順序排列好,與得到的n階順序統計量一一對應。
繪制正態概率圖(X軸:正態分數;Y軸:對應的標準化殘差)
④、如果誤差項正態性的假定被滿足,那么最小標準化殘差應接近最小正態分數圖上的散點,應密集圍繞在45°直線附近。
8、殘差分析:異常值和有影響的觀測值
①、檢驗異常值(a、畫出x和y一一對應的散點圖;b、標準化殘差分析中絕對值很大的值<-2or>2)
②、檢測有影響的觀測值(a、畫出x和y一一對應的散點圖;)
自變量是極端值的觀測值被稱為高杠桿率點。有影響的觀測值是由大的殘差和高杠桿率的交互作用而產生的,
檢測方法有:庫克D統計量。
第十五章:多元回歸
1、多元回歸模型:
多元回歸方程:
估計的多元回歸方程:,其中,b0、b1、…是相應β的估計值。表示應變量的預測值。
最小二乘法準則:利用樣本數據,通過使殘差的平方和達到最小的方法求得各個b值。
多元回歸中,計算回歸系數b0/b1…涉及矩陣代數運算,十分復雜,一般借助軟件加以實現。
多元判定系數:(應變量y中的變異性能被估計的多元回歸方程解釋的百分比R2)
由于增加自變量將影響到應變量中的變異性被估計的回歸方程解釋的百分比,為了避免這種影響,
修正多元判定系數:(為負值時,minitab會將其調整為0)
2、在多元回歸情形中,進行t檢驗和F檢驗的目的是不同的。
①、F檢驗:用于確定在應變量和所有自變量之間是否存在一個顯著的關系,是總體的顯著性檢驗;
②、t檢驗:在F檢驗證明了模型總體的顯著性后,t檢驗用來單獨確定單個自變量是否為一個顯著的自變量,是單個的顯著性檢驗。
總的平方和SST:n-1個自由度; ?回歸平方和SSR:p個自由度(p指自變量的個數); ?誤差平方和SSE:n-p-1個自由度
估計的標準誤差s:
多重共線性:自變量之間的相關性(解決之道很復雜,待議)
3、估計和預測/殘差分析:思想同簡單線性回歸,但要借助相關軟件計算。
4、分類自變量:例如性別、付款方式等。虛擬變量/指標變量:定義為0和1的。
5、第i次觀測的標準化殘差:,式中表示第i次觀測的殘差的標準差,
s表示估計的標準誤差,hi表示第i次觀測的杠桿率。
一般來說,如果數據集中存在一個或以上的異常值,將導致估計的標準差s增加,增加,標準化殘差值減小;
最后的結果是,雖然一個殘差可能超乎尋常的大,但較大,有可能導致識別異常值的標準化殘差規則失效(<-2or>2時判斷為異常值)
解決方式,引入學生化刪除殘差。
①、刪除第i次觀測值,剩下的n-1次觀測值建立新的估計的回歸方程,得到的估計的標準誤差為s(i)【原來為s】
②、用s(i)代替原來的s,分別先后計算和。這樣得到的標準化殘差稱為學生化刪除殘差。
③、如果第i次觀測值為異常值,那么s(i)<s,所以相應的學生化刪除殘差絕對值將>標準化殘差的絕對值。
6、有影響的觀測值。(識別方法:經驗法則+庫克距離測度)
經驗法則:
庫克距離測度:一般地,Di>1則視為有影響。
7、logistic回歸
總結
以上是生活随笔為你收集整理的《商务与经济统计》(三)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【转载】世界各地对BI的应用状况
- 下一篇: UVa 11636 Hello Worl