當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《商务与经济统计》（三）

發(fā)布時(shí)間：2023/12/20 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了《商务与经济统计》（三）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

第十三章：實(shí)驗(yàn)設(shè)計(jì)與方差分析（AN0VA）

獨(dú)立變量/因子、處理、、總體、因變量/響應(yīng)變量、實(shí)驗(yàn)單元、完全隨機(jī)化設(shè)計(jì)。

1、應(yīng)用方差分析需要三個(gè)假定：① 對每個(gè)總體，響應(yīng)變量/因變量服從正態(tài)分布；

② 響應(yīng)變量的方差（），對所有總體都是相同的；③?觀測值必須是獨(dú)立的。

2、

3、對于一個(gè)完全隨機(jī)化實(shí)驗(yàn)設(shè)計(jì)，如何應(yīng)用方差分析來檢驗(yàn)k個(gè)總體均值是否相等？

即：只要樣本容量全相等，總樣本均值=k個(gè)樣本均值的算術(shù)平均。

4、（注：若H0為真，則MSTR給出的是σ2的一個(gè)無偏估計(jì)；若k個(gè)總體均值不等，MSTR將高估總體方差）

（注：MSE永遠(yuǎn)給出的是σ2的一個(gè)無偏估計(jì)）

5、方差估計(jì)的比較：F檢驗(yàn)

若原假設(shè)H0為真，則MSTR和MSE均給出σ2的兩個(gè)獨(dú)立的無偏估計(jì)量。

（由11章，對于正態(tài)總體，σ2的兩個(gè)獨(dú)立估計(jì)量之比的抽樣分布服從F分布。）

因此，若原假設(shè)H0為真，并且ANOVA的假定滿足，則

MSTR/MSE的抽樣分布服從一個(gè)分子自由度為k-1，分母為nT-k的F分布。

但是，若H0不成立，MSTR是高估總體方差的，該比值將被夸大，因此可用來拒絕H0.

方差分析表（ANOVA table）：方差分析可以看作將總平方和及其自由度分解成它們對應(yīng)來源（處理+誤差）的一個(gè)過程。

6、對于一個(gè)完全隨機(jī)化實(shí)驗(yàn)，可以應(yīng)用方差分析來檢驗(yàn)k個(gè)總體均值是否相等的問題；

同樣，對于觀測性研究得到的數(shù)據(jù)，也可用ANOVA 來檢驗(yàn)三個(gè)或三個(gè)以上的總體均值是否相等的問題。

7、多重比較方法：確定在k個(gè)均值中間到底那幾個(gè)均值之間存在差異。

①、LSD(Least—Significant ?Difference)，最小顯著性差異法。

其實(shí)，通過判斷樣本均值之差的大小而決定是否拒絕H0更容易些，此時(shí)：

Fisher的LSD方法也可用于建立兩個(gè)總體均值之差的置信區(qū)間估計(jì)。

②、? 比較方式的第Ⅰ類錯(cuò)誤：

實(shí)驗(yàn)方式的第Ⅰ類錯(cuò)誤：

8、隨機(jī)化區(qū)組設(shè)計(jì)（一個(gè)人隨機(jī)試驗(yàn)各種方案）

完全隨機(jī)化設(shè)計(jì)中，當(dāng)外部因素（實(shí)驗(yàn)中未考慮到）引起的差異使得分母MSE變大時(shí)，F值將會變小，造成“處理均值之間不存在差異”的假象?！?span style="color:rgb(26,26,26);font-family:'-apple-system', BlinkMacSystemFont, 'Helvetica Neue', 'PingFang SC', 'Microsoft YaHei', 'Source Han Sans SC', 'Noto Sans CJK SC', 'WenQuanYi Micro Hei', sans-serif;background-color:rgb(255,255,255);">隨機(jī)化區(qū)組設(shè)計(jì)”的實(shí)驗(yàn)設(shè)計(jì)方法可消除MSE項(xiàng)中來自外部的變異，以達(dá)到控制變異外部來源的目的。

ANOVA方法：①、計(jì)算總平方和SST（自由度：）. ? ? ?

? ? ? 式中，表示總樣本均值，表示在區(qū)組i（甲乙丙）中對應(yīng)于處理j（方案123）的觀測值。

②、計(jì)算處理平方和SSTR（自由度：k-1）. ? ? ??，MSTR=SSTR/(k-1）

式中，b表示區(qū)組（甲乙丙）總數(shù)，表示第j個(gè)處理（方案123）的樣本均值。

③、計(jì)算區(qū)組平方和SSBL（自由度：b-1）. ? ? ? ?，MSBL=SSBL/(b-1)

式中，k表示處理（方案123）總數(shù)，表示第i個(gè)區(qū)組（甲乙丙）的樣本均值。

④、計(jì)算誤差平方和SSE（自由度：（k-1）（b-1））. ? ? ? ? ?,MSE=SSE/(k-1)(b-1)

⑤、檢驗(yàn)統(tǒng)計(jì)量：F=MSTR/MSE, ? ? ? 自由度：k-1

p-值是對應(yīng)于F值的F分布上側(cè)曲線下方的面積。若p-值≤α，則拒絕原假設(shè)。

9、析因?qū)嶒?yàn)是一種實(shí)驗(yàn)設(shè)計(jì)，能允許我們同時(shí)得到有關(guān)兩個(gè)或兩個(gè)以上因子（獨(dú)立變量）同時(shí)存在時(shí)的一些統(tǒng)計(jì)結(jié)論。

回答最開始的案例，控制某些條件的影響下，檢驗(yàn)不同因子的影響程度。

交互作用：當(dāng)一個(gè)因子的水平與另一個(gè)因子的水平相互作用時(shí)，對響應(yīng)變量產(chǎn)生的影響。

第十四章：簡單線性回歸

1、簡單線性回歸模型：y=β0+β1x+ε???? ε:誤差項(xiàng)（隨機(jī)變量） ? ??

簡單線性回歸方程：E(y)=β0+β1x??? 平均值or期望/截距/斜率/回歸線（正/負(fù)/無線性關(guān)系）

估計(jì)的簡單線性回歸方程：

：

2、最小二乘法：利用樣本數(shù)據(jù)，通過使應(yīng)變量的觀測值與應(yīng)變量的預(yù)測值之間的離差平方和達(dá)到最小的方法，求得b0和b1的值。

3、判定系數(shù)：為估計(jì)的回歸方程提供了一個(gè)擬合優(yōu)度的度量。 ? ? ? ? ??第i個(gè)殘差：

誤差平方和SSE：? ? ? ? ? ? ? ? ? ? ? ? 回歸平方和SSR：

總的平方和SST:? ? ? ? ? ? ? ? ? ? ? ? ??

判定系數(shù)：?表示總平方和中有%能被估計(jì)的回歸方程所解釋。

4、有一個(gè)較大的值估計(jì)的回歸方程可以直接應(yīng)用，需要進(jìn)行變量之間關(guān)系的顯著性檢驗(yàn)。

回歸分析中的顯著性檢驗(yàn)以對誤差項(xiàng)的假定為依據(jù)：

因?yàn)?#xff0c;在中，如果，則x和y不存在線性關(guān)系，因此，為了檢驗(yàn)兩變量之間是否存在一個(gè)顯著的回歸關(guān)系，我們必須進(jìn)行一個(gè)假設(shè)檢驗(yàn)，用來判定是否為0.

通常使用的檢驗(yàn)方法有兩種：t檢驗(yàn)和F檢驗(yàn)。

而每一種方法都需要知道誤差項(xiàng)方差的估計(jì)值：

的方差也是應(yīng)變量y的值關(guān)于回歸直線的方差，因此誤差平方和SSE是實(shí)際觀測值關(guān)于估計(jì)的回歸直線變異性的度量。

，

方法一、t檢驗(yàn)

方法二、F檢驗(yàn)

在僅有一個(gè)自變量的情況下，F檢驗(yàn)得到與t檢驗(yàn)同樣的結(jié)論；但如果回歸方程有≥2個(gè)自變量時(shí)，F檢驗(yàn)僅被用來檢驗(yàn)回歸方程總體的顯著關(guān)系。

注1：如果H0不成立，MSE仍是σ2的一個(gè)無偏估計(jì)量，但MSR高估σ2。

如果H0成立，MSE/MSR均為無偏估計(jì)量，此時(shí)，MSR/MSE應(yīng)接近于1.

注2：我們只是拒絕了H0：β1=0，和證實(shí)了變量x和y之間存在統(tǒng)計(jì)顯著關(guān)系，但并不能做出x和y存在線性關(guān)系的結(jié)論。

5、區(qū)間估計(jì)（置信區(qū)間+預(yù)測區(qū)間）

①、y的平均值的置信區(qū)間

②、y的一個(gè)個(gè)別值的預(yù)測區(qū)間

6、殘差分析

①、關(guān)于x的殘差圖（X：自變量的值；Y：對應(yīng)的殘差值）

在對殘差圖進(jìn)行有效解釋之前，經(jīng)驗(yàn)和好的判斷永遠(yuǎn)是關(guān)鍵因素。

②、關(guān)于的殘差圖（X:應(yīng)變量的預(yù)測值；Y：對應(yīng)的殘差值）

殘差圖和x殘差圖的圖形模式相同。

對于多元回歸分析，因?yàn)橛幸粋€(gè)以上的自變量，所以關(guān)于的殘差圖有更廣泛的應(yīng)用。

③、標(biāo)準(zhǔn)化殘差

如果隨機(jī)誤差項(xiàng)服從正態(tài)分布標(biāo)準(zhǔn)化殘差的分布服從標(biāo)準(zhǔn)正態(tài)分布當(dāng)查看標(biāo)準(zhǔn)化殘差圖時(shí)，大約有95%標(biāo)準(zhǔn)化殘差介于[-2，2]。

7、正態(tài)概率圖（確定誤差項(xiàng)是否服從正態(tài)分不到另一種方法）

①、從均值為0，標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)概率分布中隨機(jī)抽取10個(gè)數(shù)值，并從小到大排序，過程反復(fù)進(jìn)行，每個(gè)位置得到的值是個(gè)隨機(jī)變量，分別被稱為一/二…階順序統(tǒng)計(jì)量。

②、統(tǒng)計(jì)已經(jīng)證明，來自標(biāo)準(zhǔn)正態(tài)概率分布的容量為10的樣本，一階順序統(tǒng)計(jì)量的期望值為-1.55，這個(gè)期望值被稱為正態(tài)分?jǐn)?shù)。（由n個(gè)觀測值組成的數(shù)據(jù)集，就有n個(gè)順序統(tǒng)計(jì)量和n個(gè)正態(tài)分?jǐn)?shù)）

③、將n個(gè)標(biāo)準(zhǔn)化殘差也按從小打到順序排列好，與得到的n階順序統(tǒng)計(jì)量一一對應(yīng)。

繪制正態(tài)概率圖（X軸：正態(tài)分?jǐn)?shù)；Y軸：對應(yīng)的標(biāo)準(zhǔn)化殘差）

④、如果誤差項(xiàng)正態(tài)性的假定被滿足，那么最小標(biāo)準(zhǔn)化殘差應(yīng)接近最小正態(tài)分?jǐn)?shù)圖上的散點(diǎn)，應(yīng)密集圍繞在45°直線附近。

8、殘差分析：異常值和有影響的觀測值

①、檢驗(yàn)異常值（a、畫出x和y一一對應(yīng)的散點(diǎn)圖；b、標(biāo)準(zhǔn)化殘差分析中絕對值很大的值<-2or>2）

②、檢測有影響的觀測值（a、畫出x和y一一對應(yīng)的散點(diǎn)圖；）

自變量是極端值的觀測值被稱為高杠桿率點(diǎn)。有影響的觀測值是由大的殘差和高杠桿率的交互作用而產(chǎn)生的，

檢測方法有：庫克D統(tǒng)計(jì)量。

第十五章：多元回歸

1、多元回歸模型：

多元回歸方程：

估計(jì)的多元回歸方程：，其中，b0、b1、…是相應(yīng)β的估計(jì)值。表示應(yīng)變量的預(yù)測值。

最小二乘法準(zhǔn)則：利用樣本數(shù)據(jù)，通過使殘差的平方和達(dá)到最小的方法求得各個(gè)b值。

多元回歸中，計(jì)算回歸系數(shù)b0/b1…涉及矩陣代數(shù)運(yùn)算，十分復(fù)雜，一般借助軟件加以實(shí)現(xiàn)。

多元判定系數(shù)：（應(yīng)變量y中的變異性能被估計(jì)的多元回歸方程解釋的百分比R2）

由于增加自變量將影響到應(yīng)變量中的變異性被估計(jì)的回歸方程解釋的百分比，為了避免這種影響，

修正多元判定系數(shù)：（為負(fù)值時(shí)，minitab會將其調(diào)整為0）

2、在多元回歸情形中，進(jìn)行t檢驗(yàn)和F檢驗(yàn)的目的是不同的。

①、F檢驗(yàn)：用于確定在應(yīng)變量和所有自變量之間是否存在一個(gè)顯著的關(guān)系，是總體的顯著性檢驗(yàn)；

②、t檢驗(yàn)：在F檢驗(yàn)證明了模型總體的顯著性后，t檢驗(yàn)用來單獨(dú)確定單個(gè)自變量是否為一個(gè)顯著的自變量，是單個(gè)的顯著性檢驗(yàn)。

總的平方和SST：n-1個(gè)自由度； ?回歸平方和SSR：p個(gè)自由度（p指自變量的個(gè)數(shù)）； ?誤差平方和SSE：n-p-1個(gè)自由度

估計(jì)的標(biāo)準(zhǔn)誤差s：

多重共線性：自變量之間的相關(guān)性（解決之道很復(fù)雜，待議）

3、估計(jì)和預(yù)測/殘差分析：思想同簡單線性回歸，但要借助相關(guān)軟件計(jì)算。

4、分類自變量：例如性別、付款方式等。虛擬變量/指標(biāo)變量：定義為0和1的。

5、第i次觀測的標(biāo)準(zhǔn)化殘差：，式中表示第i次觀測的殘差的標(biāo)準(zhǔn)差，

s表示估計(jì)的標(biāo)準(zhǔn)誤差，hi表示第i次觀測的杠桿率。

一般來說，如果數(shù)據(jù)集中存在一個(gè)或以上的異常值，將導(dǎo)致估計(jì)的標(biāo)準(zhǔn)差s增加，增加，標(biāo)準(zhǔn)化殘差值減小；

最后的結(jié)果是，雖然一個(gè)殘差可能超乎尋常的大，但較大，有可能導(dǎo)致識別異常值的標(biāo)準(zhǔn)化殘差規(guī)則失效（＜-2or＞2時(shí)判斷為異常值）

解決方式，引入學(xué)生化刪除殘差。

①、刪除第i次觀測值，剩下的n-1次觀測值建立新的估計(jì)的回歸方程，得到的估計(jì)的標(biāo)準(zhǔn)誤差為s（i）【原來為s】

②、用s(i)代替原來的s，分別先后計(jì)算和。這樣得到的標(biāo)準(zhǔn)化殘差稱為學(xué)生化刪除殘差。

③、如果第i次觀測值為異常值，那么s(i)＜s，所以相應(yīng)的學(xué)生化刪除殘差絕對值將＞標(biāo)準(zhǔn)化殘差的絕對值。

6、有影響的觀測值。（識別方法：經(jīng)驗(yàn)法則+庫克距離測度）

經(jīng)驗(yàn)法則：

庫克距離測度：一般地，Di＞1則視為有影響。

7、logistic回歸

總結(jié)

以上是生活随笔為你收集整理的《商务与经济统计》（三）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：【转载】世界各地对BI的应用状况
下一篇： UVa 11636 Hello Worl