當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

统计学相关问答

發(fā)布時(shí)間：2025/3/21 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了统计学相关问答小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、為什么要對(duì)相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)？

1）實(shí)際上完全沒有關(guān)系的變量，在利用樣本數(shù)據(jù)進(jìn)行計(jì)算時(shí)也可能得到一個(gè)較大的相關(guān)系數(shù)值（尤其是時(shí)間序列數(shù)值）

2）當(dāng)樣本數(shù)較少，相關(guān)系數(shù)就很大。當(dāng)樣本量從100減少到40后，相關(guān)系數(shù)大概率會(huì)上升，但上升到多少，這個(gè)就不能保證了；取決于你的剔除數(shù)據(jù)原則，還有這組數(shù)據(jù)真的可能不存在相關(guān)性；

改變兩列數(shù)據(jù)的順序，不會(huì)對(duì)相關(guān)系數(shù)，和散點(diǎn)圖（擬合的函數(shù)曲線）造成影響；
對(duì)兩列數(shù)據(jù)進(jìn)行歸一化處理，標(biāo)準(zhǔn)化處理，不會(huì)影響相關(guān)系數(shù)；
我們計(jì)算的相關(guān)系數(shù)是線性相關(guān)系數(shù)，只能反映兩者是否具備線性關(guān)系。相關(guān)系數(shù)高是線性模型擬合程度高的前提；此外相關(guān)系數(shù)反映兩個(gè)變量之間的相關(guān)性，多個(gè)變量之間的相關(guān)性可以通過復(fù)相關(guān)系數(shù)來衡量；

2、多重共線性與統(tǒng)計(jì)假設(shè)檢驗(yàn)傻傻分不清？

多重共線性與統(tǒng)計(jì)假設(shè)沒有直接關(guān)聯(lián)，但是對(duì)于解釋多元回歸的結(jié)果非常重要。相關(guān)系數(shù)反應(yīng)兩個(gè)變量之間的相關(guān)性；回歸系數(shù)是假設(shè)其他變量不變，自變量變化一個(gè)單位，對(duì)因變量的影響，而存在多重共線性（變量之間相關(guān)系數(shù)很大），就會(huì)導(dǎo)致解釋困難；比如y~x1+x2；x·1與x2存在多重共線性，當(dāng)x1變化一個(gè)單位，x2不變，對(duì)y的影響；而x1與x2高度相關(guān)，就會(huì)解釋沒有意義。

一元回歸不存在多重共線性的問題；而多元線性回歸要摒棄多重共線性的影響；所以要先對(duì)所有的變量進(jìn)行相關(guān)系數(shù)分

3、什么樣的模型才是一個(gè)好模型？

在測試集表現(xiàn)與預(yù)測集相當(dāng)，說明模型沒有過度擬合：在訓(xùn)練集上表現(xiàn)完美，在測試集上一塌糊涂；原因：模型過于剛性：“極盡歷史規(guī)律，考慮隨機(jī)誤差”；擬合精度不能作為衡量模型方法的標(biāo)準(zhǔn)；

一個(gè)好的模型：只描述規(guī)律性的東西（抓住事務(wù)的主要特征），存在隨機(jī)誤差是好事，在預(yù)測時(shí)，就有了“容錯(cuò)空間“，預(yù)測誤差可能減小！

4、假設(shè)檢驗(yàn)顯著性水平的兩種理解：

1顯著性水平：通過小概率準(zhǔn)則來理解

在假設(shè)檢驗(yàn)時(shí)先確定一個(gè)小概率標(biāo)準(zhǔn)----顯著性水平；用α表示；凡出現(xiàn)概率小于顯著性水平的事件稱小概率事件；

2通過兩類錯(cuò)誤理解：??α為拒絕域面積

5、中心極限定律與大數(shù)定理：

大數(shù)定理---正態(tài)分布的“左磅”

隨著樣本數(shù)的增加，樣本的平均值可以估計(jì)總體平均值；

中心極限定理---正態(tài)分布的“右臂”具有穩(wěn)定性，

大數(shù)定理說明大量重復(fù)實(shí)驗(yàn)的平均結(jié)果具有穩(wěn)定解決了變量均值的收斂性問題

中心極限定理說明隨機(jī)變量之和逐漸服從某一分布，解決了分布收斂性問題

9方差

方差能最大程度的反映原始數(shù)據(jù)信息；

反映了一組數(shù)據(jù)相對(duì)于平均數(shù)的波動(dòng)程度，相比于??，其平方項(xiàng)更放大了波動(dòng)，且差的平方在數(shù)學(xué)公式推導(dǎo)上有大用。

6、使用最小二乘法條件：

自變量之間不能存在完全共線性；

總體方程誤差項(xiàng)服從均值為0的正態(tài)分布（大數(shù)定理）

誤差項(xiàng)的方差不受自變量影響且為固定值；（同方差性）

7、最大似然估計(jì)與最小二乘法區(qū)別

最小二乘法是基于幾何意義上距離最小

最大似然估計(jì)是基于概率意義上出現(xiàn)的概率最大

最小二乘法：對(duì)數(shù)據(jù)分布無要求

最大似然估計(jì)：需要知道概率密度函數(shù)

8、關(guān)于H0與H1

H0：原假設(shè)，零假設(shè)----零是相關(guān)系數(shù)為0，說明兩個(gè)變量無關(guān)系

H1:備用假設(shè)

如何設(shè)置原假設(shè)：
1）H0與H1是完備事件組，相互對(duì)立，有且只有一個(gè)成立
2）在確立假設(shè)時(shí)，先確定備設(shè)H1，然后再確定H0，且保證“=”總在H0上
3）原H0一般是需要反駁的，而H1是需要支持的
4）假設(shè)檢驗(yàn)只提供原假設(shè)不利證據(jù)

即使“假設(shè)”設(shè)置嚴(yán)密，檢驗(yàn)方法“精確”；假設(shè)檢驗(yàn)始終是建立在一定概率基礎(chǔ)上的，所以我們常會(huì)犯兩類錯(cuò)誤；

第一類：原H0是真，卻拒絕原假設(shè)；犯 α?類錯(cuò)誤

第二類：原H0是假，卻不拒絕原假設(shè)；犯 β?類錯(cuò)誤

通常只能犯兩種錯(cuò)誤中的一種，且?α??增加，? β?減少

通常，?α??類錯(cuò)誤是可控的，先設(shè)法降低第一類錯(cuò)誤概率?α?

9、什么是雙尾檢驗(yàn)，單尾檢驗(yàn)？

1）當(dāng)H0采用等號(hào)，而H1采用不等號(hào)，雙尾檢驗(yàn)

2）當(dāng)H0是有方向性的，單尾檢驗(yàn)

10、P值

當(dāng)原假設(shè)為真時(shí)，比所得到的樣本觀察，結(jié)果更極端的結(jié)果會(huì)出現(xiàn)的概率。

如果P值很小，我們拒絕原假設(shè)的理由越充分。

P的意義不表示兩組差別大小，p反映兩組差別有無統(tǒng)計(jì)學(xué)意義

顯著性檢驗(yàn)只是統(tǒng)計(jì)結(jié)論，判斷差別還需要專業(yè)知識(shí)；

11、T檢驗(yàn)與U檢驗(yàn)

當(dāng)樣本容量n夠大，樣本觀察值符合正態(tài)分布，可采用U檢驗(yàn)

當(dāng)樣本容量n較小，若觀測值符合正態(tài)分布，可采用T型檢驗(yàn)

12. 方差分析

主要用于兩樣本及以上樣本間的比較，又被稱為F檢驗(yàn)，變異數(shù)分析；

基本思想：通過分析研究不同來源的變異對(duì)總體變異的貢獻(xiàn)大小，從而確定可控因素對(duì)研究結(jié)果影響力的大小；

總變異可以被分解為組間變異與組內(nèi)變異

組間變異：由于不同實(shí)驗(yàn)處理而造成的各組之間的變異

組內(nèi)變異：組內(nèi)各被適變量的差異范圍所呈現(xiàn)的變異

13. 不同類型的圖

直方圖：對(duì)數(shù)據(jù)進(jìn)行整體描述，突出細(xì)節(jié)

箱線圖：對(duì)數(shù)據(jù)進(jìn)行概要描述，或?qū)Σ煌瑯颖具M(jìn)行比較。箱線圖可以讓我們迅速了解數(shù)據(jù)的匯集情況

統(tǒng)計(jì)學(xué)中，把所有數(shù)值由小到大排列并分成四等份，處于三個(gè)分割點(diǎn)位置的得分就是四分位數(shù)。

所以，四分位數(shù)有三個(gè)！四指四等份！

第一四分位數(shù)：下四分位數(shù)；等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字（所以下四分位數(shù)可以不是樣本中的數(shù)值，它是一個(gè)統(tǒng)計(jì)指標(biāo)（就像平均數(shù)一樣，不一定是原數(shù)據(jù)中的一點(diǎn)）

第二四分位數(shù)：中位數(shù)

第三四分位數(shù)：上四分位數(shù)

其中，下四分位數(shù)與上四分位數(shù)的距離叫四分位距！（IQR）

總結(jié)

以上是生活随笔為你收集整理的统计学相关问答的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。