日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

(十)T检验-第一部分

發布時間:2023/12/15 综合教程 29 生活家
生活随笔 收集整理的這篇文章主要介紹了 (十)T检验-第一部分 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

介紹T分布、T檢驗、Z檢驗與T檢驗、P值、相依樣本以及配對樣本的非獨立T檢驗。

T分布

在到目前為止舉的所有例子中,我們都假設我們知道總體參數 μ 和 σ,但很多時候,我們并不知道,我們通常只有樣本,然后只能通過樣本得出所有結論。

通過樣本得出樣本均值與總體的區別有多大?以及兩個樣本之間區別多大?

在所有中心值衡量指標中,我們通常使用均值,我們在此情形下要對比的兩個樣本可以是獨立樣本或非獨立樣本。在處理樣本數據時,我們必須利用貝塞爾校正系數,根據樣本標準偏差估算總體標準偏差。

通常,要看樣本均值有多典型或非典型,正如之前的操作一樣,我們要找到該樣本均值位于樣本均值分布,(即抽樣分布)上的位置,如果我們知道總體參數,則可以判斷該抽樣分布的形狀和參數,對于任何樣本均值,我們都可以通過標準化找到該均值位于此分布上的位置,也就是說,算出樣本均值的 Z 值,我們算出樣本均值和 μ 之間的差別,然后除以標準誤差,但現在標準誤差取決于樣本了,如果我們擁有的是樣本,我們則無法再使用 σ,因此我們得出的是新的分布,該分布更容易出錯,這個分布叫做 t 分布,因為它更容易出錯,所以更加分散,末端比正態分布要高。

對于T分布隨著樣本量 n 增大,會發生什么?

    A.□ 標準誤差會增大
    B.□ t 分布接近正態分布
    C.□ t 分布的末端變得更矮(分布更窄)
    D.□ 樣本標準偏差 s 會更接近 σ

BCD

View Code

自由度

t 分布用自由度來定義,自由度很復雜,難以解釋清楚,我們先討論幾個現實生活中的例子,然后再去應用這些統計概念,假設你有三道家庭作業題目要做,分別是寫作、統計學和心理學,每個都將花去 1 小時,你只有 3 小時來完成它們,對于下圖第一個時間空檔,你可以選擇寫作、統計學或心理學題目,所以有 3 個選項,假設選擇了寫作,然后第二個空擋可以選擇統計學或心理學,所以有 2 個選項,假設選擇了心理學,最后一個就是定好的了,只有一個選項,即統計學。

在兩個時間空檔中,即第一個和第二個時間空檔,你可以做出選擇,你可以先做統計學題目,然后在寫作和心理學題目之間選擇,或者也可以先選擇寫作,然后在統計學和心理學之間選擇等等,但是在選好前兩個后,最后一個也就確定了,因此 在這個簡單情形下,自由度是 2。

再來舉個例子,你必須選擇 n 個數字,你可以選擇任何 n 個數字,n 是任何數字,可以是 5、10 或 100,你需要選擇這么多的數字,這時候的自由度是多少?

n
沒有限制條件規定你可以選擇什么樣的數字,你只需要選擇 n 個數字,無論是什么數字,所以自由度是 n。

View Code

你有 n 個數字,它們的和必須是 10,即第 1 個數字加上第 2 個數字,一直加到第 n 個數字必須等于 10,你可以隨意選擇特定數量的值,但是這些特定數量的值之和必須等于 10,此時的自由度是多少?也就是說,你可以有多少種方式隨意選擇值?

自由度是 n-1
假設 n=4,即x1+x2+x3+x4 必須等于 10,我們選擇一個任意的數字,我喜歡數字 13,這意味著x2+x3+x4 必須等于 10-13,即必須等于 -3,再來選擇一個數字,我選擇 8,到目前為止,我們選擇 x1=13,x2=8,意味著 x3+x4 等于 -3-8,結果為 -11,我們還可以為 x3 或 x4 選擇一個值,我選擇數字 3,假設 x3=3,這意味著x4 必須等于 -11-3,結果為 -14, 所以 x4 成為固定值,但我可以選擇這 3 個值,一開始有 4 個數字,自由度是 3,如果有 n 個數字,則自由度是 n-1。

View Code

再舉個例子,這將非常有助于你理解自由度這一概念,你玩過九宮格游戲嗎?這和九宮格游戲差不多,假設每行和每列都必須相加等于 9,你可以在這 9 個格子里填上任意的數字,只要滿足這個條件就行了,所以有多少個值是可以選擇的?自由度是多少?

自由度是4
A1+A2+A3=9;B1+B2+B3=9;C1+C2+C3=9;A1+B1+C1=9;A2+B2+C2=9;A3+B3+C3=9.

假設A1=5,A2=3,則A3=1;
假設B1=8,C1=-4;
假設B2=7,則C2=-1,B3=-6,C3=14;
所以我們只要知道A1,A2,B1,B2就可以知道其他字母代表的數字,所以自由度是4.

View Code

如果是 n x n 的表格,我們可以選擇的值的總數量是 (n-1)^2.
在3 x 3 的表格中,我們能夠選擇 2 x 2 次;
在4 x 4 的表格中,我們能夠選擇 3 x 3 次;
在n x n 的表格中,我們能夠選擇 (n-1)x(n-1) 次。

View Code

我們將這一自由度概念應用到樣本和總體中,假設上圖這些是總體中的值,我們可以從該總體中選擇任意 n 個值,形成樣本量為 n 的樣本,如果 n 是 5,假設我們選擇了這紅圈中的5 個值,自由度是 5,如果我們選擇 n 個樣本值,自由度則是 n。我們還需要計算樣本標準偏差,為此,我們需要知道樣本均值,要算出樣本均值,我們需要將樣本中的每個值相加再除以樣本中的值數量,得出 x 拔,意味著樣本中的所有值的和必須等于 x 拔乘以 n,這和之前有 n 個值,這些值的和必須等 10 的示例一樣,在這個示例中,自由度是 n-1。這一規則同樣適用于此處。在我們的總體中,當我們需要選擇 n 個樣本值時,我們需要滿足一定的條件,即第 n 個值必須確保這些值的和等于 x 拔乘以 n,也就是說 n-1 個值可以隨意變化,只要第 n 個值使得和為相同的值,從而達到相同的均值即可,稱為有效取樣數,因為樣本標準偏差取決于 x 拔,自由度為 n-1,你可能會問,如果總體標準偏差也使用 x 拔,為何要除以 n 呢?

于總體來說,我們無法像樣本那樣,用某些值代替其他值,因為總體的所有可能值已經定好了,自由度是指在不影響給定限制條件的情況下,可以自由變換的信息的數量,可以將自由度視作估算其他信息時可有的獨立信息數量,在我們知道均值后 只有 n-1 個值是獨立的,隨著自由度的增大 t 分布將更接近正態分布。

T表格

現在已經不是正態分布,而是 t 分布,我們需要使用新的表格,這個叫做 t 表,和 z 表不同。t 表顯示的是臨界值,在這里的頂部列行表示的是右尾的面積,左側表示的是自由度。

http://pan.baidu.com/s/1bBZeZ8

t 分布是由自由度定義的,在 t 分布的 x 軸上是 t 值而不是 z 值,在這種情形下,我們只關心 t 臨界值,假設我們有個 t 分布,我們想知道這里的尾部是 10% 即 0.1 時,對應的 t 臨界值,假設我們的樣本量是 10,所以自由度是 9,這是一個自由度為 9 的 t 分布,我們想知道這個 t 臨界值 在這里的尾部,我們要查找 0.1 自由度是 9,我們看到 t 值是 1.383,這個 t 表和 z 表的使用方式基本上一模一樣,只是我們要查找的是 t 值,然后判斷該 t 值是大于還是小于 t 臨界值,而不是查找 z 值并判斷該 z 值是大于還是小于 z 臨界值。

單尾 α 水平是 0.05 時的 t 臨界值,即一個尾部的比例是 0.05,自由度是 12

1.782

View Code

樣本量是 30,α 水平是 0.05 的雙尾檢驗的 t 臨界值是多少?對于雙尾檢驗,存在兩個臨界區,每個尾部一個臨界區,因為 t 分布是對稱的,所以 t 臨界值應該是正負多少?

正負2.045
自由度是 n-1,所以我們的自由度是 29,雙尾檢驗的 α 水平如果等于 0.05,那么每個尾部是 0.025,我們查找尾部概率是 0.025 的位置,在自由度 29 這里,找到 t 臨界值是 2.045

View Code

樣本量是 24,t 值是 2.45,t 值右側的面積是在多少和多少之間?

0.01-0.02
t 值是 2.45,同時還知道樣本量是 24,所以自由度是 23,這里是自由度 23,我們查找 t 值 2.45 在 2.177 和 2.5 之間,該 t 臨界值的右側面積是 2.177 對應的是 0.02 即 2%,2.5 右側的面積是 0.01,即 1%,表明 2.45 右側的面積在 0.02 和 0.01 之間。

View Code

影響T統計量

和 z 檢驗一樣,當 t 統計量在任一方向遠離 0 時,也就是說如果樣本均值遠離這個總體均值,我們就拒絕零假設,首先我們需要對比樣本均值與總體均值,在這種情形下,t 等于樣本均值減去總體均值 μ0,再除以標準誤差,我們使用的是樣本標準偏差,而不是 σ 除以平方根 n。

x 拔越大越能證明樣本所來自的總體均值大于我們要對比的這個總體均值。
x 拔越小越能證明x 拔所來自的總體均值小于我們要對比的這個特定值。
x 拔在任一方向離 μ0 越遠越能證明 μ 不等于 μ0。

單樣本T檢驗

上面的的統計量針對的是單樣本 t 檢驗,因為我們只有一個樣本,均值為 x 拔,我們想知道這個樣本來自的總體是否與具有這個均值的總體顯著不同,因此,零假設是指總體均值等于某個特定的值 μ0,對立假設可以是 μ 小于 μ0 大于 μ0或者不等于 μ0。當我們計算 t 統計量時,分子是樣本均值與這個值的差,而樣本均值是總體均值 μ 的點估計值,分母衡量的是總體均值與 μ0 之間,按概率預測的區別,我們知道 α 水平(位于 t 表列標題中),t 表顯示了劃分 α 水平的 t 臨界值,如果 t 統計量大于這些 t 臨界值或者負的 t 統計量小于劃分 α 水平的負 t 臨界值,則拒絕零假設。

下個示例討論的是地雀的鳥嘴寬度,具體來說,科學家通過觀察地雀,做出演化論的假設,通過記錄某個特征隨時間的變化,例如鳥嘴寬度,我們可以判斷周圍環境是否在選擇特定寬度的鳥嘴,或許有一種特定寬度的鳥嘴可以幫
助這只地雀生存下來,但是有時候因為總體的變化,鳥嘴寬度可能存在隨機的波動,某些地雀的鳥嘴要比其他地雀的寬,因此要判斷隨著時間的推移,總體中的鳥嘴寬度是否存在顯著變化,我們需要運用統計學,如果鳥嘴寬度均
值的確顯著變寬或邊窄了(這稱為定向選擇),則表明周圍環境允許鳥嘴更寬的地雀存活并繁殖下去,假設我們知道所有地雀的平均鳥嘴寬度是 6.07 毫米,這包括過去幾年內被研究的地雀,現在假設我們研究的是現今的地雀
樣本,我們想知道,現今的地雀的鳥嘴寬度是否不太一樣,意味著零假設是現今地雀的總體均值與以前的相等,對立假設應該是什么呢? A.μ 小于 6.07 B.μ 大于 6.07 C.μ 不等于6.07

答案是C

View Code

接下來我們需要知道的是樣本量和自由度,請點擊下面的鏈接,查看樣本數據并計算這兩個值,http://pan.baidu.com/s/1eRLuv6q

樣本量是 500,自由度則是 499

View Code

樣本均值和標準偏差是多少?注意,計算標準偏差時,我們是用平方和除以 n-1,然后再取平方根

平均值約為 6.47,樣本標準偏差約為 0.4

View Code

現在來計算 t 統計量,t 統計量等于 x 拔,即樣本均值,減去總體均值 μ然后再除以標準誤差即 s/√n ̄

t=(6.47-6.07)/(0.4/√500 ̄)結果約為 22.56

View Code

現在已經知道 t 統計量,我們是接受對立假設還是零假設?

我們將拒絕零假設,因為 t 統計量非常大,我們知道無論選擇哪種顯著水平(最小的通常是 0.01),我們的 t 值都會超出 t 臨界值范圍,我們拒絕零假設是因為達到這個 t 統計量的概率,即從均值為 6.07 總體中獲得這個樣本均值的概率非常非常的小,這是 P 值,是指零假設為真時達到該值的概率,因為概率太小,所以可能存在某些情況,零假設可能不為真,這種鳥嘴寬度的地雀來自完全不同的新總體,均值不等于 6.07。

View Code

P值

當我們進行單尾檢驗時,P 值如果為正,則是指 t 統計量之上的概率,如果 P 值為負,則是 t 統計量之下的概率。但是對于雙尾檢驗來說,P 值則是大于該 t 統計量的概率和小于負的 t 統計量的概率,如果一開始得出負的 t 統計量,也是相同的情況,P 值等于小于該 t 統計量的概率加上大于正的 t 統計量的概率,當 P 值小于 α 水平時我們會拒絕零假設。

假設存在以下樣本,這個樣本均值在 α 水平是 0.5 時與 10 顯著不同嗎?首先請算出 t 統計量,注意 S 要使用樣本標準偏差。

對于 x 拔 即樣本均值,我們將這些數字全相加然后除以 8,結果為 12.625,對于樣本標準偏差,我們取每個值減去均值 x 拔的平方根然后求平方,再相加并除以 n-1,結果約為 7.596,再將這些值代入 t 統計量的計算公式中,結果約為 0.977

View Code

總結

以上是生活随笔為你收集整理的(十)T检验-第一部分的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。