《统计学》学习笔记之分类数据分析
鄙人學習筆記
文章目錄
- 分類數據分析
- 分類數據與卡方統計量
- 擬合優度檢驗
- 獨立性檢驗
- 列聯表中的相關測量
- 列聯分析中應注意的問題
分類數據分析
分類數據與卡方統計量
卡方檢驗是對分類數據的頻數進行分析的統計方法。
- 卡方統計量
卡方統計量可以用于測定兩個分類變量之間的相關程度。若用fo表示觀察值頻數,用fe表示期望值頻數,則卡方統計量可以寫為:
- 卡方統計量的特征
擬合優度檢驗
擬合優度檢驗是用卡方統計量進行統計顯著性檢驗的重要內容之一。
它是依據總體分布狀況,計算出分類變量中各類別的期望頻數,與分布的觀察頻數進行對比,判斷期望頻數與觀察頻數是否有顯著差異,從而達到對分類變量進行分析的目的。
獨立性檢驗
-
列聯表
列聯表是由兩個以上的變量進行交叉分類的頻數分布表。 -
獨立性檢驗
獨立性檢驗就是分析列聯表中行變量和列變量是否相互獨立。
列聯表中的相關測量
- φ相關系數
φ相關系數描述2X2列聯表數據相關程度最常用的一種相關系數。它的計算公式為:
對于2X2列聯表中的數據,計算出的φ相關系數可以控制在0~1這個范圍,但是當行數R或列數C大于2時,φ相關系數會隨著行數R或列數C變大而增大,且φ系數無上限。
- 列聯相關系數
列聯相關系數又稱列聯系數,簡稱c系數,主要用于大于2X2列聯表的情況,c系數的計算公式為:
當列聯表中的兩個變量相互獨立時,c系數=0,但它不可能大于1,
c系數的特點是,其可能的最大值依賴于列聯表的行數和列數,且隨著R和C的增大而增大。
- V相關系數
鑒于φ相關系數無上限,c系數小于1的情況。克萊默提出了V相關系數,V相關系數的計算公式為:
當兩個變量相互獨立時,V=0;當兩個變量完全相關時,V=1。所以V的取值在0一1之間,如果列聯表中有一維為2,則V值就等于φ值。
對于同一個數據,系數φ、c、V的結果不同。同樣,對于不
同的列聯表,行數和列數的差異也會影響系數值。因此。在對不同列聯表變量之間的相關程度進行比較時。不同列聯表中行與行、列與列的個數要相同.并且采用同一種系數,這樣的系數值才具有可比性。
列聯分析中應注意的問題
- 卡方分布的期望準則
前面談到的用卡方分布進行獨立性檢驗,要求樣本量必須足夠大,特別是每個單元中的期望頻數(理論頻數)不能過小,否則應用卡方檢驗可能會得出錯誤的結論。
一條準則是:
如果只有兩個單元,每個單元的期望頻數必須是5或5以上。
另一條準則是:
倘若有兩個以上的單元,如果20%的單元期望頻數fef_efe?小于5,則不能應用卡方檢驗。
不滿足準則時的解決方法:
將fef_efe?較小的類別合并,使得合并后的類別的fe≥5f_e ≥ 5fe?≥5
總結
以上是生活随笔為你收集整理的《统计学》学习笔记之分类数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国第二个陨石坑证实!10万年来最大规模
- 下一篇: 《统计学》学习笔记之方差分析