當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习基础--卡方检验

發布時間：2023/12/29 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习基础--卡方检验小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

卡方檢驗

在統計分析階段的假設檢驗中提及到了卡方檢驗，是針對總體方差的檢驗

卡方檢驗的主要用途

兩個率或兩個構成比比較的卡方檢驗
多個率或多個構成比比價的卡方檢驗
分類資料的相關分析

卡方檢驗的基本原理

H₀：觀察頻數與期望頻數沒有差別
其原理為考察基于H₀的理論頻數分布和實際頻數分布間的差異大小，據此求出相應的P值。

卡方統計量的理解：

當觀察頻數與期望頻數完全一致時，卡方值為0
觀察頻數與期望頻數越接近，兩者之間的差異越小，卡方值越小
觀察頻數與期望頻數差異越大，卡方值越大
卡方值的大小也和自由度有關

卡方檢驗的statsmodels實現

import pandas as pd import statsmodels.stats.contingency_tables as tbl# 讀入文件 home = pd.read_excel("home_income.xlsx") home.head()# 抽取需要的數據 pd.crosstab(home.Ts9,home.O1)# 觀察相應的交叉表# 考察不同收入級別的家庭其轎車擁有率 table = tbl.Table(pd.crosstab(home.Ts9,home.O1))res = table.test_nominal_association() # 卡方檢驗 print(f"卡方值：{res.statistic}" ) print(f"自由度：{res.df}") print(f"P值：{res.pvalue}") # 格式化后的P值，如果結果為0.0000001，會格式化為0

配對卡方檢驗

McNemar's檢驗（配對卡方檢驗）用于分析兩個相關率的變化是否有統計學意義

分析思路

H₀:兩種方法陽性檢出率無差別，即b單元格=c單元格
對同一個體，分別有兩次不同的測量，并最終構成了兩組數據，因此研究框架是自身配對設計
求出各對的差值，然后考察樣本中差值的分布是否按照H₀假設的情況對稱分布
主對角線上的樣本，兩種檢驗方法的結論相同
非主對角線上的單元格才攜帶檢驗方法的差異信息
根據H₀得到b、c兩格的理論數均為(b+c)/2,對應的配對檢驗統計量，經過化簡后是：

x2=(b?c)2/(b+c)

代碼實現

statsmodels.stats.contingency_tables中常用的配對卡方的分析使用：

tbl.SquareTable 用于分析行列變量類別相同的對稱結構方表（近似結果）
tbl.mcnemar 用于分析配對四格表（確切概率結果）

import numpy as np import pandas as pd import statsmodels.stats.contingency_tables as tbltable = tbl.SquareTable(np.array([[56,35],[21,28]])) table# 輸出匯總結果 print(table.summary())# 只輸出配對卡方檢驗的結果 print(table.symmetry())table = tbl.mcnemar(pd.DataFrame([[56,35],[21,28]])) table.pvalue

RR與OR

RR(Relative Risk)——相對危險度

表示兩種情況下發病密度或者說發病概率之比
P_t：實驗組人群反應陽性概率
P_c：對照組人群反應陽性概率
如果RR > 1，說明相應的自變量取值增加，會導致個體發病/死亡風險增加若干倍，例如：吸煙者的發病概率是非吸煙者的5倍
RR在醫學中得到了極為廣泛的應用
RR的計算條件比較苛刻（觀察周期長）

OR(Odds Ratio)——優勢比

為下列兩種比例之比
反應陽性人群中實驗因素有無的比例 a/b
反應陰性人群中實驗因素有無的比例 c/d
OR可以間接反映關聯強度，但是理解上比較困難
發病概率較低時，OR往往近似的在按照RR的含義進行解釋和使用

代碼實現

scipy.stats.fisher_exact()中可以計算OR值，相應的檢驗P值則是確切概率法的P值
OR, P = ss.fisher_exact(pd.crosstab(home.Ts9, home.O1))

statsmodels的實現方式

import numpy as np import statsmodels.stats.contingency_tables as tbl # 這里必須使用np.array函數進行數組轉換，否則后續計算會出問題 table = tbl.Table2x2(np.array(pd.crosstab(home.Ts9, home.O1))) print(table.oddsratio) # OR值 print(table.summary()) # 匯總信息

總結

以上是生活随笔為你收集整理的机器学习基础--卡方检验的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔

生活随笔

编程问答

机器学习基础--卡方检验

卡方檢驗

卡方檢驗的主要用途

卡方檢驗的基本原理

卡方檢驗的statsmodels實現

配對卡方檢驗

代碼實現

相關分析概述

什么是相關分析

各種相關系數

相關系數的計算原理

常用術語

Pearson相關系數

Spearman秩相關系數

相關分析的Python實現

RR與OR

RR(Relative Risk)——相對危險度

OR(Odds Ratio)——優勢比

代碼實現

總結