c++ 用类统计不及格人数_统计小课堂13
Previous review:
1)回歸章節(jié)小結(jié);
這周開始計數(shù)資料統(tǒng)計!
--------------------------------------
當(dāng)觀察數(shù)據(jù)按照某種屬性和類別分組后,計數(shù)得到各組觀察單位數(shù)的資料成為計數(shù)資料(enumerationdata)。其實(shí)就相當(dāng)于計量資料進(jìn)行了分類。
而與計量資料的區(qū)別在于兩者的研究重點(diǎn),計量重于不同處理下計量資料間的差異,而計數(shù)資料更偏向于統(tǒng)計某個分類占所有數(shù)據(jù)的比重,以比重去做研究。
就拿計算發(fā)病率來說,分子/分母計算發(fā)病率,即便分開比較了分子和分母的差異,并不能得到兩者相比之后是否存在差異。
大多時候得到的數(shù)值都是絕對數(shù)字,在進(jìn)行技術(shù)資料的統(tǒng)計分析前通常先計算相對數(shù)。
三十、相對數(shù):
相對數(shù)(relative number)是兩個有聯(lián)系的指標(biāo)之比,根據(jù)不同的用途和性質(zhì)分為相對比、構(gòu)成比、率等。
30.1:相對比(relative ratio)
簡單來說就是兩個數(shù)的比值,可以是同單位,也可以是不同單位。甚至兩個數(shù)可以是絕對數(shù)字、相對數(shù)或平均數(shù),啥啥都能比。
比較不同地區(qū)最低工資,是money/money,得出倍數(shù);計算戶口問題,可以總?cè)藬?shù)/總房數(shù),計算出每房有多少人,人/房為單位。
或者更簡單,每個人特別關(guān)心新學(xué)校的男女比例,就是男生/女生= x : x
30.2:構(gòu)成比(constituent ratio)表示事物或現(xiàn)象內(nèi)各構(gòu)成部分的比重,通常以100作為比例基數(shù)(結(jié)果乘以100%),也稱為百分比。
構(gòu)成比=內(nèi)部某一構(gòu)成部分的觀察單位數(shù)/各組成部分的觀察單位總數(shù)。
比如男生占總?cè)藬?shù)多少,就是一個構(gòu)成比。
30.3:率(rate)率是一個具有時期概念的比,需要強(qiáng)調(diào)在某一時期內(nèi)某個現(xiàn)象發(fā)生的頻率或強(qiáng)度,是一個反映強(qiáng)度的指標(biāo)。
某事情在某個時期內(nèi)發(fā)生率為:
某時期內(nèi)發(fā)生某事件的觀察單位數(shù)/該時期開始時暴露的觀察單位數(shù)。
舉個例子,2019年初調(diào)查了1000個人,有50人高血壓,2020年再去調(diào)查這些人,有80人高血壓,所以高血壓的發(fā)病率就應(yīng)該是:(80-50)/(1000-80),也就是只有第一年剩下的920人才可能新發(fā)病,所以30人應(yīng)該是920人里面的一部分。而不是我們平時說2019年發(fā)病率是5%,2020年發(fā)病率是8%,這是口語中的錯誤概念。
30.4:標(biāo)準(zhǔn)化率標(biāo)準(zhǔn)化率又稱調(diào)整率,簡稱為標(biāo)化率。對于內(nèi)部構(gòu)成不同的率進(jìn)行比較時,按選定的標(biāo)準(zhǔn)進(jìn)行調(diào)整,使得內(nèi)部構(gòu)成統(tǒng)一后再計算標(biāo)化率。
計算方法成為直接法與間接法。兩者計算結(jié)果比較接近,但是直接法計算比較簡便,易于理解,更為常用。
主要的過程:①選定標(biāo)準(zhǔn)組,標(biāo)準(zhǔn)組一般為有代表性、較穩(wěn)定的并且數(shù)量較大的人群;②按照選定的計算方法計算標(biāo)準(zhǔn)化率,然后再進(jìn)行比較。
比如為了比較兩個城市的發(fā)病率,但這兩個城市中年齡構(gòu)成比不同,城市A中老年人較多,而城市B中年輕人比重更高。這樣統(tǒng)計出來的發(fā)病率并不能代表真實(shí)情況,所以需要選用一個更大的范圍(比如全國范圍)內(nèi)年齡構(gòu)成比來對這兩個城市的比重進(jìn)行校準(zhǔn),這樣才能夠保證在同樣的水平上進(jìn)行比較。
30.5:注意事項(xiàng)和誤區(qū)相對數(shù)使用時會有一些注意事項(xiàng),以及口語化的相對數(shù)存在著很多誤區(qū)。1、名為率但不是率的指標(biāo):真正意義上的率是應(yīng)該有限定的時期。而有些頂著率的名頭,嚴(yán)謹(jǐn)來說應(yīng)該是相對比或者構(gòu)成比的指標(biāo)比比皆是:患病率,人群中某病病人所占百分比,所以應(yīng)該是一個構(gòu)成比的問題,只關(guān)心某個時間點(diǎn),此時此刻有多少病人,而不是一個時期新出現(xiàn)了多少病人。某個時間段的死亡率,一般是通過死亡人數(shù)/病人數(shù)而得,但是亡人和病人并不一定是同一時期患病的,在統(tǒng)計死亡人數(shù)的前幾天突然有疫情爆發(fā),病人突然變多,死亡率就會相應(yīng)下降,所以實(shí)則為相對比。
2、使用率時,分母不能太小:樣本量越多算出來的率越穩(wěn)定,意義也比較大。比如一個工廠生產(chǎn)零件,就生產(chǎn)了2件全部成功,而另一個工廠生產(chǎn)了2w件,只有2件失敗,然后你就不能說第一個工廠更好因?yàn)槌晒β适?00%。如果分母比較小還是提示一下絕對數(shù)字。
3、構(gòu)成比和率是兩個不同的相對數(shù),用途不一樣所以也不能混淆。
4、當(dāng)各組的例數(shù)不相等的時候,計算不同率的平均值的時候不能直接把所有幾個率相加然后求平均,應(yīng)該分子求和/分母求和,然后得出平均數(shù)。
5、用率做比較時,應(yīng)該注意是否可比:如果不能直接相比,就像前面回歸的時候講到標(biāo)準(zhǔn)偏回歸系數(shù),率也會有一個標(biāo)準(zhǔn)化率,需要進(jìn)行標(biāo)準(zhǔn)化之后才能進(jìn)行相互比較。
三十一、總體率的估計:與樣本平均數(shù)一樣,樣本率P也是一種統(tǒng)計量,也有抽樣誤差,用率的標(biāo)準(zhǔn)誤Sp反映抽樣誤差的大小:Sp2=P(1-P)/n。
但是存在樣本率就會存在總體率,這樣就會存在“點(diǎn)估計”和“區(qū)間估計”兩個概念。當(dāng)然點(diǎn)估計不太推薦,最好還是區(qū)間估計會好一點(diǎn)。
31.1:正態(tài)理論法估計率的置信區(qū)間樣本含量較大的時候,nP(1-P)≥5時,P的抽樣分布接近正態(tài),所以可以用正態(tài)分布計算置信區(qū)間的上下限,就和之前提到的計算置信區(qū)間差不多。
95%:P±1.96Sp;99%:P±2.58Sp。
31.1:精確法估計率的置信區(qū)間但是當(dāng)nP(1-P)<5時,只能在小樣本的情形下使用精確法計算置信區(qū)間。
這里面我就不給出具體計算公式,因?yàn)橛辛斯侥阋膊粫恪?/p>
萬幸的是,有人專門計算出來了表格,通過查詢表格,找到“樣本量”和“實(shí)際數(shù)(就是計算率的時候分子量)”就可以找到對應(yīng)的置信區(qū)間。
三十二、率的假設(shè)檢驗(yàn):
率的假設(shè)檢驗(yàn)和前面我們所講的均數(shù)的假設(shè)檢驗(yàn)類似,被區(qū)分3種情況:
①樣本率和總體率的比較;②兩樣本率的比較;③多個樣本率的比較。這三種情況的假設(shè)檢驗(yàn)可以參考t檢驗(yàn)的假設(shè)檢驗(yàn),后面就不一一列舉了。率的假設(shè)檢驗(yàn)可以使用卡方(X2)檢驗(yàn)和U檢驗(yàn),兩者在公式和一些參數(shù)上是等價的。32.1:樣本率和總體率的比較設(shè)樣本量為n,陽性數(shù)為x,樣本率p=x/n,比較樣本所屬于的總體的率π和已知總體的率π0是否相等。
當(dāng)n較小的時候,樣本率接近0或1的時候,推薦使用泊松分布(之前戈賽特估計酵母細(xì)胞量的分布)做檢驗(yàn);當(dāng)樣本率不接近0和1的時候,使用二項(xiàng)分布做檢驗(yàn);當(dāng)n較大時,np≥5時,可以使用卡方或者U檢驗(yàn)。
U檢驗(yàn):
計算出u值之后比較是否<u0.05,若成立則沒有差異。
卡方檢驗(yàn)的話需要先根據(jù)π0計算出理論陽性數(shù)nπ0,和對應(yīng)的理論非陽性數(shù)n(1-π0)。
如果你將p=x/n帶入u檢驗(yàn)的算式中會發(fā)現(xiàn)這兩個公式其實(shí)是一樣的,并且在0.05和0.01的顯著性水平上,卡方檢驗(yàn)的統(tǒng)計量確實(shí)是U檢驗(yàn)統(tǒng)計量的平方,所以兩者的檢驗(yàn)是完全等價的。
32.2:樣本率和總體率的比較兩個樣本統(tǒng)計量依次為n1,x1,p1,n2,x2,p2,計算公式還是p=x/n,兩樣本所屬于的總體率為π1和π2。
U檢驗(yàn):?????? 卡方檢驗(yàn)還是需要事先列表計算觀察頻數(shù)和理論頻數(shù)。第一個表格為觀察頻數(shù),每一行/列都有合計,右下角是總例數(shù)。
對于觀察頻數(shù)中每個小格子的理論頻數(shù)計算是:使用行合計和列合計之積/總例數(shù)。
經(jīng)過前面給過的卡方計算公式,可以得出一個規(guī)律:
如果使用四格表表示甲樣本和乙樣本的陽性數(shù)和非陽性數(shù),簡算公式為:
X2=[(ad-bc)2(a+b+c+d)]/[(a+b)(b+c)(a+c)(b+d)],也可以發(fā)現(xiàn)卡方值等于U值。
但考慮到卡方分布和U分布(正態(tài)分布)都是都是連續(xù)性的分布,而在正常情況下計數(shù)資料是間斷性的,直接使用卡方分布和U分布會使得結(jié)果有所偏差。所以統(tǒng)計學(xué)家對卡方檢驗(yàn)制訂了一些校正規(guī)則:
1)n≥40時,所有格子的理論頻數(shù)≥5,不需要校正;
2)n≥40時,所有格子的理論頻數(shù)1≤T<5時,需要進(jìn)行卡方檢驗(yàn)的校正,可以使用卡方檢驗(yàn)的校正公式或者四格表專用的校正公式,分別如下:
3)n<40時,或有至少有一個格子的理論頻數(shù)T<1時,或當(dāng)卡方檢驗(yàn)的p值接近所確定的顯著性水平α?xí)r,需要使用Fisher確切概率法。
32.3:多個樣本率的比較
卡方檢驗(yàn)和U檢驗(yàn)的公式都和前面一樣,只是因?yàn)椴辉偈撬母癖?#xff0c;所以前面提到的簡算公式就不再作數(shù),具體的簡算公式(其實(shí)我覺得也一點(diǎn)都不簡算,該看不懂的還是看不懂)在后面R*C列聯(lián)表中提到,兩者的計算公式是一致的。(而且給你你也不用對吧,看了還占用腦容量,就算了)
--------------------------------------
開了一下計數(shù)資料統(tǒng)計的頭!簡要講了一些四聯(lián)表,這一最簡單的列聯(lián)表,之后會說到復(fù)雜的R*C列聯(lián)表。下期預(yù)告:
R*C列聯(lián)表的統(tǒng)計分析。總結(jié)
以上是生活随笔為你收集整理的c++ 用类统计不及格人数_统计小课堂13的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哪一版可以打开pdg 安卓超星图书馆_南
- 下一篇: 调试记录- error: #error