當(dāng)前位置：首頁 >

c++ 用类统计不及格人数_统计小课堂13

發(fā)布時間：2024/4/17 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 c++ 用类统计不及格人数_统计小课堂13 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Previous review：

1)回歸章節(jié)小結(jié)；

這周開始計數(shù)資料統(tǒng)計！

--------------------------------------

當(dāng)觀察數(shù)據(jù)按照某種屬性和類別分組后，計數(shù)得到各組觀察單位數(shù)的資料成為計數(shù)資料(enumerationdata)。其實(shí)就相當(dāng)于計量資料進(jìn)行了分類。

而與計量資料的區(qū)別在于兩者的研究重點(diǎn)，計量重于不同處理下計量資料間的差異，而計數(shù)資料更偏向于統(tǒng)計某個分類占所有數(shù)據(jù)的比重，以比重去做研究。

就拿計算發(fā)病率來說，分子/分母計算發(fā)病率，即便分開比較了分子和分母的差異，并不能得到兩者相比之后是否存在差異。

大多時候得到的數(shù)值都是絕對數(shù)字，在進(jìn)行技術(shù)資料的統(tǒng)計分析前通常先計算相對數(shù)。

三十、相對數(shù)：

相對數(shù)(relative number)是兩個有聯(lián)系的指標(biāo)之比，根據(jù)不同的用途和性質(zhì)分為相對比、構(gòu)成比、率等。

30.1：相對比(relative ratio)

簡單來說就是兩個數(shù)的比值，可以是同單位，也可以是不同單位。甚至兩個數(shù)可以是絕對數(shù)字、相對數(shù)或平均數(shù)，啥啥都能比。

比較不同地區(qū)最低工資，是money/money，得出倍數(shù)；計算戶口問題，可以總?cè)藬?shù)/總房數(shù)，計算出每房有多少人，人/房為單位。

或者更簡單，每個人特別關(guān)心新學(xué)校的男女比例，就是男生/女生= x : x

30.2：構(gòu)成比(constituent ratio)

表示事物或現(xiàn)象內(nèi)各構(gòu)成部分的比重，通常以100作為比例基數(shù)(結(jié)果乘以100%)，也稱為百分比。

構(gòu)成比=內(nèi)部某一構(gòu)成部分的觀察單位數(shù)/各組成部分的觀察單位總數(shù)。

比如男生占總?cè)藬?shù)多少，就是一個構(gòu)成比。

30.3：率(rate)

率是一個具有時期概念的比，需要強(qiáng)調(diào)在某一時期內(nèi)某個現(xiàn)象發(fā)生的頻率或強(qiáng)度，是一個反映強(qiáng)度的指標(biāo)。

某事情在某個時期內(nèi)發(fā)生率為：

某時期內(nèi)發(fā)生某事件的觀察單位數(shù)/該時期開始時暴露的觀察單位數(shù)。

舉個例子，2019年初調(diào)查了1000個人，有50人高血壓，2020年再去調(diào)查這些人，有80人高血壓，所以高血壓的發(fā)病率就應(yīng)該是：(80-50)/(1000-80)，也就是只有第一年剩下的920人才可能新發(fā)病，所以30人應(yīng)該是920人里面的一部分。而不是我們平時說2019年發(fā)病率是5%，2020年發(fā)病率是8%，這是口語中的錯誤概念。

30.4：標(biāo)準(zhǔn)化率

標(biāo)準(zhǔn)化率又稱調(diào)整率，簡稱為標(biāo)化率。對于內(nèi)部構(gòu)成不同的率進(jìn)行比較時，按選定的標(biāo)準(zhǔn)進(jìn)行調(diào)整，使得內(nèi)部構(gòu)成統(tǒng)一后再計算標(biāo)化率。

計算方法成為直接法與間接法。兩者計算結(jié)果比較接近，但是直接法計算比較簡便，易于理解，更為常用。

主要的過程：①選定標(biāo)準(zhǔn)組，標(biāo)準(zhǔn)組一般為有代表性、較穩(wěn)定的并且數(shù)量較大的人群；②按照選定的計算方法計算標(biāo)準(zhǔn)化率，然后再進(jìn)行比較。

比如為了比較兩個城市的發(fā)病率，但這兩個城市中年齡構(gòu)成比不同，城市A中老年人較多，而城市B中年輕人比重更高。這樣統(tǒng)計出來的發(fā)病率并不能代表真實(shí)情況，所以需要選用一個更大的范圍(比如全國范圍)內(nèi)年齡構(gòu)成比來對這兩個城市的比重進(jìn)行校準(zhǔn)，這樣才能夠保證在同樣的水平上進(jìn)行比較。

30.5：注意事項(xiàng)和誤區(qū)相對數(shù)使用時會有一些注意事項(xiàng)，以及口語化的相對數(shù)存在著很多誤區(qū)。

1、名為率但不是率的指標(biāo)：真正意義上的率是應(yīng)該有限定的時期。而有些頂著率的名頭，嚴(yán)謹(jǐn)來說應(yīng)該是相對比或者構(gòu)成比的指標(biāo)比比皆是：患病率，人群中某病病人所占百分比，所以應(yīng)該是一個構(gòu)成比的問題，只關(guān)心某個時間點(diǎn)，此時此刻有多少病人，而不是一個時期新出現(xiàn)了多少病人。某個時間段的死亡率，一般是通過死亡人數(shù)/病人數(shù)而得，但是亡人和病人并不一定是同一時期患病的，在統(tǒng)計死亡人數(shù)的前幾天突然有疫情爆發(fā)，病人突然變多，死亡率就會相應(yīng)下降，所以實(shí)則為相對比。

2、使用率時，分母不能太小：樣本量越多算出來的率越穩(wěn)定，意義也比較大。比如一個工廠生產(chǎn)零件，就生產(chǎn)了2件全部成功，而另一個工廠生產(chǎn)了2w件，只有2件失敗，然后你就不能說第一個工廠更好因?yàn)槌晒β适?00%。如果分母比較小還是提示一下絕對數(shù)字。

3、構(gòu)成比和率是兩個不同的相對數(shù)，用途不一樣所以也不能混淆。

4、當(dāng)各組的例數(shù)不相等的時候，計算不同率的平均值的時候不能直接把所有幾個率相加然后求平均，應(yīng)該分子求和/分母求和，然后得出平均數(shù)。

5、用率做比較時，應(yīng)該注意是否可比：如果不能直接相比，就像前面回歸的時候講到標(biāo)準(zhǔn)偏回歸系數(shù)，率也會有一個標(biāo)準(zhǔn)化率，需要進(jìn)行標(biāo)準(zhǔn)化之后才能進(jìn)行相互比較。

三十一、總體率的估計：

與樣本平均數(shù)一樣，樣本率P也是一種統(tǒng)計量，也有抽樣誤差，用率的標(biāo)準(zhǔn)誤Sp反映抽樣誤差的大小：Sp²=P(1-P)/n。

但是存在樣本率就會存在總體率，這樣就會存在“點(diǎn)估計”和“區(qū)間估計”兩個概念。當(dāng)然點(diǎn)估計不太推薦，最好還是區(qū)間估計會好一點(diǎn)。

31.1：正態(tài)理論法估計率的置信區(qū)間

樣本含量較大的時候，nP(1-P)≥5時，P的抽樣分布接近正態(tài)，所以可以用正態(tài)分布計算置信區(qū)間的上下限，就和之前提到的計算置信區(qū)間差不多。

95%：P±1.96Sp；99%：P±2.58Sp。

31.1：精確法估計率的置信區(qū)間

但是當(dāng)nP(1-P)＜5時，只能在小樣本的情形下使用精確法計算置信區(qū)間。

這里面我就不給出具體計算公式，因?yàn)橛辛斯侥阋膊粫恪?/p>

萬幸的是，有人專門計算出來了表格，通過查詢表格，找到“樣本量”和“實(shí)際數(shù)(就是計算率的時候分子量)”就可以找到對應(yīng)的置信區(qū)間。

三十二、率的假設(shè)檢驗(yàn)：

率的假設(shè)檢驗(yàn)和前面我們所講的均數(shù)的假設(shè)檢驗(yàn)類似，被區(qū)分3種情況：

①樣本率和總體率的比較；②兩樣本率的比較；③多個樣本率的比較。這三種情況的假設(shè)檢驗(yàn)可以參考t檢驗(yàn)的假設(shè)檢驗(yàn)，后面就不一一列舉了。率的假設(shè)檢驗(yàn)可以使用卡方(X²)檢驗(yàn)和U檢驗(yàn)，兩者在公式和一些參數(shù)上是等價的。32.1：樣本率和總體率的比較

設(shè)樣本量為n，陽性數(shù)為x，樣本率p=x/n，比較樣本所屬于的總體的率π和已知總體的率π₀是否相等。

當(dāng)n較小的時候，樣本率接近0或1的時候，推薦使用泊松分布(之前戈賽特估計酵母細(xì)胞量的分布)做檢驗(yàn)；當(dāng)樣本率不接近0和1的時候，使用二項(xiàng)分布做檢驗(yàn)；當(dāng)n較大時，np≥5時，可以使用卡方或者U檢驗(yàn)。

U檢驗(yàn)：

計算出u值之后比較是否＜u_0.05，若成立則沒有差異。

卡方檢驗(yàn)的話需要先根據(jù)π₀計算出理論陽性數(shù)nπ₀，和對應(yīng)的理論非陽性數(shù)n(1-π₀)。

如果你將p=x/n帶入u檢驗(yàn)的算式中會發(fā)現(xiàn)這兩個公式其實(shí)是一樣的，并且在0.05和0.01的顯著性水平上，卡方檢驗(yàn)的統(tǒng)計量確實(shí)是U檢驗(yàn)統(tǒng)計量的平方，所以兩者的檢驗(yàn)是完全等價的。

32.2：樣本率和總體率的比較

兩個樣本統(tǒng)計量依次為n1，x1，p1，n2，x2，p2，計算公式還是p=x/n，兩樣本所屬于的總體率為π1和π2。

U檢驗(yàn)：

?????? 卡方檢驗(yàn)還是需要事先列表計算觀察頻數(shù)和理論頻數(shù)。第一個表格為觀察頻數(shù)，每一行/列都有合計，右下角是總例數(shù)。

對于觀察頻數(shù)中每個小格子的理論頻數(shù)計算是：使用行合計和列合計之積/總例數(shù)。

經(jīng)過前面給過的卡方計算公式，可以得出一個規(guī)律：

如果使用四格表表示甲樣本和乙樣本的陽性數(shù)和非陽性數(shù)，簡算公式為：

X²=[(ad-bc)²(a+b+c+d)]/[(a+b)(b+c)(a+c)(b+d)]，也可以發(fā)現(xiàn)卡方值等于U值。

但考慮到卡方分布和U分布(正態(tài)分布)都是都是連續(xù)性的分布，而在正常情況下計數(shù)資料是間斷性的，直接使用卡方分布和U分布會使得結(jié)果有所偏差。所以統(tǒng)計學(xué)家對卡方檢驗(yàn)制訂了一些校正規(guī)則：

1)n≥40時，所有格子的理論頻數(shù)≥5，不需要校正；

2)n≥40時，所有格子的理論頻數(shù)1≤T＜5時，需要進(jìn)行卡方檢驗(yàn)的校正，可以使用卡方檢驗(yàn)的校正公式或者四格表專用的校正公式，分別如下：

3)n＜40時，或有至少有一個格子的理論頻數(shù)T＜1時，或當(dāng)卡方檢驗(yàn)的p值接近所確定的顯著性水平α?xí)r，需要使用Fisher確切概率法。

32.3：多個樣本率的比較

卡方檢驗(yàn)和U檢驗(yàn)的公式都和前面一樣，只是因?yàn)椴辉偈撬母癖?#xff0c;所以前面提到的簡算公式就不再作數(shù)，具體的簡算公式(其實(shí)我覺得也一點(diǎn)都不簡算，該看不懂的還是看不懂)在后面R*C列聯(lián)表中提到，兩者的計算公式是一致的。(而且給你你也不用對吧，看了還占用腦容量，就算了)

--------------------------------------

開了一下計數(shù)資料統(tǒng)計的頭！簡要講了一些四聯(lián)表，這一最簡單的列聯(lián)表，之后會說到復(fù)雜的R*C列聯(lián)表。

下期預(yù)告：

R*C列聯(lián)表的統(tǒng)計分析。

總結(jié)

以上是生活随笔為你收集整理的c++ 用类统计不及格人数_统计小课堂13的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：哪一版可以打开pdg 安卓超星图书馆_南
下一篇：调试记录- error: #error

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

c++ 用类统计不及格人数_统计小课堂13

總結(jié)