日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

转载: 关于显著性检验,你想要的都在这儿了!!(基础篇)

發(fā)布時(shí)間:2025/3/15 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 转载: 关于显著性检验,你想要的都在这儿了!!(基础篇) 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

關(guān)于顯著性檢驗(yàn),你想要的都在這兒了!!(基礎(chǔ)篇)
無(wú)論你從事何種領(lǐng)域的科學(xué)研究還是統(tǒng)計(jì)調(diào)查,顯著性檢驗(yàn)作為判斷兩個(gè)乃至多個(gè)數(shù)據(jù)集之間是否存在差異的方法被廣泛應(yīng)用于各個(gè)科研領(lǐng)域。筆者作為科研界一名新人也曾經(jīng)在顯著性檢驗(yàn)方面吃過(guò)許多苦頭。后來(lái)醉心于統(tǒng)計(jì)理論半載有余才摸到顯著性檢驗(yàn)的皮毛,也為顯著性檢驗(yàn)理論之精妙,品種之繁多,邏輯之嚴(yán)謹(jǐn)所折服。在此,特寫(xiě)下這篇博文,以供那些仍然掙扎在顯著性檢驗(yàn)?zāi)嗵兜姆墙y(tǒng)計(jì)專(zhuān)業(yè)的科研界同僚們參考。由于筆者本人也并非統(tǒng)計(jì)專(zhuān)業(yè)畢業(yè),所持觀點(diǎn)粗陋淺鄙,貽笑大方之處還望諸位業(yè)界前輩,領(lǐng)域翹楚不吝賜教。小可在此謝過(guò)諸位看官了。
本篇博文致力于解決一下幾點(diǎn)問(wèn)題,在此羅列出來(lái):1.什么是顯著性檢驗(yàn)? 2.為什么要做顯著性檢驗(yàn)? 3.怎么做顯著性檢驗(yàn)?下面就請(qǐng)跟隨筆者的步伐一步步走入顯著性檢驗(yàn)的“前世與今生”。

一:顯著性檢驗(yàn)前傳:什么是顯著性檢驗(yàn)?它與統(tǒng)計(jì)假設(shè)檢驗(yàn)有什么關(guān)系?為什么要做顯著性檢驗(yàn)?
“顯著性檢驗(yàn)”實(shí)際上是英文significance test的漢語(yǔ)譯名。在統(tǒng)計(jì)學(xué)中,顯著性檢驗(yàn)是“統(tǒng)計(jì)假設(shè)檢驗(yàn)”(Statistical hypothesis testing)的一種,顯著性檢驗(yàn)是用于檢測(cè)科學(xué)實(shí)驗(yàn)中實(shí)驗(yàn)組與對(duì)照組之間是否有差異以及差異是否顯著的辦法。實(shí)際上,了解顯著性檢驗(yàn)的“宗門(mén)背景”(統(tǒng)計(jì)假設(shè)檢驗(yàn))更有助于一個(gè)科研新手理解顯著性檢驗(yàn)。“統(tǒng)計(jì)假設(shè)檢驗(yàn)”這一正名實(shí)際上指出了“顯著性檢驗(yàn)”的前提條件是“統(tǒng)計(jì)假設(shè)”,換言之“無(wú)假設(shè),不檢驗(yàn)”。任何人在使用顯著性檢驗(yàn)之前必須在心里明白自己的科研假設(shè)是什么,否則顯著性檢驗(yàn)就是“水中月,鏡中花”,可望而不可即。用更通俗的話來(lái)說(shuō)就是要先對(duì)科研數(shù)據(jù)做一個(gè)假設(shè),然后用檢驗(yàn)來(lái)檢查假設(shè)對(duì)不對(duì)。一般而言,把要檢驗(yàn)的假設(shè)稱(chēng)之為原假設(shè),記為H0;把與H0相對(duì)應(yīng)(相反)的假設(shè)稱(chēng)之為備擇假設(shè),記為H1。
如果原假設(shè)為真,而檢驗(yàn)的結(jié)論卻勸你放棄原假設(shè)。此時(shí),我們把這種錯(cuò)誤稱(chēng)之為第一類(lèi)錯(cuò)誤。通常把第一類(lèi)錯(cuò)誤出現(xiàn)的概率記為α
如果原假設(shè)不真,而檢驗(yàn)的結(jié)論卻勸你不放棄原假設(shè)。此時(shí),我們把這種錯(cuò)誤稱(chēng)之為第二類(lèi)錯(cuò)誤。通常把第二類(lèi)錯(cuò)誤出現(xiàn)的概率記為β
通常只限定犯第一類(lèi)錯(cuò)誤的最大概率α, 不考慮犯第二類(lèi)錯(cuò)誤的概率β。我們把這樣的假設(shè)檢驗(yàn)稱(chēng)為顯著性檢驗(yàn),概率α稱(chēng)為顯著性水平。顯著性水平是數(shù)學(xué)界約定俗成的,一般有α =0.05,0.025.0.01這三種情況。代表著顯著性檢驗(yàn)的結(jié)論錯(cuò)誤率必須低于5%或2.5%或1%(統(tǒng)計(jì)學(xué)中,通常把在現(xiàn)實(shí)世界中發(fā)生幾率小于5%的事件稱(chēng)之為“不可能事件”)。(以上這一段話實(shí)際上講授了顯著性檢驗(yàn)與統(tǒng)計(jì)假設(shè)檢驗(yàn)的關(guān)系)
為了方便接下來(lái)的講授,這里舉一個(gè)例子。趙先生開(kāi)了一家日用百貨公司,該公司分別在鄭州和杭州開(kāi)設(shè)了分公司。現(xiàn)在存在下列數(shù)據(jù)作為兩個(gè)分公司的銷(xiāo)售額,集合中的每一個(gè)數(shù)代表著一年中某一個(gè)月的公司銷(xiāo)售額。
鄭州分公司Z = {23,25,26,27,23,24,22,23,25,29,30}
杭州分公司H = {24,25,23,26,27,25,25,28,30,31,29}
現(xiàn)在,趙先生想要知道兩個(gè)公司的銷(xiāo)售額是否有存在明顯的差異(是否存在鄭州分公司銷(xiāo)售額>杭州分公司銷(xiāo)售額,抑或反之),以便對(duì)接下來(lái)公司的戰(zhàn)略業(yè)務(wù)調(diào)整做出規(guī)劃。下屬們知道趙老板的難處,紛紛建議“只需要求平均值就知道哪個(gè)分公司的銷(xiāo)售額更大了”。但是作為擁有高學(xué)歷的趙先生懂得這樣一件哲學(xué)即“我們生活在概率的世界之中”。那也就意味著,平均值并不能夠說(shuō)明什么問(wèn)題,即便杭州分公司的銷(xiāo)售額平均值大于鄭州分公司的銷(xiāo)售額平均值仍然不能說(shuō)明杭州分公司的銷(xiāo)售額一定就大于鄭州分公司的銷(xiāo)售額,因?yàn)椤斑@樣一種看似存在的大于關(guān)系實(shí)質(zhì)上是偶然造成的而并不是一種必然”。
趙先生最終決定,使用方差驗(yàn)檢查這兩個(gè)數(shù)據(jù)。(請(qǐng)先忽略為什么用方差檢驗(yàn),檢驗(yàn)方法的選擇下文中會(huì)詳述)
最后趙先生發(fā)現(xiàn),方差檢驗(yàn)的p 值= 0.2027,那也就意味著,雖然杭州分公司的年平均銷(xiāo)售額26.63大于鄭州分公司的銷(xiāo)售額25.18,但是實(shí)質(zhì)上,兩個(gè)分公司的銷(xiāo)售額并沒(méi)有明顯的差異。(相信此時(shí)的你心中有萬(wàn)千草泥馬奔過(guò):方差檢驗(yàn)是怎么做的?p值是什么鬼?為什么p=0.2027意味著銷(xiāo)售額沒(méi)有明顯差異?信息量好大腫么辦?)

不要急,不要慌,讓我們從頭來(lái)過(guò),整理一下趙先生這里究竟發(fā)生了什么。這里很有必要了解一下根植于趙先生思維里的“慢動(dòng)作”。
第一點(diǎn):如上文所述的一樣,“無(wú)假設(shè),不檢驗(yàn)”,趙先生做了什么樣的假設(shè)(Hypothesis)?
由于趙先生想要知道兩個(gè)公司的銷(xiāo)售額是否有存在明顯的差異 ,所以他的假設(shè)就是“樣本集Z(鄭州分公司)和樣本集H(杭州分公司)不存在顯著性差異,換言之這兩個(gè)集合沒(méi)有任何區(qū)別(銷(xiāo)售額間沒(méi)有區(qū)別)!”這就是趙先生的假設(shè)。那么問(wèn)題來(lái)了,為什么趙先生要假設(shè)這兩個(gè)樣本集之間不存在任何區(qū)別,而不是假設(shè)這兩個(gè)樣本集存在區(qū)別。因?yàn)檫@個(gè)假設(shè)(Hypothesis)正是方差檢驗(yàn)的原假設(shè)(null hypothesis)。那么問(wèn)題又來(lái)了,什么是原假設(shè)。所謂原假設(shè)是數(shù)學(xué)界為了方便討論而默認(rèn)的“原始的假設(shè)”。沒(méi)有什么為甚么可言,約定俗成罷了。
第二點(diǎn):p值怎么回事?
這里并不用管p值是怎樣得到的,直接給出結(jié)論。在顯著性水平α =0.05的情況下,p>0.05接受原假設(shè),p值<0.05拒絕原假設(shè)。我們的原假設(shè)是樣本集Z和樣本集H間不存在顯著性差異,但是由于p=0.2027>0.05,所以接受原假設(shè),即樣本集Z和樣本集H間不存在顯著性差異。當(dāng)然有接受就有拒接,如果這里的p值小于0.05,那么就要拒絕原假設(shè),即集合Z和集合H間存在顯著性差異。
第三點(diǎn):怎么做方差檢驗(yàn)以及為何做方差檢驗(yàn)之后再細(xì)講,這里暫且不表。
在這一章節(jié)的最后,給出本章的兩個(gè)問(wèn)題的答案,相信你現(xiàn)在已經(jīng)可以理解:
1什么是統(tǒng)計(jì)假設(shè)檢驗(yàn)?
所謂統(tǒng)計(jì)假設(shè)檢驗(yàn)就是事先對(duì)總體(隨機(jī)變量)的參數(shù)或總體分布形式做出一個(gè)假設(shè),然后利用樣本信息來(lái)判斷這個(gè)假設(shè)是否合理。而把只限定第一類(lèi)錯(cuò)誤概率的統(tǒng)計(jì)假設(shè)檢驗(yàn)就稱(chēng)之為顯著性檢驗(yàn)。在上例中,我們的假設(shè)就是一種顯著性檢驗(yàn)。因?yàn)榉讲顧z驗(yàn)不適用于估計(jì)參數(shù)和估計(jì)總體分布,而是用于檢驗(yàn)試驗(yàn)的兩個(gè)組間是否有差異。而方差檢驗(yàn)正是用于檢測(cè)我們所關(guān)心的是這兩個(gè)集合(兩個(gè)分布)的均值是否存在差異。
2.為什么要做顯著性檢驗(yàn)?
因?yàn)槲覀兿胍袛鄻颖九c我們對(duì)總體所做的假設(shè)之間的差異是純屬機(jī)會(huì)變異,還是由我們所做的假設(shè)與總體真實(shí)情況之間不一致所引起的。 在我們的例子中,差異就是H的均值要高于Z的均值,但是最終的結(jié)論p>0.05證明,這個(gè)差異純屬機(jī)會(huì)變異(H均值>Z均值是偶然的,當(dāng)H和Z的采樣點(diǎn)數(shù)趨于無(wú)窮多時(shí),H的均值會(huì)趨近等于Z的均值)而不是假設(shè)與真實(shí)情況不一致。如果p值<0.05,那么也就意味著我們的假設(shè)(H集合和Z集合沒(méi)差別)與真實(shí)情況不一致,這就使得假設(shè)不成立,即H集合和Z集合有差別。

二:怎么做顯著性檢驗(yàn)?(基于MATLAB)
顯著性檢驗(yàn)可以分為參數(shù)檢驗(yàn)和非參數(shù)檢驗(yàn)。參數(shù)檢驗(yàn)要求樣本來(lái)源于正態(tài)總體(服從正態(tài)分布),且這些正態(tài)總體擁有相同的方差,在這樣的基本假定(正態(tài)性假定和方差齊性假定)下檢驗(yàn)各總體均值是否相等,屬于參數(shù)檢驗(yàn)。
當(dāng)數(shù)據(jù)不滿足正態(tài)性和方差齊性假定時(shí),參數(shù)檢驗(yàn)可能會(huì)給出錯(cuò)誤的答案,此時(shí)應(yīng)采用基于秩的非參數(shù)檢驗(yàn)。
參數(shù)檢驗(yàn)的方法及其相應(yīng)知識(shí)點(diǎn)的解釋(這里只給出參數(shù)檢驗(yàn)中常見(jiàn)的方差分析):
方差分析主要分為’①單因素一元方差分析’; ‘②雙因素一元方差分析 ‘; ‘③多因素一元方差分析 ‘; ‘④單因素多元方差分析 ‘。下面一節(jié)對(duì)各種方差分析的實(shí)現(xiàn)方法進(jìn)行介紹。但在介紹之前,我要首先“劇透”一下兩個(gè)重要的點(diǎn),理解這些點(diǎn)有助于區(qū)別不同類(lèi)型的方差分析。
什么叫做因素,什么叫做元?
先解釋一下什么叫做”元”。我假定正在看這篇博文的人一定具有小學(xué)以上文化水平,那么想必你一定對(duì)“一元二次方程”“二元一次方程”“多元一次方程”這種概念不陌生。所謂的“元”,正是指未知變量的個(gè)數(shù)。在統(tǒng)計(jì)假設(shè)檢驗(yàn)中,仍然把待檢驗(yàn)的未知變量稱(chēng)之為“元”而把影響未知變量的行為(事件)稱(chēng)之為“因素”。有過(guò)機(jī)器學(xué)習(xí)基礎(chǔ)的同學(xué)可以把“元”和“因素”分別理解成機(jī)器學(xué)習(xí)中的“特征個(gè)數(shù)”和“標(biāo)簽個(gè)數(shù)”。擁有多個(gè)特征便是“多元”,而擁有多個(gè)標(biāo)簽便是“多因素”。

①單因素一元方差分析的方法和案例:
相關(guān)MATLAB函數(shù):
函數(shù)一:anova1( X, Group, displayopt)
參數(shù)解釋:在第一種用法中,X是一個(gè)n行1列的數(shù)組,Group也是一個(gè)n行1列的數(shù)組。X為待檢驗(yàn)的樣本集,這個(gè)樣本集中包括若干個(gè)對(duì)照組和實(shí)驗(yàn)組的全部數(shù)據(jù)。那么機(jī)器怎么知道哪個(gè)數(shù)據(jù)屬于哪個(gè)組呢?很簡(jiǎn)單,通過(guò)Group這個(gè)列向量一一對(duì)應(yīng)指明即可。一下這個(gè)例子來(lái)自于MATLAB的help文檔,在這里用于實(shí)例說(shuō)明:
假定現(xiàn)在有三組數(shù)據(jù)
組一(st):82 86 79 83 84 85 86 87
組二(al1):74 82 78 75 76 77
組三(al2):79 79 77 78 82 79
現(xiàn)在需要對(duì)這三組數(shù)據(jù)做方差檢驗(yàn),使用anova1函數(shù)的方法如下
1.首先將所有的數(shù)據(jù)放在同一個(gè)數(shù)組strength中:

strength = [82 86 79 83 84 85 86 87 74 82 78 75 76 77 79 79 77 78 82 79];
2.設(shè)置對(duì)應(yīng)與strength對(duì)應(yīng)位置的標(biāo)簽為alloy:
alloy = {‘st’,’st’,’st’,’st’,’st’,’st’,’st’,’st’,’al1’,’al1’,’al1’,’al1’,’al1’,’al1’,’al2’,’al2’,’al2’,’al2’,’al2’,’al2’};
3.調(diào)用anova1函數(shù)
p = anova1(strength,alloy)

最終得到的結(jié)果會(huì)是一個(gè)數(shù)值和兩幅圖,一個(gè)值是p值。p值得看法在上文已經(jīng)介紹過(guò),這里不再細(xì)細(xì)的介紹。在本例中,p的值如下
p =
1.5264e-004
顯然,從p值看,三組值之間存在顯著性差異。有一點(diǎn)必須提一下:這里p存在顯著性差異并不意味著三組之間兩兩都存在顯著性差異,而只是說(shuō)明顯著性差異在這三組之間存在。
第一幅圖是一張表,這張表被稱(chēng)之為ANOVA表。相信許多非統(tǒng)計(jì)專(zhuān)業(yè)的同學(xué)見(jiàn)到ANOVA表的一瞬間是崩潰的,一堆問(wèn)題奔涌而出:
Source是什么鬼?SS是什么鬼,df是什么鬼,MS是什么鬼,F是什么鬼,Prob>F是什么鬼,etc.
這里為了解決“什么鬼”的問(wèn)題,對(duì)這張表給出詳細(xì)的解釋:

Source表示方差來(lái)源(誰(shuí)的方差),這里的方差來(lái)源包括Groups(組間),Error(組內(nèi)),Total(總計(jì));
SS(Sum of squares)表示平方和
df(Degree of freedom)表示自由度
MS(Mean squares)表示均方差
F表示F值(F統(tǒng)計(jì)量),F值等于組間均方和組內(nèi)均方的比值,它反映的是隨機(jī)誤差作用的大小。
Prob>F表示p值
這里需要引出兩個(gè)小問(wèn)題:第一個(gè)小問(wèn)題是F值怎么使用,第二個(gè)小問(wèn)題是p值和F值的關(guān)系是什么?
率先普及一下p值和F值之間的關(guān)系:
F實(shí)際值>F查表值,則p<=0.05
F實(shí)際值

總結(jié)

以上是生活随笔為你收集整理的转载: 关于显著性检验,你想要的都在这儿了!!(基础篇)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。