當(dāng)前位置：首頁(yè) >

LDA-math-神奇的Gamma函数

發(fā)布時(shí)間：2025/3/21 37 豆豆

生活随笔收集整理的這篇文章主要介紹了 LDA-math-神奇的Gamma函数小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

/*讀書筆記，白話統(tǒng)計(jì)系列，力圖用普通話講述統(tǒng)計(jì)學(xué)的基本概念。這里的題目是“決策與風(fēng)險(xiǎn)”，講的就是兩類錯(cuò)誤（type I and type II errors）。以下改編至維恩堡《數(shù)理統(tǒng)計(jì)初級(jí)教程》（常學(xué)將等譯，太原：山西人民出版社，1986），英文名叫Statistics: An Intuitive Approach By George H. Weinberg and John Abraham Schumaker。這書幾近絕跡，當(dāng)回文抄公，以期重見天日。*/

1、假設(shè)與決策：場(chǎng)景

原假設(shè)：硬幣是均勻的。?? 備擇假設(shè)：硬幣是有偏的。

/*當(dāng)我們難以拒絕原假設(shè)時(shí)，只能得到結(jié)論：原假設(shè)也許是真的，現(xiàn)在不能拒絕它。而當(dāng)我們能夠拒絕它時(shí)，結(jié)論是：它肯定不真。以下的口語(yǔ)表述不如這里明確（和拗口）的，以這里的表述為準(zhǔn)。*/

試驗(yàn)：在平坦的地方，獨(dú)立地投擲硬幣100次，每次投擲的結(jié)果都做記錄。最后，正反面出現(xiàn)的次數(shù)分別是：

正面：55? 反面：45

提問：根據(jù)你所看到的結(jié)果，判斷一下，你接受還是拒絕”硬幣是均勻的“這一假設(shè)？

-R博士回答：“拒絕這個(gè)假設(shè)，因?yàn)樗玫降恼鏀?shù)超過(guò)了反面數(shù)的允許界限，這表明硬幣是有偏的。”
-A博士回答：“接受硬幣是均勻的這一假設(shè)。我們不能非難硬幣擲出55個(gè)正面，45個(gè)反面，一個(gè)均勻的硬幣也能擲出這個(gè)比率。”
-R博士：“那什么樣的結(jié)果才能使你拒絕那假設(shè)呢？我的意思是，正面數(shù)和反面數(shù)應(yīng)該有多大的差異，才能使你認(rèn)為硬幣是有偏的？“
-A博士：“至少90個(gè)正面對(duì)10個(gè)反面，或者90個(gè)反面對(duì)10個(gè)正面。如果我們的決策是拒絕一個(gè)擲出55對(duì)45這個(gè)比率，或者更高一些比率的硬幣，那么這個(gè)決策將使我們把許多由于偶然擲出上述比率的均勻硬幣都宣判為有偏的。你的看法使得非難一個(gè)均勻的硬幣太容易了。”
-R博士：“太過(guò)分了!至少要擲出90對(duì)10的比率你才說(shuō)硬幣是有偏的。你過(guò)度的輕信，將幾乎不可能拒絕關(guān)于硬幣是均勻的假設(shè)。誠(chéng)然，你很少拒絕一個(gè)均勻的硬幣，但對(duì)一個(gè)有偏的硬幣，你也很難拒絕。”

上面的對(duì)話應(yīng)該讓大伙體會(huì)到了一些假設(shè)檢驗(yàn)的意思。可以總結(jié)一下，對(duì)照下面的表格，思路會(huì)清晰一些：

判定 \???????? 假設(shè)	真	假
拒絕	第I類錯(cuò)誤α	沒有錯(cuò)誤1-β
接受	沒有錯(cuò)誤	第II類錯(cuò)誤β

A博士（Accept，接受）的法則是，除非試驗(yàn)得到的比率超過(guò)90比10，否則就接受硬幣是均勻的這一假設(shè)。A博士厭惡犯否定均勻硬幣的錯(cuò)誤（”棄真“，第I類錯(cuò)誤），他的法則使得犯這種錯(cuò)誤的概率最小。由于均勻的硬幣幾乎不會(huì)出現(xiàn)超過(guò)90比10的比率，他很少冒把一個(gè)均勻的硬幣說(shuō)成有偏的風(fēng)險(xiǎn)。然而，他付出的代價(jià)是，大大降低了試驗(yàn)的檢測(cè)能力（power，見下），他的法則使得拒絕假設(shè)是極端困難的。大量有偏的硬幣也不會(huì)出現(xiàn)如90對(duì)10這樣大的差異，因此它們也會(huì)被當(dāng)成均勻的硬幣而沒有被檢測(cè)出來(lái)。可以說(shuō)，A博士對(duì)接受假設(shè)有偏愛，當(dāng)假設(shè)為真時(shí)，他很少犯拒絕它的錯(cuò)誤；但當(dāng)假設(shè)不真時(shí)，他會(huì)常犯接受它的錯(cuò)誤。

R博士（Reject，拒絕）的法則是，除非比率低于55對(duì)45，否則就不能接受硬幣是均勻的這一假設(shè)，也即，僅當(dāng)硬幣的正反面數(shù)差異在一個(gè)狹窄的界限之內(nèi)，她才接受假設(shè)。她把試驗(yàn)看成類似9.11時(shí)美國(guó)進(jìn)行的安全檢查（”寧可錯(cuò)殺三千，不可錯(cuò)過(guò)一個(gè)“），重要的是檢測(cè)出有偏的硬幣。R博士的法則在接受錯(cuò)誤的假設(shè)方面所冒的風(fēng)險(xiǎn)極小（”取偽“，第II類錯(cuò)誤），代價(jià)是增加了把一個(gè)均勻硬幣判成有偏的風(fēng)險(xiǎn)。可以說(shuō)，R博士對(duì)拒絕假設(shè)有偏愛，當(dāng)假設(shè)碰巧不真時(shí)，她很少犯接受它的錯(cuò)誤；但當(dāng)假設(shè)碰巧為真時(shí)，她常犯拒絕它的錯(cuò)誤。

2-1、決策與風(fēng)險(xiǎn)（用均勻的硬幣做試驗(yàn)，第I類錯(cuò)誤）

一次試驗(yàn)，不足以判斷兩位博士誰(shuí)的法則是正確的。現(xiàn)在，用一個(gè)均勻的硬幣（我們知道，兩位博士不知道，這里的原假設(shè)是硬幣是均勻的），把上面提到的投硬幣試驗(yàn)，重復(fù)100次（每個(gè)試驗(yàn)由100次投擲構(gòu)成），那么，記錄下的正面數(shù)X，將構(gòu)成一個(gè)二項(xiàng)分布，X~B(n,p)，其中，n=100，p=0.5。根據(jù)某個(gè)中心極限定理，正態(tài)分布是二項(xiàng)分布的極限分布，上面的二項(xiàng)分布可以由均值為np=50，方差為np(1-p)=25的正態(tài)分布來(lái)近似。又因?yàn)槎?xiàng)分布只取整數(shù)值，在近似它的正態(tài)曲線下會(huì)出現(xiàn)很多空隙，為了校正這種情況，可以把整數(shù)的兩頭各擴(kuò)大0.5個(gè)單位，以這個(gè)區(qū)間表示正態(tài)曲線下的那個(gè)數(shù)。

對(duì)R博士來(lái)說(shuō)，僅當(dāng)擲出的正面數(shù)多于45，少于55時(shí)，她才接受假設(shè)。在正態(tài)曲線下，這兩個(gè)端點(diǎn)可以寫成45.5和54.5。

——|-/-|———
45.5??? 54.5

標(biāo)準(zhǔn)化，（45.5-50）/5=-0.9,(54.5-50)/5=0.9，根據(jù)標(biāo)準(zhǔn)正態(tài)表，可知45.5-54.5這個(gè)接受區(qū)域包括了總面積的63%。也即，投擲均勻硬幣所產(chǎn)生的樣本中，有63%的樣本，其正面數(shù)落在接受區(qū)域，相應(yīng)地，其正面數(shù)落在R博士提出的否定域的概率為37%。也就是說(shuō)，當(dāng)硬幣是均勻的時(shí)，R博士犯第I類錯(cuò)誤的概率為37%。對(duì)A博士來(lái)說(shuō)，他的接受區(qū)域在10-90之間，他幾乎不會(huì)犯第I類錯(cuò)誤。

2-2、決策與風(fēng)險(xiǎn)（用有偏的硬幣做試驗(yàn)，第II類錯(cuò)誤，功效）

現(xiàn)在取一個(gè)有偏的硬幣（我們知道，兩位博士不知道，這里的原假設(shè)還是硬幣是均勻的），即投出正面的概率不等于二分之一（注意，說(shuō)硬幣是有偏的，并不必對(duì)p的值作出指定，因?yàn)橛矌庞衅梢杂袩o(wú)限多種方式）。為了評(píng)價(jià)兩位博士的法則在拒絕假設(shè)方面有多大的成功，我們需要對(duì)硬幣指定一個(gè)偏度，比如是擲出正面的概率是0.6，做上面同樣的100次試驗(yàn)（每次試驗(yàn)有100次投擲），近似成一個(gè)正態(tài)分布，均值np=60，方差是np(1-p)=24。

對(duì)A博士來(lái)說(shuō)，他的判定法則是，只要得到的正面數(shù)在10到90之間就接受假設(shè)。顯然，即使一個(gè)有偏的硬幣所得到的正面數(shù)，也位于A博士的接受區(qū)域里。即，當(dāng)硬幣出現(xiàn)正面的概率為0.6時(shí)，A博士還是經(jīng)常要接受均勻硬幣的假設(shè)，他幾乎總要犯第II類錯(cuò)誤。

對(duì)R博士來(lái)說(shuō)，她的判定法則是，僅當(dāng)所得到的正面數(shù)位于45-55之間時(shí)，才接受假設(shè)。可以算出45.5-54.5的面積占整個(gè)正態(tài)曲線區(qū)域的13%，也就是說(shuō)，在使用偏度為0.6的硬幣做試驗(yàn)時(shí)，R博士錯(cuò)誤地接受了硬幣是均勻的這一假設(shè)的概率是13%（第II類錯(cuò)誤），相應(yīng)地，她正確地拒絕均勻硬幣假設(shè)的概率為87%。

在這里描述的備擇假設(shè)（在硬幣是有偏的，偏度是0.6）下，A博士實(shí)際上沒有能力檢測(cè)出原假設(shè)（硬幣是均勻）的錯(cuò)誤，而R博士則有相當(dāng)大的能力實(shí)現(xiàn)（87%）.這里1-β=87%也被定義為功效(power)，即，當(dāng)特別的原假設(shè)出現(xiàn)時(shí)，正確地拒絕原假設(shè)的概率。

3、假設(shè)檢驗(yàn)

以上不厭其煩地強(qiáng)調(diào)了犯兩類錯(cuò)誤之間的tradeoff。在我們的假設(shè)檢驗(yàn)中，采取的是類似A博士的法則，盡量減少犯第I類錯(cuò)誤的概率（盡量不要”棄真“），盡管這將提高犯第II類錯(cuò)誤（”取偽“）的機(jī)會(huì)。這是一個(gè)保守的策略，大概是因?yàn)榉傅贗類錯(cuò)誤的風(fēng)險(xiǎn)更大，類似于法庭上”無(wú)罪推定“的法則：

原假設(shè)：被告無(wú)罪。?? 備擇假設(shè)：被告有罪

除非有特別的充分的證據(jù)，否則就認(rèn)為被告無(wú)罪。這里，把清白的被告處以極刑（第I類錯(cuò)誤）的代價(jià)是非常大的，而釋放有罪的被告（第II類錯(cuò)誤），只是增加了一點(diǎn)司法成本。

/*待續(xù)，接下來(lái)的主要目的是，用類似的方式，說(shuō)出P值是什么東西。*/

from:?http://cos.name/2008/12/decision-and-risk/#more-267

總結(jié)

以上是生活随笔為你收集整理的LDA-math-神奇的Gamma函数的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：深度学习RCNN, Fast-RCNN,
下一篇：统计之都统计分析和R语言方面的图书

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

LDA-math-神奇的Gamma函数

總結(jié)