python计算期望值_机器学习:计算方差时为何除以n-1
小弟準(zhǔn)備了數(shù)據(jù)結(jié)構(gòu)、Java、大數(shù)據(jù)、AI、面試題、python等各種資料 需要領(lǐng)取等朋友麻煩 轉(zhuǎn)發(fā)此文,然后私信【學(xué)習(xí)】即可獲取
設(shè)樣本均值為
?,樣本方差為
?,總體均值為
?,總體方差為
?,那么樣本方差
?有如下公式:
?
很多人可能都會(huì)有疑問(wèn),為什么要除以n-1,而不是n,但是翻閱資料,發(fā)現(xiàn)很多都是交代到,如果除以n,對(duì)樣本方差的估計(jì)不是無(wú)偏估計(jì),比總體方差要小,要想是無(wú)偏估計(jì)就要調(diào)小分母,所以除以n-1,那么問(wèn)題來(lái)了,為什么不是除以n-2、n-3等等。所以在這里徹底總結(jié)一下,首先交代一下無(wú)偏估計(jì)。
無(wú)偏估計(jì)
以例子來(lái)說(shuō)明,假如你想知道一所大學(xué)里學(xué)生的平均身高是多少,一個(gè)大學(xué)好幾萬(wàn)人,全部統(tǒng)計(jì)有點(diǎn)不現(xiàn)實(shí),但是你可以先隨機(jī)挑選100個(gè)人,統(tǒng)計(jì)他們的身高,然后計(jì)算出他們的平均值,記為
?。如果你只是把
?作為整體的身高平均值,誤差肯定很大,因?yàn)槟阍匐S機(jī)挑選出100個(gè)人,身高平均值很可能就跟剛才計(jì)算的不同,為了使得統(tǒng)計(jì)結(jié)果更加精確,你需要多抽取幾次,然后分別計(jì)算出他們的平均值,分別記為:
?然后在把這些平均值,再做平均,記為:
?,這樣的結(jié)果肯定比只計(jì)算一次更加精確,隨著重復(fù)抽取的次數(shù)增多,這個(gè)期望值會(huì)越來(lái)越接近總體均值
?,如果滿足
?,這就是一個(gè)無(wú)偏估計(jì),其中統(tǒng)計(jì)的樣本均值也是一個(gè)隨機(jī)變量,
?就是
?的一個(gè)取值。無(wú)偏估計(jì)的意義是:在多次重復(fù)下,它們的平均數(shù)接近所估計(jì)的參數(shù)真值。
介紹無(wú)偏估計(jì)的意義就是,我們計(jì)算的樣本方差,希望它是總體方差的一個(gè)無(wú)偏估計(jì),那么假如我們的樣本方差是如下形式:
?
那么,我們根據(jù)無(wú)偏估計(jì)的定義可得:
?
?
由上式可以看出如果除以n,那么樣本方差比總體方差的值偏小,那么該怎么修正,使得樣本方差式總體方差的無(wú)偏估計(jì)呢?我們接著上式繼續(xù)化簡(jiǎn):講解,證明
?
到這里得到如下式子,看到了什么?該怎修正似乎有點(diǎn)眉目。
?
如果讓我們假設(shè)的樣本方差
?乘以
?,即修正成如下形式,是不是可以得到樣本方差是總體方差
?的無(wú)偏估計(jì)呢?
?
則:
?
?
因此修正之后的樣本方差的期望是總體方差
?的一個(gè)無(wú)偏估計(jì),這就是為什么分母為何要除以n-1。
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的python计算期望值_机器学习:计算方差时为何除以n-1的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: linux环境特性的文件夹,在Linux
- 下一篇: python 三引号_Python 简明