Data - 深入浅出学统计 - 下篇
本文是已讀書(shū)籍的內(nèi)容摘要,少部分有輕微改動(dòng),但不影響原文表達(dá)。
:以漫畫(huà)形式來(lái)講解最基本的統(tǒng)計(jì)概念和方法。
- ISBN: 9787121299636
- https://book.douban.com/subject/26906845/
2 - 探尋參數(shù)
2.1 - 中心極限定理(Central Limit Theorem)
概率分布曲線
想準(zhǔn)確地預(yù)測(cè)變量,那么首先要了解目標(biāo)變量的基本行為。
- 確定目標(biāo)變量可能輸出的結(jié)果,以及這個(gè)可能的輸出結(jié)果是離散值(孤立值)還是連續(xù)值(無(wú)限值)。
- 為事件(值)分配概率:如果一個(gè)值不會(huì)出現(xiàn),則概率為 0%。概率越高,事件發(fā)生的可能性就越大。
大量重復(fù)一個(gè)實(shí)驗(yàn),并記錄檢索到的變量值,根據(jù)這些值作圖,就可以得到一個(gè)概率分布曲線。
這個(gè)圖表明目標(biāo)變量得到一個(gè)值的概率,也就是該變量的概率分布。
理解了值的分布方式后,就可以開(kāi)始估計(jì)事件的概率了,甚至可以使用公式(概率分布函數(shù))。
正態(tài)分布(Normal distribution)
也稱為正態(tài)概率分布、“常態(tài)分布”、高斯分布(以著名數(shù)學(xué)家高斯的名字命名),是最常用的概率分布。
正態(tài)分布是只依賴數(shù)據(jù)集中兩個(gè)參數(shù)的分布
- 平均值:樣本中所有點(diǎn)的平均值。
- 標(biāo)準(zhǔn)差:表示數(shù)據(jù)集與樣本均值的偏離程度。
如果對(duì)概率分布作圖,將得到一條倒鐘形曲線,樣本的平均值、眾數(shù)以及中位數(shù)是相等的,那么該變量就是正態(tài)分布的。
也就是說(shuō),只要用平均值和標(biāo)準(zhǔn)差就可以解釋整個(gè)分布,因此預(yù)測(cè)任何呈正態(tài)分布的變量準(zhǔn)確率通常都很高。
自然界和日常工作生活中的大部分變量都呈置信度為 x% 的正態(tài)分布(x<100),也就是說(shuō)差不多都能用高斯分布描述。
中心極限定理
從某個(gè)總體中采集了一連串各自獨(dú)立的隨機(jī)樣本。
算出每個(gè)樣本的平均數(shù)。然后把這些平均數(shù)按順序堆積起來(lái)。
堆在一起的平均數(shù)最終將開(kāi)始聚集,隨著堆放的樣本平均數(shù)越來(lái)越多,堆放的外形就越來(lái)越接近正態(tài),就像一個(gè)對(duì)稱的古鐘。
概括起來(lái),中心極限定理說(shuō)明的是在大樣本條件下,不論總體的分布如何,樣本的均值總是近似地服從正態(tài)分布。
可以簡(jiǎn)單的理解為:隨機(jī)樣本平均數(shù)傾向于聚集在總體平均數(shù)周?chē)?/p>
事實(shí)證明:
- 平均數(shù)堆成的大型數(shù)據(jù)堆的中心值等于產(chǎn)生樣本的總體的中心值。
- 大型隨機(jī)樣本平均數(shù)堆往往比產(chǎn)生這個(gè)數(shù)堆的總體的外形更窄,以總體平均數(shù)為中心。具體程度取決于每個(gè)樣本的大小。
- 樣本大小越大,平均數(shù)堆積形狀越窄。
特別注意:中心極限定理只有在每個(gè)樣本均為隨機(jī)抽取,且每個(gè)樣本都足夠大時(shí)才成立。
2.2 - 概率
概率是一個(gè)數(shù)值,用于對(duì)某個(gè)隨機(jī)事件的長(zhǎng)期可能性進(jìn)行量化。
- 概率僅適用于長(zhǎng)期,短期重來(lái)不會(huì)帶來(lái)確信的結(jié)論。
- 每一個(gè)概率都有一個(gè)對(duì)立面,原因是所有概率之和永遠(yuǎn)是100%。
- 只能計(jì)算隨機(jī)事件的概率,這也是總是隨機(jī)采集統(tǒng)計(jì)值的原因。
2.3 - 推斷
由于樣本平均數(shù)傾向于聚集在總體平均數(shù)周?chē)?#xff0c;可以用來(lái)猜測(cè)總體平及其大量樣本平均數(shù),以此畫(huà)圖顯示出樣本平均數(shù)的堆積形狀。
也就是說(shuō),用一個(gè)隨機(jī)樣本,構(gòu)建了一個(gè)估計(jì)抽樣分布,然后用這個(gè)抽樣分布算出置信區(qū)間。。
- 采集極大量樣本平均數(shù),以此畫(huà)圖,顯示出樣本平均數(shù)的堆積形狀。
- 以中心極限定理為藍(lán)圖繪制圖形,這張圖叫做估計(jì)抽樣分布。
- 估計(jì)抽樣分布是一個(gè)估計(jì)結(jié)果,是在采集海量樣本平均數(shù)后,對(duì)平均數(shù)分布情況的估計(jì)。
2.4 - 信心
不斷采集更多隨機(jī)樣本,構(gòu)建更多估計(jì)抽樣分布,就會(huì)不斷得到不同的區(qū)間。
如果用這種方法計(jì)算出極大量各不相同的區(qū)間,則大約有1/20樣本不包含真正的總體平均數(shù),19/20樣本包含真正的總體平均數(shù)。
也就是說(shuō),有95%的信心來(lái)推斷總體平均數(shù)就在這個(gè)范圍內(nèi)的某個(gè)地方,有5%的概率是錯(cuò)的。
事實(shí)上,從總體中隨機(jī)采集的任何一個(gè)樣本都有可能存在誤導(dǎo)性。
如果一個(gè)樣本存在誤導(dǎo)性。那么基于這個(gè)樣本構(gòu)建的估計(jì)抽樣分布也存在誤導(dǎo)性。
但從長(zhǎng)遠(yuǎn)來(lái)看,大多數(shù)隨機(jī)樣本平均數(shù)傾向于聚集在總體平均數(shù)的周?chē)?#xff0c;這種采用估計(jì)和剪切的計(jì)算方法是有效的。
2.5 - 恨之深
依據(jù)如下要素,就可以構(gòu)建一個(gè)估計(jì)抽樣分布,然后剪去尾部,得到一個(gè)可靠的論斷,包括一個(gè)置信水平和一個(gè)置信區(qū)間。
- 一個(gè)合理的英文大小
- 一個(gè)樣本平均數(shù)
- 一個(gè)樣本標(biāo)準(zhǔn)差
構(gòu)建估計(jì)抽樣分布的這個(gè)過(guò)程包括一系列數(shù)學(xué)運(yùn)算,因此只能對(duì)用數(shù)字進(jìn)行度量的特性成立。
對(duì)于明顯不能用數(shù)字表示的特性,這個(gè)過(guò)程一般難以成立。
實(shí)際上,只要能夠度量特性(創(chuàng)造一個(gè)數(shù)字尺度),并將這種度量結(jié)果記錄在數(shù)軸上,就可以計(jì)算該特性。
根據(jù)單一樣本得出的任何結(jié)論,都可能大錯(cuò)特錯(cuò)。
即使放大置信水平,涵蓋更大區(qū)間,仍然有可能是錯(cuò)的。
2.6 - 假設(shè)檢驗(yàn)
采用估計(jì)結(jié)果,然后把估計(jì)結(jié)果移到另一個(gè)中心位置,看看能得出什么結(jié)論,這個(gè)過(guò)程被稱為假設(shè)檢驗(yàn)。
目的是檢驗(yàn)所設(shè)想的總體平均值的位置。
通過(guò)假設(shè)檢驗(yàn),將猜測(cè)值與樣本中找到的平均數(shù)進(jìn)行比較,以此檢驗(yàn)猜測(cè)。
從長(zhǎng)期看,期望所有樣本平均數(shù)的95%都聚集在距離實(shí)際總體平均數(shù)兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。
假設(shè)性檢驗(yàn)的邏輯基礎(chǔ)是在“假設(shè)條件”成立的情況下,取得當(dāng)下樣本的概率有多大,當(dāng)概率足夠小時(shí)就可以認(rèn)為“假設(shè)條件”不成立。
比如,在“假設(shè)條件”成立的情況下得到當(dāng)下樣本的概率是5%,那就有95%的把握證明“假設(shè)條件”不成立。
簡(jiǎn)單地說(shuō),假設(shè)檢驗(yàn)的基本思路和原理有兩個(gè):
- 一個(gè)命題只能證偽,不能證明為真。也就是說(shuō),個(gè)案當(dāng)然不足以證明一個(gè)全稱命題,但是卻可以否定全稱命題。
- 在一次觀測(cè)中,小概率事件不可能發(fā)生證明邏輯:想要證明命題為真---》證明該命題的否命題為假---》在否命題的假設(shè)下,觀察到小概率事件發(fā)生了,否命題為假---》命題為真。
舉例說(shuō)明
命題“A是合格的投手”
---》證明否命題“A不是合格投手”為假
---》觀察到一個(gè)事件(比如A連續(xù)10次投中10環(huán)),而這個(gè)事件在“A不是合格投手”的假設(shè)下,概率為p(顯著水平),小于0.05
---》小概率事件發(fā)生,否命題被推翻,也就是否命題“A不是合格投手”為假
---》原命題“A是合格的投手”為真
---》P值越小,說(shuō)明這個(gè)事件越可能是小概率事件,否命題越可能被推翻,原命題越可信
2.7 - 破立之爭(zhēng)
在假設(shè)檢驗(yàn)的實(shí)踐中。總是將一種設(shè)想與另一種設(shè)想進(jìn)行比較。
假設(shè)檢驗(yàn)往往包括兩種相互對(duì)立的設(shè)想。
每一種設(shè)想各自為抽取到的數(shù)據(jù)來(lái)歷做出了不同的解釋。
假設(shè)檢驗(yàn)的要點(diǎn):斷不可妄下結(jié)論。
第1步:問(wèn)題是什么?
- 確定你要研究的問(wèn)題是什么.
- 明確的問(wèn)題,會(huì)幫助你批判性地篩選信息。
第2步:證據(jù)是什么?
- 找到與問(wèn)題相關(guān)的證據(jù)。
- 向?qū)<易稍円庖?jiàn),或求教過(guò)來(lái)人的經(jīng)驗(yàn),或查詢相關(guān)的數(shù)據(jù)資料作為證據(jù)。
第3步:判斷標(biāo)準(zhǔn)是什么
- 找到證據(jù)后,要判斷證據(jù)是否有效,就需要一個(gè)判斷標(biāo)準(zhǔn)。
- 這個(gè)判斷標(biāo)準(zhǔn)要能夠做到“不錯(cuò)過(guò)一個(gè)壞人,不冤枉一個(gè)壞人”的效果。
第4步:做出結(jié)論
- 根據(jù)找到的證據(jù)和判斷標(biāo)準(zhǔn),做出正確的結(jié)論。
- 這是一種使用數(shù)據(jù)和概率來(lái)做決策的過(guò)程。
3 - 走向高級(jí)
解決高級(jí)統(tǒng)計(jì)問(wèn)題需要依靠各種各樣的技巧。
重點(diǎn)在于,即使高級(jí)統(tǒng)計(jì)學(xué)技巧各種各樣,無(wú)窮無(wú)盡。但統(tǒng)計(jì)推斷的基本步驟保持不變。
本質(zhì)上一切統(tǒng)計(jì)問(wèn)題都相似,因此解決辦法也雷同。
收集樣本數(shù)據(jù),估計(jì)出某種抽樣分布,截取概率部分,有時(shí)候也需要把這個(gè)分布推移到一個(gè)新的位置,最后得出有信心的結(jié)論。
轉(zhuǎn)載于:https://www.cnblogs.com/anliven/p/11173528.html
總結(jié)
以上是生活随笔為你收集整理的Data - 深入浅出学统计 - 下篇的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 小两居装修下来需要多少钱啊?简单装修,不
- 下一篇: 浅说——九讲背包之01背包