當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

Data - 深入浅出学统计 - 下篇

發(fā)布時(shí)間：2023/11/27 生活经验 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Data - 深入浅出学统计 - 下篇小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文是已讀書(shū)籍的內(nèi)容摘要，少部分有輕微改動(dòng)，但不影響原文表達(dá)。

：以漫畫(huà)形式來(lái)講解最基本的統(tǒng)計(jì)概念和方法。

ISBN: 9787121299636
https://book.douban.com/subject/26906845/

2 - 探尋參數(shù)

2.1 - 中心極限定理（Central Limit Theorem）

概率分布曲線

想準(zhǔn)確地預(yù)測(cè)變量，那么首先要了解目標(biāo)變量的基本行為。

確定目標(biāo)變量可能輸出的結(jié)果，以及這個(gè)可能的輸出結(jié)果是離散值（孤立值）還是連續(xù)值（無(wú)限值）。
為事件（值）分配概率：如果一個(gè)值不會(huì)出現(xiàn)，則概率為 0%。概率越高，事件發(fā)生的可能性就越大。

大量重復(fù)一個(gè)實(shí)驗(yàn)，并記錄檢索到的變量值，根據(jù)這些值作圖，就可以得到一個(gè)概率分布曲線。
這個(gè)圖表明目標(biāo)變量得到一個(gè)值的概率，也就是該變量的概率分布。
理解了值的分布方式后，就可以開(kāi)始估計(jì)事件的概率了，甚至可以使用公式（概率分布函數(shù)）。

正態(tài)分布（Normal distribution）

也稱為正態(tài)概率分布、“常態(tài)分布”、高斯分布（以著名數(shù)學(xué)家高斯的名字命名），是最常用的概率分布。
正態(tài)分布是只依賴數(shù)據(jù)集中兩個(gè)參數(shù)的分布

平均值：樣本中所有點(diǎn)的平均值。
標(biāo)準(zhǔn)差：表示數(shù)據(jù)集與樣本均值的偏離程度。

如果對(duì)概率分布作圖，將得到一條倒鐘形曲線，樣本的平均值、眾數(shù)以及中位數(shù)是相等的，那么該變量就是正態(tài)分布的。
也就是說(shuō)，只要用平均值和標(biāo)準(zhǔn)差就可以解釋整個(gè)分布，因此預(yù)測(cè)任何呈正態(tài)分布的變量準(zhǔn)確率通常都很高。
自然界和日常工作生活中的大部分變量都呈置信度為 x% 的正態(tài)分布（x<100），也就是說(shuō)差不多都能用高斯分布描述。

中心極限定理

從某個(gè)總體中采集了一連串各自獨(dú)立的隨機(jī)樣本。
算出每個(gè)樣本的平均數(shù)。然后把這些平均數(shù)按順序堆積起來(lái)。
堆在一起的平均數(shù)最終將開(kāi)始聚集，隨著堆放的樣本平均數(shù)越來(lái)越多，堆放的外形就越來(lái)越接近正態(tài)，就像一個(gè)對(duì)稱的古鐘。
概括起來(lái)，中心極限定理說(shuō)明的是在大樣本條件下，不論總體的分布如何，樣本的均值總是近似地服從正態(tài)分布。
可以簡(jiǎn)單的理解為：隨機(jī)樣本平均數(shù)傾向于聚集在總體平均數(shù)周?chē)?/p>

事實(shí)證明：

平均數(shù)堆成的大型數(shù)據(jù)堆的中心值等于產(chǎn)生樣本的總體的中心值。
大型隨機(jī)樣本平均數(shù)堆往往比產(chǎn)生這個(gè)數(shù)堆的總體的外形更窄，以總體平均數(shù)為中心。具體程度取決于每個(gè)樣本的大小。
樣本大小越大，平均數(shù)堆積形狀越窄。

特別注意：中心極限定理只有在每個(gè)樣本均為隨機(jī)抽取，且每個(gè)樣本都足夠大時(shí)才成立。

2.2 - 概率

概率是一個(gè)數(shù)值，用于對(duì)某個(gè)隨機(jī)事件的長(zhǎng)期可能性進(jìn)行量化。

概率僅適用于長(zhǎng)期，短期重來(lái)不會(huì)帶來(lái)確信的結(jié)論。
每一個(gè)概率都有一個(gè)對(duì)立面，原因是所有概率之和永遠(yuǎn)是100%。
只能計(jì)算隨機(jī)事件的概率，這也是總是隨機(jī)采集統(tǒng)計(jì)值的原因。

2.3 - 推斷

由于樣本平均數(shù)傾向于聚集在總體平均數(shù)周?chē)?#xff0c;可以用來(lái)猜測(cè)總體平及其大量樣本平均數(shù)，以此畫(huà)圖顯示出樣本平均數(shù)的堆積形狀。
也就是說(shuō)，用一個(gè)隨機(jī)樣本，構(gòu)建了一個(gè)估計(jì)抽樣分布，然后用這個(gè)抽樣分布算出置信區(qū)間。。

采集極大量樣本平均數(shù)，以此畫(huà)圖，顯示出樣本平均數(shù)的堆積形狀。
以中心極限定理為藍(lán)圖繪制圖形，這張圖叫做估計(jì)抽樣分布。
估計(jì)抽樣分布是一個(gè)估計(jì)結(jié)果，是在采集海量樣本平均數(shù)后，對(duì)平均數(shù)分布情況的估計(jì)。

2.4 - 信心

不斷采集更多隨機(jī)樣本，構(gòu)建更多估計(jì)抽樣分布，就會(huì)不斷得到不同的區(qū)間。
如果用這種方法計(jì)算出極大量各不相同的區(qū)間，則大約有1/20樣本不包含真正的總體平均數(shù)，19/20樣本包含真正的總體平均數(shù)。
也就是說(shuō)，有95%的信心來(lái)推斷總體平均數(shù)就在這個(gè)范圍內(nèi)的某個(gè)地方，有5%的概率是錯(cuò)的。

事實(shí)上，從總體中隨機(jī)采集的任何一個(gè)樣本都有可能存在誤導(dǎo)性。
如果一個(gè)樣本存在誤導(dǎo)性。那么基于這個(gè)樣本構(gòu)建的估計(jì)抽樣分布也存在誤導(dǎo)性。
但從長(zhǎng)遠(yuǎn)來(lái)看，大多數(shù)隨機(jī)樣本平均數(shù)傾向于聚集在總體平均數(shù)的周?chē)?#xff0c;這種采用估計(jì)和剪切的計(jì)算方法是有效的。

2.5 - 恨之深

依據(jù)如下要素，就可以構(gòu)建一個(gè)估計(jì)抽樣分布，然后剪去尾部，得到一個(gè)可靠的論斷，包括一個(gè)置信水平和一個(gè)置信區(qū)間。

一個(gè)合理的英文大小
一個(gè)樣本平均數(shù)
一個(gè)樣本標(biāo)準(zhǔn)差

構(gòu)建估計(jì)抽樣分布的這個(gè)過(guò)程包括一系列數(shù)學(xué)運(yùn)算，因此只能對(duì)用數(shù)字進(jìn)行度量的特性成立。
對(duì)于明顯不能用數(shù)字表示的特性，這個(gè)過(guò)程一般難以成立。
實(shí)際上，只要能夠度量特性（創(chuàng)造一個(gè)數(shù)字尺度），并將這種度量結(jié)果記錄在數(shù)軸上，就可以計(jì)算該特性。

根據(jù)單一樣本得出的任何結(jié)論，都可能大錯(cuò)特錯(cuò)。
即使放大置信水平，涵蓋更大區(qū)間，仍然有可能是錯(cuò)的。

2.6 - 假設(shè)檢驗(yàn)

采用估計(jì)結(jié)果，然后把估計(jì)結(jié)果移到另一個(gè)中心位置，看看能得出什么結(jié)論，這個(gè)過(guò)程被稱為假設(shè)檢驗(yàn)。
目的是檢驗(yàn)所設(shè)想的總體平均值的位置。

通過(guò)假設(shè)檢驗(yàn)，將猜測(cè)值與樣本中找到的平均數(shù)進(jìn)行比較，以此檢驗(yàn)猜測(cè)。
從長(zhǎng)期看，期望所有樣本平均數(shù)的95%都聚集在距離實(shí)際總體平均數(shù)兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。

假設(shè)性檢驗(yàn)的邏輯基礎(chǔ)是在“假設(shè)條件”成立的情況下，取得當(dāng)下樣本的概率有多大，當(dāng)概率足夠小時(shí)就可以認(rèn)為“假設(shè)條件”不成立。
比如，在“假設(shè)條件”成立的情況下得到當(dāng)下樣本的概率是5%，那就有95%的把握證明“假設(shè)條件”不成立。

簡(jiǎn)單地說(shuō)，假設(shè)檢驗(yàn)的基本思路和原理有兩個(gè)：

一個(gè)命題只能證偽，不能證明為真。也就是說(shuō)，個(gè)案當(dāng)然不足以證明一個(gè)全稱命題，但是卻可以否定全稱命題。
在一次觀測(cè)中，小概率事件不可能發(fā)生證明邏輯：想要證明命題為真---》證明該命題的否命題為假---》在否命題的假設(shè)下，觀察到小概率事件發(fā)生了，否命題為假---》命題為真。

舉例說(shuō)明

命題“A是合格的投手”
---》證明否命題“A不是合格投手”為假
---》觀察到一個(gè)事件（比如A連續(xù)10次投中10環(huán)），而這個(gè)事件在“A不是合格投手”的假設(shè)下，概率為p(顯著水平)，小于0.05
---》小概率事件發(fā)生，否命題被推翻，也就是否命題“A不是合格投手”為假
---》原命題“A是合格的投手”為真
---》P值越小，說(shuō)明這個(gè)事件越可能是小概率事件，否命題越可能被推翻，原命題越可信

2.7 - 破立之爭(zhēng)

在假設(shè)檢驗(yàn)的實(shí)踐中。總是將一種設(shè)想與另一種設(shè)想進(jìn)行比較。
假設(shè)檢驗(yàn)往往包括兩種相互對(duì)立的設(shè)想。
每一種設(shè)想各自為抽取到的數(shù)據(jù)來(lái)歷做出了不同的解釋。
假設(shè)檢驗(yàn)的要點(diǎn)：斷不可妄下結(jié)論。

第1步：問(wèn)題是什么？

確定你要研究的問(wèn)題是什么.
明確的問(wèn)題，會(huì)幫助你批判性地篩選信息。

第2步：證據(jù)是什么？

找到與問(wèn)題相關(guān)的證據(jù)。
向?qū)＜易稍円庖?jiàn)，或求教過(guò)來(lái)人的經(jīng)驗(yàn)，或查詢相關(guān)的數(shù)據(jù)資料作為證據(jù)。

第3步：判斷標(biāo)準(zhǔn)是什么

找到證據(jù)后，要判斷證據(jù)是否有效，就需要一個(gè)判斷標(biāo)準(zhǔn)。
這個(gè)判斷標(biāo)準(zhǔn)要能夠做到“不錯(cuò)過(guò)一個(gè)壞人，不冤枉一個(gè)壞人”的效果。

第4步：做出結(jié)論

根據(jù)找到的證據(jù)和判斷標(biāo)準(zhǔn)，做出正確的結(jié)論。
這是一種使用數(shù)據(jù)和概率來(lái)做決策的過(guò)程。

3 - 走向高級(jí)

解決高級(jí)統(tǒng)計(jì)問(wèn)題需要依靠各種各樣的技巧。
重點(diǎn)在于，即使高級(jí)統(tǒng)計(jì)學(xué)技巧各種各樣，無(wú)窮無(wú)盡。但統(tǒng)計(jì)推斷的基本步驟保持不變。
本質(zhì)上一切統(tǒng)計(jì)問(wèn)題都相似，因此解決辦法也雷同。
收集樣本數(shù)據(jù)，估計(jì)出某種抽樣分布，截取概率部分，有時(shí)候也需要把這個(gè)分布推移到一個(gè)新的位置，最后得出有信心的結(jié)論。

轉(zhuǎn)載于:https://www.cnblogs.com/anliven/p/11173528.html

總結(jié)

以上是生活随笔為你收集整理的Data - 深入浅出学统计 - 下篇的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：小两居装修下来需要多少钱啊？简单装修，不
下一篇：浅说——九讲背包之01背包