日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

Data - 深入浅出学统计 - 下篇

發(fā)布時(shí)間:2023/11/27 生活经验 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Data - 深入浅出学统计 - 下篇 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文是已讀書(shū)籍的內(nèi)容摘要,少部分有輕微改動(dòng),但不影響原文表達(dá)。

:以漫畫(huà)形式來(lái)講解最基本的統(tǒng)計(jì)概念和方法。

  • ISBN: 9787121299636
  • https://book.douban.com/subject/26906845/

2 - 探尋參數(shù)

2.1 - 中心極限定理(Central Limit Theorem)

概率分布曲線

想準(zhǔn)確地預(yù)測(cè)變量,那么首先要了解目標(biāo)變量的基本行為。

  • 確定目標(biāo)變量可能輸出的結(jié)果,以及這個(gè)可能的輸出結(jié)果是離散值(孤立值)還是連續(xù)值(無(wú)限值)。
  • 為事件(值)分配概率:如果一個(gè)值不會(huì)出現(xiàn),則概率為 0%。概率越高,事件發(fā)生的可能性就越大。

大量重復(fù)一個(gè)實(shí)驗(yàn),并記錄檢索到的變量值,根據(jù)這些值作圖,就可以得到一個(gè)概率分布曲線。
這個(gè)圖表明目標(biāo)變量得到一個(gè)值的概率,也就是該變量的概率分布。
理解了值的分布方式后,就可以開(kāi)始估計(jì)事件的概率了,甚至可以使用公式(概率分布函數(shù))。

正態(tài)分布(Normal distribution)

也稱為正態(tài)概率分布、“常態(tài)分布”、高斯分布(以著名數(shù)學(xué)家高斯的名字命名),是最常用的概率分布。
正態(tài)分布是只依賴數(shù)據(jù)集中兩個(gè)參數(shù)的分布

  • 平均值:樣本中所有點(diǎn)的平均值。
  • 標(biāo)準(zhǔn)差:表示數(shù)據(jù)集與樣本均值的偏離程度。

如果對(duì)概率分布作圖,將得到一條倒鐘形曲線,樣本的平均值、眾數(shù)以及中位數(shù)是相等的,那么該變量就是正態(tài)分布的。
也就是說(shuō),只要用平均值和標(biāo)準(zhǔn)差就可以解釋整個(gè)分布,因此預(yù)測(cè)任何呈正態(tài)分布的變量準(zhǔn)確率通常都很高。
自然界和日常工作生活中的大部分變量都呈置信度為 x% 的正態(tài)分布(x<100),也就是說(shuō)差不多都能用高斯分布描述。

中心極限定理

從某個(gè)總體中采集了一連串各自獨(dú)立的隨機(jī)樣本。
算出每個(gè)樣本的平均數(shù)。然后把這些平均數(shù)按順序堆積起來(lái)。
堆在一起的平均數(shù)最終將開(kāi)始聚集,隨著堆放的樣本平均數(shù)越來(lái)越多,堆放的外形就越來(lái)越接近正態(tài),就像一個(gè)對(duì)稱的古鐘。
概括起來(lái),中心極限定理說(shuō)明的是在大樣本條件下,不論總體的分布如何,樣本的均值總是近似地服從正態(tài)分布。
可以簡(jiǎn)單的理解為:隨機(jī)樣本平均數(shù)傾向于聚集在總體平均數(shù)周?chē)?/p>

事實(shí)證明:

  • 平均數(shù)堆成的大型數(shù)據(jù)堆的中心值等于產(chǎn)生樣本的總體的中心值。
  • 大型隨機(jī)樣本平均數(shù)堆往往比產(chǎn)生這個(gè)數(shù)堆的總體的外形更窄,以總體平均數(shù)為中心。具體程度取決于每個(gè)樣本的大小。
  • 樣本大小越大,平均數(shù)堆積形狀越窄。

特別注意:中心極限定理只有在每個(gè)樣本均為隨機(jī)抽取,且每個(gè)樣本都足夠大時(shí)才成立。

2.2 - 概率

概率是一個(gè)數(shù)值,用于對(duì)某個(gè)隨機(jī)事件的長(zhǎng)期可能性進(jìn)行量化。

  • 概率僅適用于長(zhǎng)期,短期重來(lái)不會(huì)帶來(lái)確信的結(jié)論。
  • 每一個(gè)概率都有一個(gè)對(duì)立面,原因是所有概率之和永遠(yuǎn)是100%。
  • 只能計(jì)算隨機(jī)事件的概率,這也是總是隨機(jī)采集統(tǒng)計(jì)值的原因。

2.3 - 推斷

由于樣本平均數(shù)傾向于聚集在總體平均數(shù)周?chē)?#xff0c;可以用來(lái)猜測(cè)總體平及其大量樣本平均數(shù),以此畫(huà)圖顯示出樣本平均數(shù)的堆積形狀。
也就是說(shuō),用一個(gè)隨機(jī)樣本,構(gòu)建了一個(gè)估計(jì)抽樣分布,然后用這個(gè)抽樣分布算出置信區(qū)間。。

  • 采集極大量樣本平均數(shù),以此畫(huà)圖,顯示出樣本平均數(shù)的堆積形狀。
  • 以中心極限定理為藍(lán)圖繪制圖形,這張圖叫做估計(jì)抽樣分布。
  • 估計(jì)抽樣分布是一個(gè)估計(jì)結(jié)果,是在采集海量樣本平均數(shù)后,對(duì)平均數(shù)分布情況的估計(jì)。

2.4 - 信心

不斷采集更多隨機(jī)樣本,構(gòu)建更多估計(jì)抽樣分布,就會(huì)不斷得到不同的區(qū)間。
如果用這種方法計(jì)算出極大量各不相同的區(qū)間,則大約有1/20樣本不包含真正的總體平均數(shù),19/20樣本包含真正的總體平均數(shù)。
也就是說(shuō),有95%的信心來(lái)推斷總體平均數(shù)就在這個(gè)范圍內(nèi)的某個(gè)地方,有5%的概率是錯(cuò)的。

事實(shí)上,從總體中隨機(jī)采集的任何一個(gè)樣本都有可能存在誤導(dǎo)性。
如果一個(gè)樣本存在誤導(dǎo)性。那么基于這個(gè)樣本構(gòu)建的估計(jì)抽樣分布也存在誤導(dǎo)性。
但從長(zhǎng)遠(yuǎn)來(lái)看,大多數(shù)隨機(jī)樣本平均數(shù)傾向于聚集在總體平均數(shù)的周?chē)?#xff0c;這種采用估計(jì)和剪切的計(jì)算方法是有效的。

2.5 - 恨之深

依據(jù)如下要素,就可以構(gòu)建一個(gè)估計(jì)抽樣分布,然后剪去尾部,得到一個(gè)可靠的論斷,包括一個(gè)置信水平和一個(gè)置信區(qū)間。

  • 一個(gè)合理的英文大小
  • 一個(gè)樣本平均數(shù)
  • 一個(gè)樣本標(biāo)準(zhǔn)差

構(gòu)建估計(jì)抽樣分布的這個(gè)過(guò)程包括一系列數(shù)學(xué)運(yùn)算,因此只能對(duì)用數(shù)字進(jìn)行度量的特性成立。
對(duì)于明顯不能用數(shù)字表示的特性,這個(gè)過(guò)程一般難以成立。
實(shí)際上,只要能夠度量特性(創(chuàng)造一個(gè)數(shù)字尺度),并將這種度量結(jié)果記錄在數(shù)軸上,就可以計(jì)算該特性。

根據(jù)單一樣本得出的任何結(jié)論,都可能大錯(cuò)特錯(cuò)。
即使放大置信水平,涵蓋更大區(qū)間,仍然有可能是錯(cuò)的。

2.6 - 假設(shè)檢驗(yàn)

采用估計(jì)結(jié)果,然后把估計(jì)結(jié)果移到另一個(gè)中心位置,看看能得出什么結(jié)論,這個(gè)過(guò)程被稱為假設(shè)檢驗(yàn)。
目的是檢驗(yàn)所設(shè)想的總體平均值的位置。

通過(guò)假設(shè)檢驗(yàn),將猜測(cè)值與樣本中找到的平均數(shù)進(jìn)行比較,以此檢驗(yàn)猜測(cè)。
從長(zhǎng)期看,期望所有樣本平均數(shù)的95%都聚集在距離實(shí)際總體平均數(shù)兩個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。

假設(shè)性檢驗(yàn)的邏輯基礎(chǔ)是在“假設(shè)條件”成立的情況下,取得當(dāng)下樣本的概率有多大,當(dāng)概率足夠小時(shí)就可以認(rèn)為“假設(shè)條件”不成立。
比如,在“假設(shè)條件”成立的情況下得到當(dāng)下樣本的概率是5%,那就有95%的把握證明“假設(shè)條件”不成立。

簡(jiǎn)單地說(shuō),假設(shè)檢驗(yàn)的基本思路和原理有兩個(gè):

  1. 一個(gè)命題只能證偽,不能證明為真。也就是說(shuō),個(gè)案當(dāng)然不足以證明一個(gè)全稱命題,但是卻可以否定全稱命題。
  2. 在一次觀測(cè)中,小概率事件不可能發(fā)生證明邏輯:想要證明命題為真---》證明該命題的否命題為假---》在否命題的假設(shè)下,觀察到小概率事件發(fā)生了,否命題為假---》命題為真。

舉例說(shuō)明

命題“A是合格的投手”
---》證明否命題“A不是合格投手”為假
---》觀察到一個(gè)事件(比如A連續(xù)10次投中10環(huán)),而這個(gè)事件在“A不是合格投手”的假設(shè)下,概率為p(顯著水平),小于0.05
---》小概率事件發(fā)生,否命題被推翻,也就是否命題“A不是合格投手”為假
---》原命題“A是合格的投手”為真
---》P值越小,說(shuō)明這個(gè)事件越可能是小概率事件,否命題越可能被推翻,原命題越可信

2.7 - 破立之爭(zhēng)

在假設(shè)檢驗(yàn)的實(shí)踐中。總是將一種設(shè)想與另一種設(shè)想進(jìn)行比較。
假設(shè)檢驗(yàn)往往包括兩種相互對(duì)立的設(shè)想。
每一種設(shè)想各自為抽取到的數(shù)據(jù)來(lái)歷做出了不同的解釋。
假設(shè)檢驗(yàn)的要點(diǎn):斷不可妄下結(jié)論。

第1步:問(wèn)題是什么?

  • 確定你要研究的問(wèn)題是什么.
  • 明確的問(wèn)題,會(huì)幫助你批判性地篩選信息。

第2步:證據(jù)是什么?

  • 找到與問(wèn)題相關(guān)的證據(jù)。
  • 向?qū)<易稍円庖?jiàn),或求教過(guò)來(lái)人的經(jīng)驗(yàn),或查詢相關(guān)的數(shù)據(jù)資料作為證據(jù)。

第3步:判斷標(biāo)準(zhǔn)是什么

  • 找到證據(jù)后,要判斷證據(jù)是否有效,就需要一個(gè)判斷標(biāo)準(zhǔn)。
  • 這個(gè)判斷標(biāo)準(zhǔn)要能夠做到“不錯(cuò)過(guò)一個(gè)壞人,不冤枉一個(gè)壞人”的效果。

第4步:做出結(jié)論

  • 根據(jù)找到的證據(jù)和判斷標(biāo)準(zhǔn),做出正確的結(jié)論。
  • 這是一種使用數(shù)據(jù)和概率來(lái)做決策的過(guò)程。

3 - 走向高級(jí)

解決高級(jí)統(tǒng)計(jì)問(wèn)題需要依靠各種各樣的技巧。
重點(diǎn)在于,即使高級(jí)統(tǒng)計(jì)學(xué)技巧各種各樣,無(wú)窮無(wú)盡。但統(tǒng)計(jì)推斷的基本步驟保持不變。
本質(zhì)上一切統(tǒng)計(jì)問(wèn)題都相似,因此解決辦法也雷同。
收集樣本數(shù)據(jù),估計(jì)出某種抽樣分布,截取概率部分,有時(shí)候也需要把這個(gè)分布推移到一個(gè)新的位置,最后得出有信心的結(jié)論。

轉(zhuǎn)載于:https://www.cnblogs.com/anliven/p/11173528.html

總結(jié)

以上是生活随笔為你收集整理的Data - 深入浅出学统计 - 下篇的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。