Data - 深入浅出学统计 - 下篇
本文是已讀書籍的內容摘要,少部分有輕微改動,但不影響原文表達。
:以漫畫形式來講解最基本的統計概念和方法。
- ISBN: 9787121299636
- https://book.douban.com/subject/26906845/
2 - 探尋參數
2.1 - 中心極限定理(Central Limit Theorem)
概率分布曲線
想準確地預測變量,那么首先要了解目標變量的基本行為。
- 確定目標變量可能輸出的結果,以及這個可能的輸出結果是離散值(孤立值)還是連續值(無限值)。
- 為事件(值)分配概率:如果一個值不會出現,則概率為 0%。概率越高,事件發生的可能性就越大。
大量重復一個實驗,并記錄檢索到的變量值,根據這些值作圖,就可以得到一個概率分布曲線。
這個圖表明目標變量得到一個值的概率,也就是該變量的概率分布。
理解了值的分布方式后,就可以開始估計事件的概率了,甚至可以使用公式(概率分布函數)。
正態分布(Normal distribution)
也稱為正態概率分布、“常態分布”、高斯分布(以著名數學家高斯的名字命名),是最常用的概率分布。
正態分布是只依賴數據集中兩個參數的分布
- 平均值:樣本中所有點的平均值。
- 標準差:表示數據集與樣本均值的偏離程度。
如果對概率分布作圖,將得到一條倒鐘形曲線,樣本的平均值、眾數以及中位數是相等的,那么該變量就是正態分布的。
也就是說,只要用平均值和標準差就可以解釋整個分布,因此預測任何呈正態分布的變量準確率通常都很高。
自然界和日常工作生活中的大部分變量都呈置信度為 x% 的正態分布(x<100),也就是說差不多都能用高斯分布描述。
中心極限定理
從某個總體中采集了一連串各自獨立的隨機樣本。
算出每個樣本的平均數。然后把這些平均數按順序堆積起來。
堆在一起的平均數最終將開始聚集,隨著堆放的樣本平均數越來越多,堆放的外形就越來越接近正態,就像一個對稱的古鐘。
概括起來,中心極限定理說明的是在大樣本條件下,不論總體的分布如何,樣本的均值總是近似地服從正態分布。
可以簡單的理解為:隨機樣本平均數傾向于聚集在總體平均數周圍。
事實證明:
- 平均數堆成的大型數據堆的中心值等于產生樣本的總體的中心值。
- 大型隨機樣本平均數堆往往比產生這個數堆的總體的外形更窄,以總體平均數為中心。具體程度取決于每個樣本的大小。
- 樣本大小越大,平均數堆積形狀越窄。
特別注意:中心極限定理只有在每個樣本均為隨機抽取,且每個樣本都足夠大時才成立。
2.2 - 概率
概率是一個數值,用于對某個隨機事件的長期可能性進行量化。
- 概率僅適用于長期,短期重來不會帶來確信的結論。
- 每一個概率都有一個對立面,原因是所有概率之和永遠是100%。
- 只能計算隨機事件的概率,這也是總是隨機采集統計值的原因。
2.3 - 推斷
由于樣本平均數傾向于聚集在總體平均數周圍,可以用來猜測總體平及其大量樣本平均數,以此畫圖顯示出樣本平均數的堆積形狀。
也就是說,用一個隨機樣本,構建了一個估計抽樣分布,然后用這個抽樣分布算出置信區間。。
- 采集極大量樣本平均數,以此畫圖,顯示出樣本平均數的堆積形狀。
- 以中心極限定理為藍圖繪制圖形,這張圖叫做估計抽樣分布。
- 估計抽樣分布是一個估計結果,是在采集海量樣本平均數后,對平均數分布情況的估計。
2.4 - 信心
不斷采集更多隨機樣本,構建更多估計抽樣分布,就會不斷得到不同的區間。
如果用這種方法計算出極大量各不相同的區間,則大約有1/20樣本不包含真正的總體平均數,19/20樣本包含真正的總體平均數。
也就是說,有95%的信心來推斷總體平均數就在這個范圍內的某個地方,有5%的概率是錯的。
事實上,從總體中隨機采集的任何一個樣本都有可能存在誤導性。
如果一個樣本存在誤導性。那么基于這個樣本構建的估計抽樣分布也存在誤導性。
但從長遠來看,大多數隨機樣本平均數傾向于聚集在總體平均數的周圍,這種采用估計和剪切的計算方法是有效的。
2.5 - 恨之深
依據如下要素,就可以構建一個估計抽樣分布,然后剪去尾部,得到一個可靠的論斷,包括一個置信水平和一個置信區間。
- 一個合理的英文大小
- 一個樣本平均數
- 一個樣本標準差
構建估計抽樣分布的這個過程包括一系列數學運算,因此只能對用數字進行度量的特性成立。
對于明顯不能用數字表示的特性,這個過程一般難以成立。
實際上,只要能夠度量特性(創造一個數字尺度),并將這種度量結果記錄在數軸上,就可以計算該特性。
根據單一樣本得出的任何結論,都可能大錯特錯。
即使放大置信水平,涵蓋更大區間,仍然有可能是錯的。
2.6 - 假設檢驗
采用估計結果,然后把估計結果移到另一個中心位置,看看能得出什么結論,這個過程被稱為假設檢驗。
目的是檢驗所設想的總體平均值的位置。
通過假設檢驗,將猜測值與樣本中找到的平均數進行比較,以此檢驗猜測。
從長期看,期望所有樣本平均數的95%都聚集在距離實際總體平均數兩個標準差的范圍內。
假設性檢驗的邏輯基礎是在“假設條件”成立的情況下,取得當下樣本的概率有多大,當概率足夠小時就可以認為“假設條件”不成立。
比如,在“假設條件”成立的情況下得到當下樣本的概率是5%,那就有95%的把握證明“假設條件”不成立。
簡單地說,假設檢驗的基本思路和原理有兩個:
- 一個命題只能證偽,不能證明為真。也就是說,個案當然不足以證明一個全稱命題,但是卻可以否定全稱命題。
- 在一次觀測中,小概率事件不可能發生證明邏輯:想要證明命題為真---》證明該命題的否命題為假---》在否命題的假設下,觀察到小概率事件發生了,否命題為假---》命題為真。
舉例說明
命題“A是合格的投手”
---》證明否命題“A不是合格投手”為假
---》觀察到一個事件(比如A連續10次投中10環),而這個事件在“A不是合格投手”的假設下,概率為p(顯著水平),小于0.05
---》小概率事件發生,否命題被推翻,也就是否命題“A不是合格投手”為假
---》原命題“A是合格的投手”為真
---》P值越小,說明這個事件越可能是小概率事件,否命題越可能被推翻,原命題越可信
2.7 - 破立之爭
在假設檢驗的實踐中。總是將一種設想與另一種設想進行比較。
假設檢驗往往包括兩種相互對立的設想。
每一種設想各自為抽取到的數據來歷做出了不同的解釋。
假設檢驗的要點:斷不可妄下結論。
第1步:問題是什么?
- 確定你要研究的問題是什么.
- 明確的問題,會幫助你批判性地篩選信息。
第2步:證據是什么?
- 找到與問題相關的證據。
- 向專家咨詢意見,或求教過來人的經驗,或查詢相關的數據資料作為證據。
第3步:判斷標準是什么
- 找到證據后,要判斷證據是否有效,就需要一個判斷標準。
- 這個判斷標準要能夠做到“不錯過一個壞人,不冤枉一個壞人”的效果。
第4步:做出結論
- 根據找到的證據和判斷標準,做出正確的結論。
- 這是一種使用數據和概率來做決策的過程。
3 - 走向高級
解決高級統計問題需要依靠各種各樣的技巧。
重點在于,即使高級統計學技巧各種各樣,無窮無盡。但統計推斷的基本步驟保持不變。
本質上一切統計問題都相似,因此解決辦法也雷同。
收集樣本數據,估計出某種抽樣分布,截取概率部分,有時候也需要把這個分布推移到一個新的位置,最后得出有信心的結論。
轉載于:https://www.cnblogs.com/anliven/p/11173528.html
總結
以上是生活随笔為你收集整理的Data - 深入浅出学统计 - 下篇的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 小两居装修下来需要多少钱啊?简单装修,不
- 下一篇: 浅说——九讲背包之01背包