python 标准差内数据概率怎么求_Python-统计概率
一、概率分布
1.1概率分布基礎(chǔ)
1.1.1概率分布 : 每一個變量結(jié)果可能發(fā)生的概率
1.1.2隨機(jī)變量
將隨機(jī)事件出現(xiàn)的一個結(jié)果映射到一個數(shù)值的含義,通過數(shù)值量化隨機(jī)事件,這就是隨機(jī)變量的作用。(隨機(jī)變量是量化隨機(jī)事件的一個函數(shù))
1.1.3 隨機(jī)變量分類
1. 離散隨機(jī)變量(Discrete random variable):取值是可數(shù)個值(且只能為自然數(shù)0、1、2...)的隨機(jī)變量 。 對應(yīng)概率計算公式: 概率質(zhì)量函數(shù)(Probability Mass Function,PMF) PMF即離散隨機(jī)變量在各特定取值上的概率
2. 連續(xù)隨機(jī)變量(Continuous random variable):取值是一個區(qū)間中任一實數(shù)(即變量的取值可以是連續(xù)的)的隨機(jī)變量 。對應(yīng)概率計算公式:概率密度函數(shù)(Probability Density Function,PDF) PDF:連續(xù)隨機(jī)變量的概率密度函數(shù)是描述這個隨機(jī)變量的輸出值,在某個特定取值點附近可能性的函數(shù)
1.2離散概率分布
1.2.1 伯努利分布(Bernoulli Distribution)
伯努利試驗是在相互獨立的條件下隨機(jī)的實驗,結(jié)果只有兩種:成功/不成功,例如拋硬幣實驗。如果這個隨機(jī)變量是伯努利實驗,那么它就服從伯努利分布 ,亦稱“0-1分布”
1.2.2二項分布(Binomial Distribution)
1.2.3幾何分布(Geometric Distribution)
在n次伯努利試驗中,試驗k次才得到第一次成功的機(jī)率。也就是說:前k-1次皆失敗,第k次成功的概率。
1.2.4泊松分布(Poisson Distribution)
泊松分布的參數(shù)λ是單位時間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。 泊松分布適合于描述單位時間內(nèi)隨機(jī)事件發(fā)生的次數(shù)。 比如:在一定時間內(nèi)某交通路口所發(fā)生的事故個數(shù)
1.3連續(xù)概率分布
1.3.1正態(tài)分布(The Normal Distribution)
正態(tài)分布也被稱為高斯分布或鐘形曲線,這是統(tǒng)計學(xué)中最重要的概率分布 。這是一個對稱分布,其中大多數(shù)觀測值聚集在具有最高發(fā)生概率的中心峰平均值μ附近,并且當(dāng)觀測值在兩個方向上都偏離中心峰時,曲線尾部出現(xiàn)值的可能性越來越小
正態(tài)分布的功能:預(yù)測數(shù)據(jù)的位置
如何計算正態(tài)分布的概率?確定概率范圍
求標(biāo)準(zhǔn)分
查找z表格
案例:
達(dá)到折扣質(zhì)量保證條件的輪胎數(shù)量不要超過總數(shù)的10%,質(zhì)保里程為多少?
1.3.2冪律分布(Power law distribution)
冪律分布表現(xiàn)為斜率為負(fù)的冪指數(shù)的直線,概率越高,占比越小,生活中的馬太效應(yīng)及長尾分布都是冪律分布的典型案例。
二、抽樣分布
2.1總體和樣本
總體:包含所研究的全部個體(數(shù)據(jù))的集合。
樣本:研究中實際觀測或調(diào)查的一部分個體稱為樣本,從總體中選取
樣本數(shù)量:有多少個樣本
樣本容量:每個樣本中有多少數(shù)據(jù)
抽樣分布:將樣本的平均值分布可視化
2.2中心極限定理
中心極限定理的準(zhǔn)定義是:中心極限定理(CLT)指出,如果樣本量足夠大,則變量均值的采樣分布將近似于正態(tài)分布,而與該變量在總體中的分布無關(guān)
用處:
(1)在沒有辦法得到總體全部數(shù)據(jù)的情況下,我們可以用樣本來估計總體
中心極限定理告訴我們,一個正確抽取的樣本不會與其所代表的群體產(chǎn)生較大差異。也就是說,樣本結(jié)果能夠很好地體現(xiàn)整個群體的情況 統(tǒng)計概率中假設(shè)檢驗的原理
(2)根據(jù)總體的平均值和標(biāo)準(zhǔn)差,判斷某個樣本是否屬于總體:
通過中心極限定理的正態(tài)分布,我們就能計算出某個樣本屬于總體的概率是多少。如果概率非常低,那么我們就能自信滿滿地說該樣本不屬于該群體
2.3 利用樣本估計總體
2.4如何避免偏差樣本偏差:以偏概全,用樣本推斷總體,樣本大小一定要足夠大才可以。
幸存者偏差:通常關(guān)注顯而易見的樣本,而忽略了不容易出現(xiàn)的樣本。也就是忽略了樣本被篩選過了。所以在思考問題時一定要從多個角度去看。
概率偏見:主觀概率和客觀概率不吻合。
信息繭房:人們的信息領(lǐng)域會習(xí)慣性地被自己的興趣所引導(dǎo),從而將自己的生活桎梏于像蠶繭一般的“繭房”中的現(xiàn)象。也就是說,隨著個性化推薦的發(fā)展,我們看見的信息僅是自己感興趣事情的時候,這樣就造成了我們的信息繭房。
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的python 标准差内数据概率怎么求_Python-统计概率的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 摄像头录制帧率_基于ope
- 下一篇: python 备份交换机_干货 | 如何