《商务与经济统计》学习笔记(七)—各统计分布知识点归纳
閱讀之前看這里👉:博主是正在學習數據分析的一員,博客記錄的是在學習過程中一些總結,也希望和大家一起進步,在記錄之時,未免存在很多疏漏和不全,如有問題,還請私聊博主指正。
博客地址:天闌之藍的博客,學習過程中不免有困難和迷茫,希望大家都能在這學習的過程中肯定自己,超越自己,最終創造自己。
各統計分布知識點歸納
- 1.幾何分布
- 2.二項分布(伯努利分布)
- 3.泊松分布
- 4.指數分布
- 泊松分布與指數分布之間的關系
- 5.均勻分布
- 均勻分布的概率密度函數和分布函數的定義和區別
- 6.正態分布
- 如何計算正態分布的概率
1.幾何分布
在概率論和統計學中,幾何分布(英語:Geometric distribution)指的是以下兩種離散型概率分布中的一種:
- 在伯努利試驗中,得到一次成功所需要的試驗次數XXX。XXX的值域是{ 1, 2, 3, … }
- 在得到第一次成功之前所經歷的失敗次數Y=X?1Y= X? 1Y=X?1。YYY的值域是{ 0, 1, 2, 3, … }
幾何分布試驗的條件:
實際使用中指的是哪一個取決于慣例和使用方便。
這兩種分布不應該混淆。前一種形式(XXX的分布)經常被稱作shifted geometric distribution;但是,為了避免歧義,最好明確地說明取值范圍。
與二項分布關心的“n次實驗成功x次的概率”不同,幾何分布關心的是,事件發生(或者實驗)n次中,在第x次取得成功的概率。其發生的概率P為
f(x)=P(X=x)=(1?p)x?1p,其中k=1,2,3,....f(x)=P(X=x)=(1-p)^{x-1}p,其中k = 1, 2, 3, ....f(x)=P(X=x)=(1?p)x?1p,其中k=1,2,3,....
上式描述的是取得一次成功所需要的試驗次數。而另一種形式,也就是第一次成功之前所失敗的次數,可以寫為:
f(x)=P(Y=x)=(1?p)xp,其中k=0,1,2,3,....f(x)=P(Y=x)=(1-p)^{x}p,其中k =0, 1, 2, 3, ....f(x)=P(Y=x)=(1?p)xp,其中k=0,1,2,3,....
記號:
若隨機變量XXX服從參數為ppp的幾何分布,則記為 X~G(p){\displaystyle X\sim G(p)}X~G(p)
均值和方差:
E(x)=μ=1pE(x)=\mu=\dfrac{1}{p}E(x)=μ=p1?
Var(x)=σ2=1?pp2Var(x)=\sigma ^ 2=\dfrac{1-p}{p^2}Var(x)=σ2=p21?p?
用途:
在重復多次的伯努利試驗中,試驗進行到某種結果出現第一次為止,此時的試驗總次數服從幾何分布,如:射擊,首次擊中目標時的次數。
舉例:一位滑雪者不出意外順利滑至坡底的概率是0.4,那么問
1.前10次滑雪失敗,第11次成功的概率
2.第4次或不足4次就滑雪成功的概率
3.4次以上才能獲得成功的概率
解答:
1.前10次滑雪失敗,第11次成功的概率
P(X=11)=(1?p)x?1p=q10×p=0.00241P(X=11)=(1-p)^{x-1}p=q^{10}\times p =0.00241P(X=11)=(1?p)x?1p=q10×p=0.00241
2.第4次或不足4次就滑雪成功的概率
P(X?4)=1?q4=0.8704P(X\leqslant 4) = 1 - q^4 = 0.8704P(X?4)=1?q4=0.8704
3.4次以上才能獲得成功的概率
P(X>4)=q4=0.1296P(X>4) = q^4 = 0.1296P(X>4)=q4=0.1296
2.二項分布(伯努利分布)
二項分布是在給定每次試驗的成功概率ppp、實驗次數nnn的情況下,成功數xxx的頻數分布。
根據xxx、nnn和ppp值的不同,二項分布也構成了一個分布家族。
在二項分布中,我們關注的是在nnn次試驗中成功出現的次數。
二項分布概率函數:
f(x)=(nx)px(1?p)(n?x)f(x)=\dbinom{n}{x}p^x(1-p)^{(n-x)}f(x)=(xn?)px(1?p)(n?x)
(nx)=n!x!(n?x)!\dbinom{n}{x}=\dfrac{n!}{x!(n-x)!} (xn?)=x!(n?x)!n!?
二項分布的數學期望和方差:
E(x)=μ=npE(x)=\mu=npE(x)=μ=np
Var(x)=σ2=np(1?p)Var(x)=\sigma ^ 2=np(1-p)Var(x)=σ2=np(1?p)
二項試驗的性質:
伯努利分布是二項分布在n=1時的特例。一次隨機試驗,成功概率為ppp,失敗概率為q=1?pq=1-pq=1?p,所以成功的次數也只有0和1兩種情況。
其概率密度函數為:
f(x)=px(1?p)(1?x)={p,if??x=1q,if??x=0f(x)=p^x(1-p)^{(1-x)}=\begin{cases} p, & \text{if }\text{ x=1} \\ q, & \text{if }\text{ x=0} \end{cases}f(x)=px(1?p)(1?x)={p,q,?if??x=1if??x=0?
期望和方差:
E(x)=μ=pE(x)=\mu=pE(x)=μ=p
Var(x)=σ2=p(1?p)=pqVar(x)=\sigma ^ 2=p(1-p)=pqVar(x)=σ2=p(1?p)=pq
二項分布的應用舉例:
如果鏈接點擊轉換為購買的概率是0.02,那么觀測到200 次點擊但沒有購買的概率是多少?
解答
- 由于是求200次中沒有成功的概率,即為1 - 200次中成功1次的概率,所以服從二項分布。
- p=0.02p=0.02p=0.02,n=200n=200n=200,x=1x=1x=1
- 代入公式得
f(x)=(nx)px(1?p)(n?x)=(2001)0.02(1?0.02)(200?1)f(x)=\dbinom{n}{x}p^x(1-p)^{(n-x)}=\dbinom{200}{1}0.02(1-0.02)^{(200-1)}f(x)=(xn?)px(1?p)(n?x)=(1200?)0.02(1?0.02)(200?1) - 所以觀測到200 次點擊但沒有購買的概率是
P(觀測到200次點擊但沒有購買)=1?(2001)0.02(1?0.02)(200?1)P(觀測到200 次點擊但沒有購買)=1-\dbinom{200}{1}0.02(1-0.02)^{(200-1)}P(觀測到200次點擊但沒有購買)=1?(1200?)0.02(1?0.02)(200?1)
3.泊松分布
定義:單位時間內或單位空間中事件數量的頻數分布
例如:我們感興趣的隨機變量可能是一小時到達洗車房的汽車數,10英里長的高速路上需要維修的路段數目。
泊松試驗的性質:
1.在任意兩個相等長度的區間上,事件發生的概率相等。
2.事件在某一區間上是否發生與事件在其它區間是否發生是獨立的。
泊松概率函數: f(x)=μxe?μx!f(x)=\dfrac{\mu ^ x e^{-\mu}}{x!}f(x)=x!μxe?μ?
式中,f(x)f(x)f(x)為事件在一個區間發生x次的概率;μ\muμ為事件在一個區間發生次數的數學期望或均值;
例題:
假定感興趣的是工作日早上15min內到達某銀行出納窗口的汽車數量。若假設在任意兩個相等長度的時間段上汽車到達的概率是相等的,并且在任意時間段上是否有汽車到達與其他事件段上是否有汽車到達是相互獨立的。歷史數據顯示,15min內到達車輛平均數目為10。問:15min內恰好到達5輛車的概率?
解答:
f(x)=10xe?10x!f(x)=\dfrac{10^xe^{-10}}{x!}f(x)=x!10xe?10?
所以x=5x=5x=5即在15分鐘內恰有5輛車到達的概率為:
f(5)=105e?105!=0.0378f(5)=\dfrac{10^5e^{-10}}{5!}=0.0378f(5)=5!105e?10?=0.0378
同樣的,不僅僅是15min適用,其它任意時間段也適用。現在我們要計算3min內有1輛車到達的概率是多少?
- 15min到達10輛車,所以1min到達車輛的期望值為10/15=2/3.
- 3min到達車輛數為3 ×\times× 2/3 = 2.
- 所以這時的μ=2\mu=2μ=2.
- 帶入公式
f(x)=μxe?μx!f(x)=\dfrac{\mu ^ x e^{-\mu}}{x!}f(x)=x!μxe?μ? - 最后得到3min內有1輛車到達的概率
f(1)=21e?21!=0.2707f(1)=\dfrac{2 ^ 1 e^{-2}}{1!}=0.2707f(1)=1!21e?2?=0.2707
4.指數分布
定義:指數分布可以建模各次事件之間的時間分布情況,例如,網站訪問的時間間隔,汽車抵達
收費站的時間間隔。在工程領域,指數分布可用于故障時間的建模;在過程管理領域,指數分布可用于對每次服務電話所需的時間進行建模。
指數分布概率密度函數: f(x)=1μe?x/μf(x)=\dfrac{1}{\mu}e^{-x/{\mu}}f(x)=μ1?e?x/μ 式中,μ\muμ為數學期望或均值;
例題:假定在某碼頭裝載一輛卡車所需要時間xxx服從指數分布,如果裝車時間的均值或平均時間所需要時間是15分鐘,即μ=15\mu =15μ=15,則裝載一輛車花費6分鐘或更少P(x?6P(x\leqslant6P(x?6)的概率是多少?
解答:
f(x)=115e?x/15f(x)=\dfrac{1}{15}e^{-x/15}f(x)=151?e?x/15
P(x?x0)=1?e?x0/μP(x\leqslant x_0)=1-e^{{-x_0}/\mu}P(x?x0?)=1?e?x0?/μ
所以
P(x?6)=1?e?x0/15=1?e?6/15P(x\leqslant6) =1-e^{{-x_0}/15}=1-e^{{-6}/15}P(x?6)=1?e?x0?/15=1?e?6/15
關于累積概率的一個推導:
如果下一個卡車裝車時間要間隔時間 x0x_0x0?,就等同于x0x_0x0?之內沒有任何卡車裝車,所以服從泊松分布如下:
P(x>x0)=P(N(x0)=0)=μ0e?x0/μ0!=e?x0/μP(x>x_0)=P(N(x_0)=0)=\dfrac{\mu ^ 0 e^{-x_0/{\mu}}}{0!}=e^{-x_0/\mu}P(x>x0?)=P(N(x0?)=0)=0!μ0e?x0?/μ?=e?x0?/μ
反過來,事件在時間 t 之內發生的概率,就是1減去上面的值。
P(x?x0)=1?P(x>x0)=1?e?x0/μP(x\leqslant x_0)=1-P(x>x_0)=1-e^{{-x_0}/\mu}P(x?x0?)=1?P(x>x0?)=1?e?x0?/μ
泊松分布與指數分布之間的關系
連續型指數概率分布與離散型泊松分布是相互練習的,泊松分布描述了每一區間中事件發生的次數,指數分布描述了事件發生的時間間隔長度。
舉例說明:假定在一小時中到達某一洗車處的汽車數可以用泊松分布描述,其均值為每小時10輛。泊松分布概率函數給出了每小時有xxx輛汽車到達的概率:
f(x)=μxe?μx!=10xe?10x!f(x)=\dfrac{\mu ^ x e^{-\mu}}{x!}=\dfrac{10 ^ x e^{-10}}{x!}f(x)=x!μxe?μ?=x!10xe?10?
由于車輛到達的平均數是每小時10輛,則兩車到達的時間間隔的均值為: 1小時10輛車=0.1小時/輛\dfrac{1小時}{10輛車}=0.1 小時/輛10輛車1小時?=0.1小時/輛
于是,描述兩車到達時間間隔的對應的分布是指數分布,其均值為μ=0.1\mu=0.1μ=0.1小時/輛,從而指數概率分布為:
f(x)=1μe?x/u=10.1e?x/0.1f(x)=\dfrac{1}{\mu}e^{-x/u}=\dfrac{1}{0.1}e^{-x/0.1}f(x)=μ1?e?x/u=0.11?e?x/0.1
5.均勻分布
我們這里主要講的是連續性均勻分布,在講之前均勻分布,我們先看一個例子:
令隨機變量xxx表示某航班從芝加哥飛往紐約的飛行時間。假定飛行時間可以取區間[120,140]內的任意值。由于隨機變量xxx可以在該區間內取任意值,因此xxx是一個連續性隨機變量。對于區間[120,140]內的任意兩個1分鐘長度的子區間,飛行時間在這兩個子區間的概率是相同的。由于飛行時間在每個一分鐘長度的子區間是等可能的,因此隨機變量xxx服從均勻概率分布。飛行時間是服從均勻分布的隨機變量,它的概率密度函數為:
f(x)={1/20,120?x?1400,其它f(x)=\begin{cases} 1/20, 120\leqslant x \leqslant140\\ 0, 其它\end{cases}f(x)={1/20,120?x?1400,其它?
連續型均勻分布,如果連續型隨機變量XXX具有如下的概率密度函數,則稱XXX服從[a,b]{\displaystyle [a,b]}[a,b]上的均勻分布,記作 X~U[a,b]{\displaystyle X\sim U[a,b]}X~U[a,b]
均勻概率密度函數如下:
f(x)={1b?a,if?a?x?b0,elsewheref(x) = \begin{cases} \dfrac{1}{b-a}, & \text{if } a\leqslant x \leqslant b\\ 0, & elsewhere \end{cases}f(x)=????b?a1?,0,?if?a?x?belsewhere?
累積分布函數:
{0,x<ax?ab?a,a?x<b1,b?x\begin{cases} 0, x <a \\ \dfrac{x-a}{b-a}, a\leqslant x<b \\ 1,b\leqslant x \end{cases}????????0,x<ab?ax?a?,a?x<b1,b?x?
期望和方差:
E(x)=μ=a+b2E(x)=\mu=\dfrac{a+b}{2}E(x)=μ=2a+b?
Var(x)=σ2=(b?a)212Var(x)=\sigma ^ 2=\dfrac{(b-a)^2}{12}Var(x)=σ2=12(b?a)2?
均勻分布具有下屬意義的等可能性。若X~U[a,b]X\sim U[a,b]X~U[a,b],則XXX落在[a,b][a,b][a,b]內任一子區間[c,d][c,d][c,d]上的概率:
P(c?x?d)=F(d)?F(c)=∫cd1b?adx=d?cb?aP(c\leqslant x\leqslant d)=F(d)-F(c)= \int_{c}^ozvdkddzhkzd \dfrac{1}{b-a}\, {\rm d}x=\dfrac{d-c}{b-a}P(c?x?d)=F(d)?F(c)=∫cd?b?a1?dx=b?ad?c?
只與區間[c,d]的長度有關,而與它的位置無關。
均勻分布的概率密度函數和分布函數的定義和區別
概率密度函數:用于直觀地描述連續性隨機變量(離散型的隨機變量下該函數稱為分布律),表示瞬時幅值落在某指定范圍內的概率,因此是幅值的函數。連續樣本空間情形下的概率稱為概率密度,當試驗次數無限增加,直方圖趨近于光滑曲線,曲線下包圍的面積表示概率,該曲線即這次試驗樣本的概率密度函數。
分布函數:用于描述隨機變量落在任一區間上的概率。如果將x看成數軸上的隨機點的坐標,那么,分布函數F(x)F(x)F(x)在xxx處的函數值就表示xxx落在區間(?∞,+∞)(-\infty,+ \infty)(?∞,+∞)上的概率。分布函數也稱為概率累計函數。
兩者的區別:分布函數是概率密度函數從負無窮到正無窮上的積分;在坐標軸上,概率密度函數的
函數值y表示落在x點上的概率為y;分布函數的函數值y則表示x落在區間(?∞,+∞)(-∞,+∞)(?∞,+∞)上的概率。
6.正態分布
正態分布(,英語:normal distribution)又名高斯分布(英語:Gaussian distribution),是一個非常常見的連續概率分布。正態分布在統計學上十分重要,經常用在自然和社會科學來代表一個不明的隨機變量,比如人的身高和體重、考試成績、科學測量、降雨量等,都近似正態分布。
概率密度函數:
正態分布的概率密度函數均值為 μ\muμ方差為σ2\sigma^2σ2(或標準差σ\sigmaσ)是高斯函數的一個實例:
如果一個隨機變量XXX服從這個分布,我們寫作X~N(μ,σ2)X\sim N(\mu, \sigma^2)X~N(μ,σ2) 如果μ=0\mu =0μ=0并且 σ=1\sigma =1σ=1,這個分布被稱為標準正態分布,這個分布能夠簡化為:
正態分布的特征:
四個不同參數集的概率密度函數(紅色線代表標準正態分布)
累積分布函數:
累積分布函數是指隨機變量XXX小于或等于xxx的概率,用概率密度函數表示為
正態分布的累積分布函數能夠由一個叫做誤差函數的特殊函數表示:
標準正態分布的累積分布函數習慣上記為Φ\PhiΦ ,它僅僅是指μ=0\mu=0μ=0,σ=1\sigma=1σ=1時的值
將一般正態分布用誤差函數表示的公式簡化,可得:
它的反函數被稱為反誤差函數,為:
該分位數函數有時也被稱為probit函數。probit函數已被證明沒有初等原函數。
正態分布的分布函數Φ(x)\Phi(x)Φ(x)沒有解析表達式,它的值可以通過數值積分、泰勒級數或者漸進序列近似得到。
上圖所示的概率密度函數的累積分布函數
如何計算正態分布的概率
1.確定數據的分布
例子:朱莉已得知公司適齡男生的身高均值和標準差:均值71英寸,方差20.25.
即,如果用XXX表示男生的身高,則:
X~N(71,20.25)X\sim N(71, 20.25)X~N(71,20.25)
然后我們還需要知道哪個數值范圍能夠得到正確的概率面積,在本例中,我們要求與朱莉(64英寸)相親的男生具有足夠高的概率。
2.轉換為標準的正態隨機變量
下一步是讓變量X標準化,使均值為0,標準差為1,據此得出標準正態變量Z,而Z~N(0,1)Z\sim N(0, 1)Z~N(0,1)
那么如何將正態分布轉化為標準形式呢?
通常通過下列公式可求出任何正態變量x的標準分(關于標準分的知識可查看其它資料):
z=x?μσz=\dfrac{x-\mu}{\sigma}z=σx?μ?
所以:
z=x?μσ=64?714.5=?1.56z=\dfrac{x-\mu}{\sigma}=\dfrac{64-71}{4.5}=-1.56z=σx?μ?=4.564?71?=?1.56
3.查表
通過概率表查找概率
大概我們可以找到zzz=-1.56時的概率為0.0594
正態分布的一些性質:
-
如果X~N(μ,σ2),X \sim N(\mu, \sigma^2) ,X~N(μ,σ2),且aaa與 bbb是實數,那么aX+b~N(aμ+b,(aσ)2)a X + b \sim N(a \mu + b, (a \sigma)^2)aX+b~N(aμ+b,(aσ)2)
-
如果X~N(μX,σX2)X \sim N(\mu_X, \sigma^2_X)X~N(μX?,σX2?)與Y~N(μY,σY2)Y \sim N(\mu_Y, \sigma^2_Y)Y~N(μY?,σY2?)是統計獨立的正態隨機變量,那么:
它們的和也滿足正態分布U=X+Y~N(μX+μYU = X + Y \sim N(\mu_X + \mu_YU=X+Y~N(μX?+μY?, σX2+σY2)\sigma^2_X + \sigma^2_Y)σX2?+σY2?).
它們的差也滿足正態分布V=X?Y~N(μX?μYV = X - Y \sim N(\mu_X - \mu_YV=X?Y~N(μX??μY?, σX2+σY2)\sigma^2_X + \sigma^2_Y)σX2?+σY2?).
UUU與VVV兩者是相互獨立的。(要求X與Y的方差相等) -
如果 X1X_1X1?, ?\cdots?, XnX_nXn?為獨立標準正態隨機變量,那么 X12+?+Xn2X_1^2 + \cdots + X_n^2X12?+?+Xn2?服從自由度為nnn的卡方分布。
博主碼字不易,大家關注點個贊轉發再走唄 ,您的三連是對我創作的最大支持^ - ^
總結
以上是生活随笔為你收集整理的《商务与经济统计》学习笔记(七)—各统计分布知识点归纳的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《电子商务安全》考试重点/学习重点
- 下一篇: 云计算之路-阿里云上:拔云见日的那一刻,