當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘建模之常见概率分布总结

發布時間：2025/3/21 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘建模之常见概率分布总结小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、隨機變量的定義：?

?在一次實驗中出現的所以結果次數M,將每一種結果映射到某種數值函數X(e)(e表示是某一次實驗發生的結果)，這種命映射的結果值稱為隨機變量。

2、隨機變量分為離散型和連續型的。

3、分布律：只有離散型隨機變量具有分布律，例如：離散型隨機變量的x的分布律是0,1,2; 分別對應的概率是0.3， 0.4， 0.3。

4、分布函數:該概念對于離散型和連續型都是適用的。F(x)=p{X<=x}，則F(x)叫做隨機變量X的分布函數（注意大寫X,小寫x的區別。）

5：連續型的分布律的定義：再有了分布函數的基礎上面，我們在來定義分布律;如下圖

則X成為連續型隨機變量，f(x)稱為密度函數。這個可以類比離散型的分布律。

下面介紹一下常見的各種分布;

??1、01分布?

???????對于01分布，隨機變量只有兩種，而且實驗只是進行了一下。

??2、伯努利分布

???????相對于01分布，隨機變量兩種，但是實驗室重復了N次。

??3、泊松分布：

??????泊松分布適合在給定一個已知平均值的情況下對固定時間步長內事件的發生次數概率進行建模。這些事件與它們最后一次發生的狀態無關。X 軸上是 0、1、2、3、4（以此類推）等事件的離散值（通常表示事件的發生次數），Y 軸上是現象的發生概率（通常是給定一個已知平均值）。這些事件可以是十字路口的事故發生次數、出生缺陷數量或一平方公里內駝鹿的數量。泊松分布可以對小概率事件進行建模。這種分布有時也被稱為小數定律 (Law of small numbers)，因為事件不經常發生，但仍有很多機會讓它發生。

其中的參數說明：??x表示的是事件可能發生的次數（正整數）；?

???????????????????????????λ是一個平均值，表示在一定區間內事件預計發生的次數，

泊松分布與二項分布類似，但泊松分布是在不知道事件的可能發生總次數的情況下對小概率事件建模。泊松分布的建模對象是十字路口的事故發生次數，而二項分布的建模對象是事故發生次數與經由十字路口的汽車數量之間的相對關系。

期望值：λ（即，平均值）

?方差：方差σ2與均數λ相等，即σ2=λ

以上博客參考了：http://hongyitong.github.io/2016/11/13/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83%E3%80%81%E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83%E3%80%81%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/

poisson分布的性質：?

????????1、poisson分布是單參數你的離散型分布，其中參數λ表示的是在時間或者空間上面某事件發生的平均次數。

?????????2、poisson的方差和均值都是λ。

?????????3、poisson是非對稱的分布，在λ不大時呈偏態分布，隨著λ的增大，迅速接近正態分布。一般來說，當λ=20時，可以認為近似正態分布，Poisson分布資料可按正態分布處理。

????????4、poissson的累計概率有左側累計和右側累計。

上圖是關于λ取到不同的數值，對應的分布圖，可以看出隨著λ增大，越來越接近正太分布，一般在實際處理的時候會利用近似正太分布來處理。

二項分布：二項分布是指在一些潛在事件觀測對事件的發生次數建模。例如，二項分布可用于采集在臨床研究中死于心臟病的人數、擁擠電梯中在第二層走出電梯的人數，或是某動物種群中攜帶特定遺傳性狀的動物數量。

二項分布描述的是發生次數，而不是量值。它可以對完成比賽的參賽者數量建模，但不能對參賽者的速度建模。

其中的參數說明：n代表的是觀測值的數量；p發生的概率；x代表的是成功的次數。

使用二項分布的一個常見例子是，在拋擲硬幣 10 次 (n = 10) 的情況下判斷硬幣正面朝上的次數概率。可能出現的情況是，10 次中有 0 次正面朝上、10 次中有 1 次正面朝上，以此類推；因此，x = 0、1、2、3、4、5、6、7、8、9、10。p 是每個 x 的概率。
所有試驗都是相互獨立的，并且每個試驗只有成功和失敗這兩種結果。
如果 n 值較大且 p 值較小，則二項分布接近泊松分布。這種情況下使用泊松分布會更加簡便。

二項分布將返回代表 n 次試驗中成功次數的隨機變量，其中每次試驗的成功概率為 p（例如，硬幣正面朝上的概率為 p）。

從二項分布中獲得：
?期望值： μ=np
?方差： σ2=np(1-p)

2、連續型隨機變量的常見分布：

??????（1）、均勻分布

????????（2）、指數分布

???????（3）、正太分布：它的理論基礎是中心極限定理，該定理的原理是：如果存在大量觀測值，則隨機變量的總和將呈正態分布。例如，如果多次拋擲硬幣，則在一連串拋幣動作中硬幣正面朝上的次數將接近正態分布。正態分布的例子包括：某國家的人的身高、某個省的各個高程值以及 12 歲學生的數學考試分數。

??????????

?????

其中參數：μ代表的是平均值

?????????????????σ標準差（正數）正態分布關于平均值、眾數和中值對稱（都在 μ 處相等）。

通常二項分布和泊松分布使用數量較少的觀測值對未來的離散型獨立隨機事件（可能發生，也可能不發生。例如，拋硬幣時硬幣正面朝上的次數）建模，而正態分布則使用大量的觀測值對連續型變量（例如高度、重量和金額）建模。二項分布和泊松分布以概率為基礎，而正態分布涉及的是達到某個量或量值的觀測值數量。
————————————————

總結

以上是生活随笔為你收集整理的数据挖掘建模之常见概率分布总结的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python评分卡建模-实现WOE编码及
下一篇：【采用】机器学习在金融大数据风险建模中的