【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)...
本文是斯坦福大學(xué) CS229 機(jī)器學(xué)習(xí)課程的基礎(chǔ)材料,原始文件下載[1]
原文作者:Arian Maleki , Tom Do
翻譯:石振宇[2]
審核和修改制作:黃海廣[3]
備注:請(qǐng)關(guān)注github[4]的更新。線性代數(shù)的翻譯見(這篇文章)。
CS229 機(jī)器學(xué)習(xí)課程復(fù)習(xí)材料-概率論
概率論復(fù)習(xí)和參考
概率論是對(duì)不確定性的研究。通過這門課,我們將依靠概率論中的概念來推導(dǎo)機(jī)器學(xué)習(xí)算法。這篇筆記試圖涵蓋適用于CS229的概率論基礎(chǔ)。概率論的數(shù)學(xué)理論非常復(fù)雜,并且涉及到“分析”的一個(gè)分支:測(cè)度論。在這篇筆記中,我們提供了概率的一些基本處理方法,但是不會(huì)涉及到這些更復(fù)雜的細(xì)節(jié)。
1. 概率的基本要素
為了定義集合上的概率,我們需要一些基本元素,
樣本空間:隨機(jī)實(shí)驗(yàn)的所有結(jié)果的集合。在這里,每個(gè)結(jié)果??可以被認(rèn)為是實(shí)驗(yàn)結(jié)束時(shí)現(xiàn)實(shí)世界狀態(tài)的完整描述。
事件集(事件空間):元素??的集合(稱為事件)是??的子集(即每個(gè)??是一個(gè)實(shí)驗(yàn)可能結(jié)果的集合)。
備注:需要滿足以下三個(gè)條件:
(1)?
(2)?
(3)?
概率度量:函數(shù)是一個(gè)的映射,滿足以下性質(zhì):
對(duì)于每個(gè)?,,
如果?是互不相交的事件 (即 當(dāng)時(shí),?), 那么:
以上三條性質(zhì)被稱為概率公理。
舉例:
考慮投擲六面骰子的事件。樣本空間為,,,,,。最簡單的事件空間是平凡事件空間.另一個(gè)事件空間是的所有子集的集合。對(duì)于第一個(gè)事件空間,滿足上述要求的唯一概率度量由,給出。對(duì)于第二個(gè)事件空間,一個(gè)有效的概率度量是將事件空間中每個(gè)事件的概率分配為,這里?是這個(gè)事件集合中元素的數(shù)量;例如,。
性質(zhì):
如果,則:
(布爾不等式):
(全概率定律):如果,,是一些互不相交的事件并且它們的并集是,那么它們的概率之和是 1
1.1 條件概率和獨(dú)立性
假設(shè)是一個(gè)概率非 0 的事件,我們定義在給定的條件下?的條件概率為:
換句話說,)是度量已經(jīng)觀測(cè)到事件發(fā)生的情況下事件發(fā)生的概率,兩個(gè)事件被稱為獨(dú)立事件當(dāng)且僅當(dāng)(或等價(jià)地,)。因此,獨(dú)立性相當(dāng)于是說觀察到事件對(duì)于事件的概率沒有任何影響。
2. 隨機(jī)變量
考慮一個(gè)實(shí)驗(yàn),我們翻轉(zhuǎn) 10 枚硬幣,我們想知道正面硬幣的數(shù)量。這里,樣本空間的元素是長度為 10 的序列。例如,我們可能有。然而,在實(shí)踐中,我們通常不關(guān)心獲得任何特定正反序列的概率。相反,我們通常關(guān)心結(jié)果的實(shí)值函數(shù),比如我們 10 次投擲中出現(xiàn)的正面數(shù),或者最長的背面長度。在某些技術(shù)條件下,這些函數(shù)被稱為隨機(jī)變量。
更正式地說,隨機(jī)變量是一個(gè)的函數(shù)。通常,我們將使用大寫字母或更簡單的(其中隱含對(duì)隨機(jī)結(jié)果的依賴)來表示隨機(jī)變量。我們將使用小寫字母來表示隨機(jī)變量的值。
舉例:在我們上面的實(shí)驗(yàn)中,假設(shè)是在投擲序列中出現(xiàn)的正面的數(shù)量。假設(shè)投擲的硬幣只有 10 枚,那么只能取有限數(shù)量的值,因此它被稱為離散隨機(jī)變量。這里,與隨機(jī)變量相關(guān)聯(lián)的集合取某個(gè)特定值的概率為:
舉例:假設(shè)是一個(gè)隨機(jī)變量,表示放射性粒子衰變所需的時(shí)間。在這種情況下,具有無限多的可能值,因此它被稱為連續(xù)隨機(jī)變量。我們將在兩個(gè)實(shí)常數(shù)和之間取值的概率(其中)表示為:
2.1 累積分布函數(shù)
為了指定處理隨機(jī)變量時(shí)使用的概率度量,通常可以方便地指定替代函數(shù)(CDF、PDF和PMF),在本節(jié)和接下來的兩節(jié)中,我們將依次描述這些類型的函數(shù)。
累積分布函數(shù)(CDF)是函數(shù),它將概率度量指定為:
通過使用這個(gè)函數(shù),我們可以計(jì)算任意事件發(fā)生的概率。圖 1 顯示了一個(gè)樣本CDF函數(shù)。
圖1:一個(gè)累計(jì)分布函數(shù)(CDF)性質(zhì):2.2 概率質(zhì)量函數(shù)
當(dāng)隨機(jī)變量取有限種可能值(即,是離散隨機(jī)變量)時(shí),表示與隨機(jī)變量相關(guān)聯(lián)的概率度量的更簡單的方法是直接指定隨機(jī)變量可以假設(shè)的每個(gè)值的概率。特別地,概率質(zhì)量函數(shù)(PMF)是函數(shù)?,這樣:
在離散隨機(jī)變量的情況下,我們使用符號(hào)表示隨機(jī)變量可能假設(shè)的一組可能值。例如,如果是一個(gè)隨機(jī)變量,表示十次投擲硬幣中的正面數(shù),那么,,,,。
性質(zhì):
2.3 概率密度函數(shù)
對(duì)于一些連續(xù)隨機(jī)變量,累積分布函數(shù)處可微。在這些情況下,我們將概率密度函數(shù)(PDF)定義為累積分布函數(shù)的導(dǎo)數(shù),即:
請(qǐng)注意,連續(xù)隨機(jī)變量的概率密度函數(shù)可能并不總是存在的(即,如果它不是處處可微)。
根據(jù)微分的性質(zhì),對(duì)于很小的,
CDF和PDF(當(dāng)它們存在時(shí)!)都可用于計(jì)算不同事件的概率。但是應(yīng)該強(qiáng)調(diào)的是,任意給定點(diǎn)的概率密度函數(shù)(PDF)的值不是該事件的概率,即。例如,可以取大于 1 的值(但是在的任何子集上的積分最多為 1)。
性質(zhì):
2.4 期望
假設(shè)是一個(gè)離散隨機(jī)變量,其PMF為?,是一個(gè)任意函數(shù)。在這種情況下,可以被視為隨機(jī)變量,我們將的期望值定義為:
如果是一個(gè)連續(xù)的隨機(jī)變量,其PDF 為,那么的期望值被定義為:
直覺上,的期望值可以被認(rèn)為是對(duì)于不同的值可以取的值的“加權(quán)平均值”,其中權(quán)重由或給出。作為上述情況的特例,請(qǐng)注意,隨機(jī)變量本身的期望值,是通過令得到的,這也被稱為隨機(jī)變量的平均值。
性質(zhì):
對(duì)于任意常數(shù)?,
對(duì)于任意常數(shù)?,
(線性期望):
對(duì)于一個(gè)離散隨機(jī)變量,
2.5 方差
隨機(jī)變量的方差是隨機(jī)變量的分布圍繞其平均值集中程度的度量。形式上,隨機(jī)變量的方差定義為:
使用上一節(jié)中的性質(zhì),我們可以導(dǎo)出方差的替代表達(dá)式:
其中第二個(gè)等式來自期望的線性,以及相對(duì)于外層期望實(shí)際上是常數(shù)的事實(shí)。
性質(zhì):
對(duì)于任意常數(shù)?,
對(duì)于任意常數(shù)?,
舉例:
計(jì)算均勻隨機(jī)變量的平均值和方差,任意,,其PDF為?,其他地方為 0。
舉例:
假設(shè)對(duì)于一些子集,有,計(jì)算?
離散情況:
連續(xù)情況:
2.6 一些常見的隨機(jī)變量
離散隨機(jī)變量
伯努利分布:硬幣擲出正面的概率為(其中:),如果正面發(fā)生,則為 1,否則為 0。
二項(xiàng)式分布:擲出正面概率為(其中:)的硬幣次獨(dú)立投擲中正面的數(shù)量。
幾何分布:擲出正面概率為(其中:)的硬幣第一次擲出正面所需要的次數(shù)。
泊松分布:用于模擬罕見事件頻率的非負(fù)整數(shù)的概率分布(其中:)。
連續(xù)隨機(jī)變量
均勻分布:在和之間每個(gè)點(diǎn)概率密度相等的分布(其中:$a
指數(shù)分布:在非負(fù)實(shí)數(shù)上有衰減的概率密度(其中:)。
正態(tài)分布:又被稱為高斯分布。
一些隨機(jī)變量的概率密度函數(shù)和累積分布函數(shù)的形狀如圖 2 所示。
圖2:一些隨機(jī)變量的概率密度函數(shù)(PDF)和累積分布函數(shù)(CDF)下表總結(jié)了這些分布的一些特性:3. 兩個(gè)隨機(jī)變量
到目前為止,我們已經(jīng)考慮了單個(gè)隨機(jī)變量。然而,在許多情況下,在隨機(jī)實(shí)驗(yàn)中,我們可能有不止一個(gè)感興趣的量。例如,在一個(gè)我們擲硬幣十次的實(shí)驗(yàn)中,我們可能既關(guān)心出現(xiàn)的正面數(shù)量,也關(guān)心連續(xù)最長出現(xiàn)正面的長度。在本節(jié)中,我們考慮兩個(gè)隨機(jī)變量的設(shè)置。
3.1 聯(lián)合分布和邊緣分布
假設(shè)我們有兩個(gè)隨機(jī)變量,一個(gè)方法是分別考慮它們。如果我們這樣做,我們只需要和。但是如果我們想知道在隨機(jī)實(shí)驗(yàn)的結(jié)果中,和同時(shí)假設(shè)的值,我們需要一個(gè)更復(fù)雜的結(jié)構(gòu),稱為和的聯(lián)合累積分布函數(shù),定義如下:
可以證明,通過了解聯(lián)合累積分布函數(shù),可以計(jì)算出任何涉及到和的事件的概率。
聯(lián)合CDF:?和每個(gè)變量的聯(lián)合分布函數(shù)和分別由下式關(guān)聯(lián):
這里我們稱和為?的邊緣累積概率分布函數(shù)。
性質(zhì):
3.2 聯(lián)合概率和邊緣概率質(zhì)量函數(shù)
如果和是離散隨機(jī)變量,那么聯(lián)合概率質(zhì)量函數(shù)?由下式定義:
這里, 對(duì)于任意,,, 并且?
兩個(gè)變量上的聯(lián)合 PMF分別與每個(gè)變量的概率質(zhì)量函數(shù)有什么關(guān)系?事實(shí)上:
對(duì)于類似。在這種情況下,我們稱為的邊際概率質(zhì)量函數(shù)。在統(tǒng)計(jì)學(xué)中,將一個(gè)變量相加形成另一個(gè)變量的邊緣分布的過程通常稱為“邊緣化”。
3.3 聯(lián)合概率和邊緣概率密度函數(shù)
假設(shè)和是兩個(gè)連續(xù)的隨機(jī)變量,具有聯(lián)合分布函數(shù)。在在和中處處可微的情況下,我們可以定義聯(lián)合概率密度函數(shù):
如同在一維情況下,,而是:
請(qǐng)注意,概率密度函數(shù)的值總是非負(fù)的,但它們可能大于 1。盡管如此,可以肯定的是?
與離散情況相似,我們定義:
作為的邊際概率密度函數(shù)(或邊際密度),對(duì)于也類似。
3.4 條件概率分布
條件分布試圖回答這樣一個(gè)問題,當(dāng)我們知道必須取某個(gè)值時(shí),上的概率分布是什么?在離散情況下,給定的條件概率質(zhì)量函數(shù)是簡單的:
假設(shè)分母不等于 0。
在連續(xù)的情況下,在技術(shù)上要復(fù)雜一點(diǎn),因?yàn)檫B續(xù)隨機(jī)變量的概率等于零。忽略這一技術(shù)點(diǎn),我們通過類比離散情況,簡單地定義給定的條件概率密度為:
假設(shè)分母不等于 0。
3.5 貝葉斯定理
當(dāng)試圖推導(dǎo)一個(gè)變量給定另一個(gè)變量的條件概率表達(dá)式時(shí),經(jīng)常出現(xiàn)的一個(gè)有用公式是貝葉斯定理。
對(duì)于離散隨機(jī)變量和:
對(duì)于連續(xù)隨機(jī)變量和:
3.6 獨(dú)立性
如果對(duì)于和的所有值,,則兩個(gè)隨機(jī)變量和是獨(dú)立的。等價(jià)地,
對(duì)于離散隨機(jī)變量, 對(duì)于任意,??,。
對(duì)于離散隨機(jī)變量,?當(dāng)對(duì)于任意且。
對(duì)于連續(xù)隨機(jī)變量,??對(duì)于任意?。
對(duì)于連續(xù)隨機(jī)變量,??,當(dāng)對(duì)于任意。
非正式地說,如果“知道”一個(gè)變量的值永遠(yuǎn)不會(huì)對(duì)另一個(gè)變量的條件概率分布有任何影響,那么兩個(gè)隨機(jī)變量和是獨(dú)立的,也就是說,你只要知道和就知道關(guān)于這對(duì)變量,的所有信息。以下引理將這一觀察形式化:
引理 3.1
如果和是獨(dú)立的,那么對(duì)于任何,,我們有:
利用上述引理,我們可以證明如果與無關(guān),那么的任何函數(shù)都與的任何函數(shù)無關(guān)。
3.7 期望和協(xié)方差
假設(shè)我們有兩個(gè)離散的隨機(jī)變量,并且是這兩個(gè)隨機(jī)變量的函數(shù)。那么的期望值以如下方式定義:
對(duì)于連續(xù)隨機(jī)變量,,類似的表達(dá)式是:
我們可以用期望的概念來研究兩個(gè)隨機(jī)變量之間的關(guān)系。特別地,兩個(gè)隨機(jī)變量的協(xié)方差定義為:
使用類似于方差的推導(dǎo),我們可以將它重寫為:
在這里,說明兩種協(xié)方差形式相等的關(guān)鍵步驟是第三個(gè)等號(hào),在這里我們使用了這樣一個(gè)事實(shí),即和實(shí)際上是常數(shù),可以被提出來。當(dāng),時(shí),我們說和不相關(guān)。
性質(zhì):
(期望線性)?
如果和相互獨(dú)立, 那么?
如果和相互獨(dú)立, 那么?.
4. 多個(gè)隨機(jī)變量
上一節(jié)介紹的概念和想法可以推廣到兩個(gè)以上的隨機(jī)變量。特別是,假設(shè)我們有個(gè)連續(xù)隨機(jī)變量,。在本節(jié)中,為了表示簡單,我們只關(guān)注連續(xù)的情況,對(duì)離散隨機(jī)變量的推廣工作類似。
4.1 基本性質(zhì)
我們可以定義的聯(lián)合累積分布函數(shù)、聯(lián)合概率密度函數(shù),以及給定時(shí)的邊緣概率密度函數(shù)為:
為了計(jì)算事件的概率,我們有:
鏈?zhǔn)椒▌t:
從多個(gè)隨機(jī)變量的條件概率的定義中,可以看出:
獨(dú)立性:對(duì)于多個(gè)事件,,我們說?是相互獨(dú)立的,當(dāng)對(duì)于任何子集,,我們有:
同樣,我們說隨機(jī)變量是獨(dú)立的,如果:
這里,相互獨(dú)立性的定義只是兩個(gè)隨機(jī)變量獨(dú)立性到多個(gè)隨機(jī)變量的自然推廣。
獨(dú)立隨機(jī)變量經(jīng)常出現(xiàn)在機(jī)器學(xué)習(xí)算法中,其中我們假設(shè)屬于訓(xùn)練集的訓(xùn)練樣本代表來自某個(gè)未知概率分布的獨(dú)立樣本。為了明確獨(dú)立性的重要性,考慮一個(gè)“壞的”訓(xùn)練集,我們首先從某個(gè)未知分布中抽取一個(gè)訓(xùn)練樣本,然后將完全相同的訓(xùn)練樣本的個(gè)副本添加到訓(xùn)練集中。在這種情況下,我們有:
盡管訓(xùn)練集的大小為,但這些例子并不獨(dú)立!雖然這里描述的過程顯然不是為機(jī)器學(xué)習(xí)算法建立訓(xùn)練集的明智方法,但是事實(shí)證明,在實(shí)踐中,樣本的不獨(dú)立性確實(shí)經(jīng)常出現(xiàn),并且它具有減小訓(xùn)練集的“有效大小”的效果。
4.2 隨機(jī)向量
假設(shè)我們有n個(gè)隨機(jī)變量。當(dāng)把所有這些隨機(jī)變量放在一起工作時(shí),我們經(jīng)常會(huì)發(fā)現(xiàn)把它們放在一個(gè)向量中是很方便的...我們稱結(jié)果向量為隨機(jī)向量(更正式地說,隨機(jī)向量是從到的映射)。應(yīng)該清楚的是,隨機(jī)向量只是處理個(gè)隨機(jī)變量的一種替代符號(hào),因此聯(lián)合概率密度函數(shù)和綜合密度函數(shù)的概念也將適用于隨機(jī)向量。
期望:
考慮中的任意函數(shù)。這個(gè)函數(shù)的期望值 被定義為
其中,是從到的個(gè)連續(xù)積分。如果是從到的函數(shù),那么的期望值是輸出向量的元素期望值,即,如果是:
那么,
協(xié)方差矩陣:對(duì)于給定的隨機(jī)向量,其協(xié)方差矩陣是平方矩陣,其輸入由給出。從協(xié)方差的定義來看,我們有:
其中矩陣期望以明顯的方式定義。協(xié)方差矩陣有許多有用的屬性:
;也就是說,是正半定的。
;也就是說,是對(duì)稱的。
4.3 多元高斯分布
隨機(jī)向量上概率分布的一個(gè)特別重要的例子叫做多元高斯或多元正態(tài)分布。隨機(jī)向量被認(rèn)為具有多元正態(tài)(或高斯)分布,當(dāng)其具有均值和協(xié)方差矩陣(其中指對(duì)稱正定矩陣的空間)
我們把它寫成。請(qǐng)注意,在的情況下,它降維成普通正態(tài)分布,其中均值參數(shù)為,方差為。
一般來說,高斯隨機(jī)變量在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)中非常有用,主要有兩個(gè)原因:
首先,在統(tǒng)計(jì)算法中對(duì)“噪聲”建模時(shí),它們非常常見。通常,噪聲可以被認(rèn)為是影響測(cè)量過程的大量小的獨(dú)立隨機(jī)擾動(dòng)的累積;根據(jù)中心極限定理,獨(dú)立隨機(jī)變量的總和將趨向于“看起來像高斯”。
其次,高斯隨機(jī)變量便于許多分析操作,因?yàn)閷?shí)際中出現(xiàn)的許多涉及高斯分布的積分都有簡單的封閉形式解。我們將在本課程稍后遇到這種情況。
5. 其他資源
一本關(guān)于CS229所需概率水平的好教科書是謝爾頓·羅斯的《概率第一課》(A First Course on Probability by Sheldon Ross)。
參考資料
[1]
原始文件下載: http://cs229.stanford.edu/summer2019/cs229-prob.pdf
[2]石振宇: https://github.com/szy2120109
[3]黃海廣: https://github.com/fengdu78
[4]github: https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math
本文首發(fā)于“機(jī)器學(xué)習(xí)初學(xué)者”公眾號(hào)
總結(jié)
以上是生活随笔為你收集整理的【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高额奖金+实习机会+官方证书 丨微众银行
- 下一篇: 【论文相关】 技术性论文结构剖析