日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)...

發(fā)布時(shí)間:2025/3/8 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文是斯坦福大學(xué) CS229 機(jī)器學(xué)習(xí)課程的基礎(chǔ)材料,原始文件下載[1]

原文作者:Arian Maleki , Tom Do

翻譯:石振宇[2]

審核和修改制作:黃海廣[3]

備注:請(qǐng)關(guān)注github[4]的更新。線性代數(shù)的翻譯見(這篇文章)。

CS229 機(jī)器學(xué)習(xí)課程復(fù)習(xí)材料-概率論

概率論復(fù)習(xí)和參考

概率論是對(duì)不確定性的研究。通過這門課,我們將依靠概率論中的概念來推導(dǎo)機(jī)器學(xué)習(xí)算法。這篇筆記試圖涵蓋適用于CS229的概率論基礎(chǔ)。概率論的數(shù)學(xué)理論非常復(fù)雜,并且涉及到“分析”的一個(gè)分支:測(cè)度論。在這篇筆記中,我們提供了概率的一些基本處理方法,但是不會(huì)涉及到這些更復(fù)雜的細(xì)節(jié)。

1. 概率的基本要素

為了定義集合上的概率,我們需要一些基本元素,

  • 樣本空間:隨機(jī)實(shí)驗(yàn)的所有結(jié)果的集合。在這里,每個(gè)結(jié)果??可以被認(rèn)為是實(shí)驗(yàn)結(jié)束時(shí)現(xiàn)實(shí)世界狀態(tài)的完整描述。

  • 事件集(事件空間):元素??的集合(稱為事件)是??的子集(即每個(gè)??是一個(gè)實(shí)驗(yàn)可能結(jié)果的集合)。

    備注:需要滿足以下三個(gè)條件:

    (1)?

    (2)?

    (3)?

  • 概率度量:函數(shù)是一個(gè)的映射,滿足以下性質(zhì):

  • 對(duì)于每個(gè)?,,

  • 如果?是互不相交的事件 (即 當(dāng)時(shí),?), 那么:

以上三條性質(zhì)被稱為概率公理

舉例

考慮投擲六面骰子的事件。樣本空間為,,,,,。最簡單的事件空間是平凡事件空間.另一個(gè)事件空間是的所有子集的集合。對(duì)于第一個(gè)事件空間,滿足上述要求的唯一概率度量由,給出。對(duì)于第二個(gè)事件空間,一個(gè)有效的概率度量是將事件空間中每個(gè)事件的概率分配為,這里?是這個(gè)事件集合中元素的數(shù)量;例如,。

性質(zhì):

  • 如果,則:

  • (布爾不等式):

  • (全概率定律):如果,,是一些互不相交的事件并且它們的并集是,那么它們的概率之和是 1

1.1 條件概率和獨(dú)立性

假設(shè)是一個(gè)概率非 0 的事件,我們定義在給定的條件下?的條件概率為:

換句話說,)是度量已經(jīng)觀測(cè)到事件發(fā)生的情況下事件發(fā)生的概率,兩個(gè)事件被稱為獨(dú)立事件當(dāng)且僅當(dāng)(或等價(jià)地,)。因此,獨(dú)立性相當(dāng)于是說觀察到事件對(duì)于事件的概率沒有任何影響。

2. 隨機(jī)變量

考慮一個(gè)實(shí)驗(yàn),我們翻轉(zhuǎn) 10 枚硬幣,我們想知道正面硬幣的數(shù)量。這里,樣本空間的元素是長度為 10 的序列。例如,我們可能有。然而,在實(shí)踐中,我們通常不關(guān)心獲得任何特定正反序列的概率。相反,我們通常關(guān)心結(jié)果的實(shí)值函數(shù),比如我們 10 次投擲中出現(xiàn)的正面數(shù),或者最長的背面長度。在某些技術(shù)條件下,這些函數(shù)被稱為隨機(jī)變量

更正式地說,隨機(jī)變量是一個(gè)的函數(shù)。通常,我們將使用大寫字母或更簡單的(其中隱含對(duì)隨機(jī)結(jié)果的依賴)來表示隨機(jī)變量。我們將使用小寫字母來表示隨機(jī)變量的值。

舉例:在我們上面的實(shí)驗(yàn)中,假設(shè)是在投擲序列中出現(xiàn)的正面的數(shù)量。假設(shè)投擲的硬幣只有 10 枚,那么只能取有限數(shù)量的值,因此它被稱為離散隨機(jī)變量。這里,與隨機(jī)變量相關(guān)聯(lián)的集合取某個(gè)特定值的概率為:

舉例:假設(shè)是一個(gè)隨機(jī)變量,表示放射性粒子衰變所需的時(shí)間。在這種情況下,具有無限多的可能值,因此它被稱為連續(xù)隨機(jī)變量。我們將在兩個(gè)實(shí)常數(shù)和之間取值的概率(其中)表示為:

2.1 累積分布函數(shù)

為了指定處理隨機(jī)變量時(shí)使用的概率度量,通常可以方便地指定替代函數(shù)(CDFPDFPMF),在本節(jié)和接下來的兩節(jié)中,我們將依次描述這些類型的函數(shù)。

累積分布函數(shù)(CDF)是函數(shù),它將概率度量指定為:

通過使用這個(gè)函數(shù),我們可以計(jì)算任意事件發(fā)生的概率。圖 1 顯示了一個(gè)樣本CDF函數(shù)。

圖1:一個(gè)累計(jì)分布函數(shù)(CDF)性質(zhì):

2.2 概率質(zhì)量函數(shù)

當(dāng)隨機(jī)變量取有限種可能值(即,是離散隨機(jī)變量)時(shí),表示與隨機(jī)變量相關(guān)聯(lián)的概率度量的更簡單的方法是直接指定隨機(jī)變量可以假設(shè)的每個(gè)值的概率。特別地,概率質(zhì)量函數(shù)(PMF)是函數(shù)?,這樣:

在離散隨機(jī)變量的情況下,我們使用符號(hào)表示隨機(jī)變量可能假設(shè)的一組可能值。例如,如果是一個(gè)隨機(jī)變量,表示十次投擲硬幣中的正面數(shù),那么,,,,。

性質(zhì):

2.3 概率密度函數(shù)

對(duì)于一些連續(xù)隨機(jī)變量,累積分布函數(shù)處可微。在這些情況下,我們將概率密度函數(shù)(PDF)定義為累積分布函數(shù)的導(dǎo)數(shù),即:

請(qǐng)注意,連續(xù)隨機(jī)變量的概率密度函數(shù)可能并不總是存在的(即,如果它不是處處可微)。

根據(jù)微分的性質(zhì),對(duì)于很小的,

CDFPDF(當(dāng)它們存在時(shí)!)都可用于計(jì)算不同事件的概率。但是應(yīng)該強(qiáng)調(diào)的是,任意給定點(diǎn)的概率密度函數(shù)(PDF)的值不是該事件的概率,即。例如,可以取大于 1 的值(但是在的任何子集上的積分最多為 1)。

性質(zhì):

2.4 期望

假設(shè)是一個(gè)離散隨機(jī)變量,其PMF為?,是一個(gè)任意函數(shù)。在這種情況下,可以被視為隨機(jī)變量,我們將的期望值定義為:

如果是一個(gè)連續(xù)的隨機(jī)變量,其PDF 為,那么的期望值被定義為:

直覺上,的期望值可以被認(rèn)為是對(duì)于不同的值可以取的值的“加權(quán)平均值”,其中權(quán)重由或給出。作為上述情況的特例,請(qǐng)注意,隨機(jī)變量本身的期望值,是通過令得到的,這也被稱為隨機(jī)變量的平均值。

性質(zhì):

  • 對(duì)于任意常數(shù)?,

  • 對(duì)于任意常數(shù)?,

  • (線性期望):

  • 對(duì)于一個(gè)離散隨機(jī)變量,

2.5 方差

隨機(jī)變量的方差是隨機(jī)變量的分布圍繞其平均值集中程度的度量。形式上,隨機(jī)變量的方差定義為:

使用上一節(jié)中的性質(zhì),我們可以導(dǎo)出方差的替代表達(dá)式:

其中第二個(gè)等式來自期望的線性,以及相對(duì)于外層期望實(shí)際上是常數(shù)的事實(shí)。

性質(zhì):

  • 對(duì)于任意常數(shù)?,

  • 對(duì)于任意常數(shù)?,

舉例:

計(jì)算均勻隨機(jī)變量的平均值和方差,任意,,其PDF為?,其他地方為 0。

舉例:

假設(shè)對(duì)于一些子集,有,計(jì)算?

離散情況:

連續(xù)情況:

2.6 一些常見的隨機(jī)變量

離散隨機(jī)變量

  • 伯努利分布:硬幣擲出正面的概率為(其中:),如果正面發(fā)生,則為 1,否則為 0。

  • 二項(xiàng)式分布:擲出正面概率為(其中:)的硬幣次獨(dú)立投擲中正面的數(shù)量。

  • 幾何分布:擲出正面概率為(其中:)的硬幣第一次擲出正面所需要的次數(shù)。

  • 泊松分布:用于模擬罕見事件頻率的非負(fù)整數(shù)的概率分布(其中:)。

連續(xù)隨機(jī)變量

  • 均勻分布:在和之間每個(gè)點(diǎn)概率密度相等的分布(其中:$a

  • 指數(shù)分布:在非負(fù)實(shí)數(shù)上有衰減的概率密度(其中:)。

  • 正態(tài)分布:又被稱為高斯分布。

一些隨機(jī)變量的概率密度函數(shù)和累積分布函數(shù)的形狀如圖 2 所示。

圖2:一些隨機(jī)變量的概率密度函數(shù)(PDF)和累積分布函數(shù)(CDF)下表總結(jié)了這些分布的一些特性:

3. 兩個(gè)隨機(jī)變量

到目前為止,我們已經(jīng)考慮了單個(gè)隨機(jī)變量。然而,在許多情況下,在隨機(jī)實(shí)驗(yàn)中,我們可能有不止一個(gè)感興趣的量。例如,在一個(gè)我們擲硬幣十次的實(shí)驗(yàn)中,我們可能既關(guān)心出現(xiàn)的正面數(shù)量,也關(guān)心連續(xù)最長出現(xiàn)正面的長度。在本節(jié)中,我們考慮兩個(gè)隨機(jī)變量的設(shè)置。

3.1 聯(lián)合分布和邊緣分布

假設(shè)我們有兩個(gè)隨機(jī)變量,一個(gè)方法是分別考慮它們。如果我們這樣做,我們只需要和。但是如果我們想知道在隨機(jī)實(shí)驗(yàn)的結(jié)果中,和同時(shí)假設(shè)的值,我們需要一個(gè)更復(fù)雜的結(jié)構(gòu),稱為和的聯(lián)合累積分布函數(shù),定義如下:

可以證明,通過了解聯(lián)合累積分布函數(shù),可以計(jì)算出任何涉及到和的事件的概率。

聯(lián)合CDF:?和每個(gè)變量的聯(lián)合分布函數(shù)和分別由下式關(guān)聯(lián):

這里我們稱和為?的邊緣累積概率分布函數(shù)

性質(zhì):

3.2 聯(lián)合概率和邊緣概率質(zhì)量函數(shù)

如果和是離散隨機(jī)變量,那么聯(lián)合概率質(zhì)量函數(shù)?由下式定義:

這里, 對(duì)于任意,,, 并且?

兩個(gè)變量上的聯(lián)合 PMF分別與每個(gè)變量的概率質(zhì)量函數(shù)有什么關(guān)系?事實(shí)上:

對(duì)于類似。在這種情況下,我們稱為的邊際概率質(zhì)量函數(shù)。在統(tǒng)計(jì)學(xué)中,將一個(gè)變量相加形成另一個(gè)變量的邊緣分布的過程通常稱為“邊緣化”。

3.3 聯(lián)合概率和邊緣概率密度函數(shù)

假設(shè)和是兩個(gè)連續(xù)的隨機(jī)變量,具有聯(lián)合分布函數(shù)。在在和中處處可微的情況下,我們可以定義聯(lián)合概率密度函數(shù)

如同在一維情況下,,而是:

請(qǐng)注意,概率密度函數(shù)的值總是非負(fù)的,但它們可能大于 1。盡管如此,可以肯定的是?

與離散情況相似,我們定義:

作為的邊際概率密度函數(shù)(或邊際密度),對(duì)于也類似。

3.4 條件概率分布

條件分布試圖回答這樣一個(gè)問題,當(dāng)我們知道必須取某個(gè)值時(shí),上的概率分布是什么?在離散情況下,給定的條件概率質(zhì)量函數(shù)是簡單的:

假設(shè)分母不等于 0。

在連續(xù)的情況下,在技術(shù)上要復(fù)雜一點(diǎn),因?yàn)檫B續(xù)隨機(jī)變量的概率等于零。忽略這一技術(shù)點(diǎn),我們通過類比離散情況,簡單地定義給定的條件概率密度為:

假設(shè)分母不等于 0。

3.5 貝葉斯定理

當(dāng)試圖推導(dǎo)一個(gè)變量給定另一個(gè)變量的條件概率表達(dá)式時(shí),經(jīng)常出現(xiàn)的一個(gè)有用公式是貝葉斯定理

對(duì)于離散隨機(jī)變量和:

對(duì)于連續(xù)隨機(jī)變量和:

3.6 獨(dú)立性

如果對(duì)于和的所有值,,則兩個(gè)隨機(jī)變量和是獨(dú)立的。等價(jià)地,

  • 對(duì)于離散隨機(jī)變量, 對(duì)于任意,??,。

  • 對(duì)于離散隨機(jī)變量,?當(dāng)對(duì)于任意且。

  • 對(duì)于連續(xù)隨機(jī)變量,??對(duì)于任意?。

  • 對(duì)于連續(xù)隨機(jī)變量,??,當(dāng)對(duì)于任意。

非正式地說,如果“知道”一個(gè)變量的值永遠(yuǎn)不會(huì)對(duì)另一個(gè)變量的條件概率分布有任何影響,那么兩個(gè)隨機(jī)變量和是獨(dú)立的,也就是說,你只要知道和就知道關(guān)于這對(duì)變量,的所有信息。以下引理將這一觀察形式化:

引理 3.1

如果和是獨(dú)立的,那么對(duì)于任何,,我們有:

利用上述引理,我們可以證明如果與無關(guān),那么的任何函數(shù)都與的任何函數(shù)無關(guān)。

3.7 期望和協(xié)方差

假設(shè)我們有兩個(gè)離散的隨機(jī)變量,并且是這兩個(gè)隨機(jī)變量的函數(shù)。那么的期望值以如下方式定義:

對(duì)于連續(xù)隨機(jī)變量,,類似的表達(dá)式是:

我們可以用期望的概念來研究兩個(gè)隨機(jī)變量之間的關(guān)系。特別地,兩個(gè)隨機(jī)變量的協(xié)方差定義為:

使用類似于方差的推導(dǎo),我們可以將它重寫為:

在這里,說明兩種協(xié)方差形式相等的關(guān)鍵步驟是第三個(gè)等號(hào),在這里我們使用了這樣一個(gè)事實(shí),即和實(shí)際上是常數(shù),可以被提出來。當(dāng),時(shí),我們說和不相關(guān)。

性質(zhì):

  • (期望線性)?

  • 如果和相互獨(dú)立, 那么?

  • 如果和相互獨(dú)立, 那么?.

4. 多個(gè)隨機(jī)變量

上一節(jié)介紹的概念和想法可以推廣到兩個(gè)以上的隨機(jī)變量。特別是,假設(shè)我們有個(gè)連續(xù)隨機(jī)變量,。在本節(jié)中,為了表示簡單,我們只關(guān)注連續(xù)的情況,對(duì)離散隨機(jī)變量的推廣工作類似。

4.1 基本性質(zhì)

我們可以定義的聯(lián)合累積分布函數(shù)聯(lián)合概率密度函數(shù),以及給定時(shí)的邊緣概率密度函數(shù)為:

為了計(jì)算事件的概率,我們有:

鏈?zhǔn)椒▌t:

從多個(gè)隨機(jī)變量的條件概率的定義中,可以看出:

獨(dú)立性:對(duì)于多個(gè)事件,,我們說?是相互獨(dú)立的,當(dāng)對(duì)于任何子集,,我們有:

同樣,我們說隨機(jī)變量是獨(dú)立的,如果:

這里,相互獨(dú)立性的定義只是兩個(gè)隨機(jī)變量獨(dú)立性到多個(gè)隨機(jī)變量的自然推廣。

獨(dú)立隨機(jī)變量經(jīng)常出現(xiàn)在機(jī)器學(xué)習(xí)算法中,其中我們假設(shè)屬于訓(xùn)練集的訓(xùn)練樣本代表來自某個(gè)未知概率分布的獨(dú)立樣本。為了明確獨(dú)立性的重要性,考慮一個(gè)“壞的”訓(xùn)練集,我們首先從某個(gè)未知分布中抽取一個(gè)訓(xùn)練樣本,然后將完全相同的訓(xùn)練樣本的個(gè)副本添加到訓(xùn)練集中。在這種情況下,我們有:

盡管訓(xùn)練集的大小為,但這些例子并不獨(dú)立!雖然這里描述的過程顯然不是為機(jī)器學(xué)習(xí)算法建立訓(xùn)練集的明智方法,但是事實(shí)證明,在實(shí)踐中,樣本的不獨(dú)立性確實(shí)經(jīng)常出現(xiàn),并且它具有減小訓(xùn)練集的“有效大小”的效果。

4.2 隨機(jī)向量

假設(shè)我們有n個(gè)隨機(jī)變量。當(dāng)把所有這些隨機(jī)變量放在一起工作時(shí),我們經(jīng)常會(huì)發(fā)現(xiàn)把它們放在一個(gè)向量中是很方便的...我們稱結(jié)果向量為隨機(jī)向量(更正式地說,隨機(jī)向量是從到的映射)。應(yīng)該清楚的是,隨機(jī)向量只是處理個(gè)隨機(jī)變量的一種替代符號(hào),因此聯(lián)合概率密度函數(shù)和綜合密度函數(shù)的概念也將適用于隨機(jī)向量。

期望:

考慮中的任意函數(shù)。這個(gè)函數(shù)的期望值 被定義為

其中,是從到的個(gè)連續(xù)積分。如果是從到的函數(shù),那么的期望值是輸出向量的元素期望值,即,如果是:

那么,

協(xié)方差矩陣:對(duì)于給定的隨機(jī)向量,其協(xié)方差矩陣是平方矩陣,其輸入由給出。從協(xié)方差的定義來看,我們有:

其中矩陣期望以明顯的方式定義。協(xié)方差矩陣有許多有用的屬性:

  • ;也就是說,是正半定的。

  • ;也就是說,是對(duì)稱的。

4.3 多元高斯分布

隨機(jī)向量上概率分布的一個(gè)特別重要的例子叫做多元高斯或多元正態(tài)分布。隨機(jī)向量被認(rèn)為具有多元正態(tài)(或高斯)分布,當(dāng)其具有均值和協(xié)方差矩陣(其中指對(duì)稱正定矩陣的空間)

我們把它寫成。請(qǐng)注意,在的情況下,它降維成普通正態(tài)分布,其中均值參數(shù)為,方差為。

一般來說,高斯隨機(jī)變量在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)中非常有用,主要有兩個(gè)原因:

首先,在統(tǒng)計(jì)算法中對(duì)“噪聲”建模時(shí),它們非常常見。通常,噪聲可以被認(rèn)為是影響測(cè)量過程的大量小的獨(dú)立隨機(jī)擾動(dòng)的累積;根據(jù)中心極限定理,獨(dú)立隨機(jī)變量的總和將趨向于“看起來像高斯”。

其次,高斯隨機(jī)變量便于許多分析操作,因?yàn)閷?shí)際中出現(xiàn)的許多涉及高斯分布的積分都有簡單的封閉形式解。我們將在本課程稍后遇到這種情況。

5. 其他資源

一本關(guān)于CS229所需概率水平的好教科書是謝爾頓·羅斯的《概率第一課》(A First Course on Probability by Sheldon Ross)。

參考資料

[1]

原始文件下載: http://cs229.stanford.edu/summer2019/cs229-prob.pdf

[2]

石振宇: https://github.com/szy2120109

[3]

黃海廣: https://github.com/fengdu78

[4]

github: https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math

本文首發(fā)于“機(jī)器學(xué)習(xí)初學(xué)者”公眾號(hào)

總結(jié)

以上是生活随笔為你收集整理的【数学基础】一份非常适合人工智能学习的概率论基础材料中文版 (CS229概率论)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。