概率论与数理统计(陈希孺)学习笔记
生活随笔
收集整理的這篇文章主要介紹了
概率论与数理统计(陈希孺)学习笔记
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
由于平常學(xué)習(xí)自然語言處理的很多算法都來源于概率論和數(shù)理統(tǒng)計(jì),因此找來陳老先生的著作溫習(xí)鞏固一下。具體內(nèi)容請參考原著,本文僅作個(gè)人學(xué)習(xí)記錄。
1.基本概念
主觀概率:可以理解為一個(gè)人針對某一事件的一種心態(tài)或傾向性。這種傾向性一是根據(jù)其經(jīng)驗(yàn)和知識所得,還有可能是根據(jù)其自身利害關(guān)系所得。主觀概率雖然不具有堅(jiān)實(shí)的客觀理由基礎(chǔ),但是它卻廣泛存在于我們的生活當(dāng)中,并可能反映認(rèn)識主體的一種傾向性,因而具有其社會意義。事件:概率論中的事件不是指已經(jīng)發(fā)生了的情況,而是指某種(或某些)情況的‘陳述’,它可能發(fā)生,也可能不發(fā)生,發(fā)生與否,要到有關(guān)的‘試驗(yàn)’有了結(jié)果以后才能知道。事件特征有三(1)有一個(gè)明確界定的試驗(yàn);(2)在試驗(yàn)前就明確了這個(gè)試驗(yàn)的全部可能結(jié)果;(3)當(dāng)有一個(gè)明確的陳述界定了試驗(yàn)結(jié)果的全部可能結(jié)果中的一個(gè)確定的部分,其就叫做一個(gè)事件。由于事件是否在某次試驗(yàn)中的發(fā)生取決于機(jī)遇,因此在概率論中,事件常稱為“隨機(jī)事件”,其極端情況為“必然事件”和“不可能事件”。
古典概率定義:設(shè)一個(gè)試驗(yàn)有N個(gè)等可能結(jié)果,而事件E恰包含其中M個(gè)結(jié)果,則事件E的概率,記為P(E)=M/N。古典概率只能用于全部試驗(yàn)結(jié)果為有限個(gè)且等可能性成立的情況。如果引申為試驗(yàn)結(jié)果有無限多個(gè)的情況,就是“幾何概率”,即等面積,等概率。
頻率與概率:頻率只是概率的估計(jì)而非概率本身,但當(dāng)試驗(yàn)重復(fù)次數(shù)無限增大時(shí),我們認(rèn)為此時(shí)頻率的極限就是概率。(大數(shù)定理) 排列與組合:排列有次序,而組合沒有。 (1)排列公式:n個(gè)相異物體取r(1<=r<=n)個(gè)的不同排列總數(shù)
當(dāng)n=r時(shí),P=r(r-1)...1=r!,其中 0!=1 (2)組合公式:n個(gè)相異物件取r(1<=r<=n)個(gè)的不同組合總數(shù)。因?yàn)槊恳粋€(gè)包含r個(gè)物件的組合都可以產(chǎn)生r!個(gè)不同的排列,因此排列數(shù)應(yīng)該是組合數(shù)的r!倍。
條件概率定義:設(shè)有兩個(gè)事件A,B,且P(B)!=0,則“在給定B發(fā)生的條件下A的條件概率”,記為P(A|B)=P(AB)/P(B) 證明過程:設(shè)一個(gè)試驗(yàn)有N個(gè)等可能的結(jié)果,事件A、B分別包括其中M1和M2個(gè)結(jié)果,他們有M12個(gè)公共結(jié)果,即事件AB所包含的結(jié)果。若已經(jīng)給定B發(fā)生,則可能的結(jié)果由N個(gè)縮減到M2個(gè),其中只有M12個(gè)結(jié)果使事件A發(fā)生,則此時(shí) P(A|B)=M12/M2=(M12/N)/(M2/N)=P(AB)/P(B)
事件的獨(dú)立性:兩個(gè)事件A、B,A的無條件概率P(A)與其給定條件B發(fā)生下的條件概率P(A|B)之間存在一些關(guān)聯(lián)。若P(A|B)>P(A),則B發(fā)生使A發(fā)生的可能性增大了;若P(A|B)=P(A),則B發(fā)生與否對A發(fā)生的可能性毫無影響,此時(shí)就稱A,B兩事件獨(dú)立。結(jié)合條件概率公式P(A|B)=P(AB)/P(B)可得,P(AB)=P(A)P(B)。 定理:若干個(gè)獨(dú)立事件A1,...,An之積的概率等于各事件概率的乘積:P(A1...An)=P(A1)..P(An) 相加是互斥,相乘是獨(dú)立!
全概率公式:設(shè)B1,B2...為有限或無限個(gè)事件,他們兩兩互斥且在每次試驗(yàn)中至少發(fā)生一個(gè),即: (1)BiBj=不可能事件(i!=j); (2)B1+B2+...=Ω(必然事件)。 這樣的一組事件稱為“完備事件群”。 現(xiàn)考慮一個(gè)事件A,因?yàn)棣笧楸厝皇录?#xff0c;有A=AΩ=AB1+AB2+... ? 。因B1,B2...兩兩互斥,顯然AB1,AB2...也兩兩互斥,因此有P(A)=P(AB1)+P(AB2)+... 再由條件概率的定義,有 P(ABi)=P(Bi)P(A|Bi).帶入上式得P(A)=P(B1)P(A|B1)+P(B2)P(A|B2)+... ?這就是全概率公式,這個(gè)名字的意思就是全部概率P(A)被分成許多部分之和,應(yīng)用的意義在當(dāng)較復(fù)雜的情況下直接算P(A)不容易,但A總是伴隨某個(gè)B出現(xiàn),則可以構(gòu)造這樣一組Bi來簡化計(jì)算。
貝葉斯公式:在全概率公式的假定公式之下,有
這就是神奇的貝葉斯公式。其神奇之處在于:如果我們把事件A看成結(jié)果,完備事件群B1,B2...看成導(dǎo)致這個(gè)結(jié)果可能的原因。則可以把全概率公式看成“由原因推結(jié)果”,而貝葉斯公式則是“由結(jié)果推原因”。 隨機(jī)變量:就是其值隨機(jī)會而定的變量。一種叫離散型隨機(jī)變量,其特征只能取有限個(gè)值,或雖然在理論上能取無限個(gè)值,但這些值可以毫無遺漏地一個(gè)接一個(gè)排列出來。一種叫連續(xù)性隨機(jī)變量,其全部可能取值不僅是無窮多個(gè),并且還不能無遺漏地逐一排列,而是充滿一個(gè)空間。
2.離散型隨機(jī)變量的分布
概率函數(shù):設(shè)X為離散型隨機(jī)變量,其全部可能值為{a1,a2,...}則pi=P(X=ai) (i=1,2...)稱為X的概率函數(shù)。 可以知道 pi>=0,p1+p2+...=1 上述公式指出了概率1在其可能值之間如何分布的,因此又稱X的概率函數(shù)為隨機(jī)變量X的概率分布。 分布函數(shù):設(shè)X為一隨機(jī)變量,則函數(shù)P(X<=x)=F(x)(-∞<x<+∞) 稱為X的分布函數(shù)。對離散型隨機(jī)變量而言,概率函數(shù)與分布函數(shù)是等價(jià)的,P(X<=x)=F(x)(-∞<x<+∞)=Σpi ?可能概率值的累加 對隨機(jī)變量X,其分布函數(shù)F(x)具有一下性質(zhì): (1)F(x)是單調(diào)非降的,當(dāng)x1<x2,有F(x1)<=F(x2)。這是因?yàn)楫?dāng)x1<x2時(shí),事件{X<=x1}蘊(yùn)含(被包含于)事件{X<=x2},因而前者的概率不能超過后者的概率; (2)當(dāng)x取極限正無窮時(shí),F(x)趨近于1,當(dāng)x取極限負(fù)無窮時(shí),F(x)趨近于0。二項(xiàng)分布: 滿足兩個(gè)條件:(1)各次試驗(yàn)的條件是穩(wěn)定的,即事件A的概率p在各次試驗(yàn)中保持不變; ? ?(2)各次試驗(yàn)的獨(dú)立性。 泊松分布:若隨機(jī)變量X的可能取值為0,1,2,...,且概率分布為 , 則稱X服從泊松分布,記為X~P(λ),λ>0是某一常數(shù),等式右邊對i=0,1,2..求和的結(jié)果為1。泊松分布多出現(xiàn)在當(dāng)X表示在一定的時(shí)間或空間內(nèi)出現(xiàn)的事件個(gè)數(shù)這種場合。 舉例說明其產(chǎn)生的機(jī)制:若觀測一定時(shí)間內(nèi)某交通路口所發(fā)生的事故個(gè)數(shù)。設(shè)所觀察的這段時(shí)間為[0,1),取一個(gè)很大的自然數(shù)n,把時(shí)間[0,1)分為等長的n段:L1=[0,1/n), L2=[1/n,2/n),....Li=[(i-1)/n,i/n),....Ln=[(n-1)/n,1),做幾個(gè)假設(shè): (1)在每段Li內(nèi),恰發(fā)生一個(gè)事故的概率,近似的與這段時(shí)間的長1/n成正比,即可取為 λ/n,又假定在n很大因而1/n很小時(shí),在Li這么短的一段時(shí)間內(nèi)要發(fā)生兩次或更多的事故是不可能的。因此,在Li時(shí)段內(nèi)不發(fā)生事故的概率為1-(λ/n)。 (2)L1、L2..Ln各段是否發(fā)生事故是獨(dú)立的。 即把在[0,1)時(shí)段內(nèi)發(fā)生的事故數(shù)X視為在n個(gè)小時(shí)段L1、L2..Ln內(nèi)有事故的時(shí)段數(shù),則此時(shí)X應(yīng)服從二項(xiàng)分布B(n,λ/n)。 但嚴(yán)格的講,該公式知識近似成立,因?yàn)樵诩僭O(shè)(1)中,每個(gè)時(shí)段內(nèi)發(fā)生一次事故的概率只是近似的為λ/n。當(dāng)n取極限時(shí),就得到確切的答案。當(dāng)n取極限無窮大時(shí), 第二個(gè)公式的取極限結(jié)果不太明白(好像為指數(shù)函數(shù)的公式)!!! 結(jié)合兩式就得出上述的泊松分布,它是由二項(xiàng)分布的極限得到的。
3.連續(xù)型隨機(jī)變量的分布
概率密度函數(shù),簡稱密度函數(shù):設(shè)連續(xù)型隨機(jī)變量X有概率分布函數(shù)F(x),則F(x)的導(dǎo)數(shù)f(x) =F'(x)稱為X的概率密度函數(shù)。反映了概率在x點(diǎn)處的密集程度。 連續(xù)型隨機(jī)變量X的密度函數(shù)f(x)都具有以下三條基本性質(zhì): (1)f(x)>=0; (2) (3)對任何常數(shù)a<b,有下圖為某一連續(xù)型隨機(jī)變量X的分布函數(shù)F和概率密度函數(shù)f
正態(tài)分布:如果一個(gè)隨機(jī)變量具有概率密度函數(shù)如下: 則稱X為正態(tài)隨機(jī)變量,并記為,N是“normal”正態(tài)一詞的首字母,括號里為這個(gè)分布的參數(shù)。正態(tài)分布的圖形如上圖中的(b) 是正態(tài)分布N(0,1)的密度函數(shù),N(0,1)稱為標(biāo)準(zhǔn)正態(tài)分布。
指數(shù)分布:若隨機(jī)變量X有概率密度函數(shù),如下: 則稱X服從指數(shù)分布,其中λ>0為參數(shù)。由于當(dāng)x<=0時(shí)f(x)=0,表示隨機(jī)變量取負(fù)值的概率為0,故X只取正值。下圖中虛線表示當(dāng)λ=1時(shí)指數(shù)分布圖形,實(shí)線表示當(dāng)λ=2時(shí)指數(shù)分布圖形。指數(shù)分布最常見的應(yīng)用場合就是壽命分布。
均勻分布:設(shè)隨機(jī)變量X有密度函數(shù),如下: 則稱X服從區(qū)間[a,b]上的均勻分布,記為X~R(a,b)。 均勻分布的名稱是因?yàn)槊芏群瘮?shù)f在區(qū)間[a,b]上為常數(shù),因此在這個(gè)區(qū)間上,概率在各處的密集程度一樣,或者說,概率均勻地分布在這個(gè)區(qū)間上。其密度函數(shù)f的圖形和分布函數(shù)F的圖形如下: 總結(jié):密度函數(shù)是對每個(gè)可能值的模型表示,分布函數(shù)是隨著變量的變化其值累積過程的模型表示。 B分布,又稱beta分布也稱貝塔分布,是指一組定義在區(qū)間的連續(xù)概率分布,有兩個(gè)參數(shù)。 其概率密度函數(shù)為:
其中是Gamma函數(shù)。隨機(jī)變量X服從參數(shù)為的Β分布通常寫作
4.離散型隨機(jī)向量的分布
5.連續(xù)型隨機(jī)向量的分布
6.邊緣分布
設(shè)X=(X1,..,Xn)為一個(gè)n維隨機(jī)向量,X有一定的分布F,這是一個(gè)n維分布。因?yàn)閄的每個(gè)分量Xi都是一維隨機(jī)變量,所以他們都有各自的分布Fi,這些都是一維分布。稱為隨機(jī)向量X或其分布F的邊緣分布。7.數(shù)學(xué)期望
事件X的期望值就等于X的可能值與其每個(gè)可能值的概率之積的累加。 定義:設(shè)隨機(jī)變量X只取有限個(gè)可能值a1,...an,其概率分布為P(X=ai)=pi ?(i=1,..,n)。則X的數(shù)學(xué)期望記為 E(X)=a1p1+a2p2+....+anpn 即隨機(jī)變量取值的加權(quán)平均值。 性質(zhì): (1)若干個(gè)隨機(jī)變量之和的期望等于各變量的期望之和;假定個(gè)變量的期望都存在。 (2)若干個(gè)獨(dú)立隨機(jī)變量之積的期望等于各變量的期望之積; (3)隨機(jī)變量函數(shù)的期望。8.大數(shù)定理
有時(shí)候一個(gè)有限的和很難求,但可以利用極限的方法來近似計(jì)算,并且一般情況下,和的極限分布就是正態(tài)分布。概率論上,習(xí)慣把和的分布收斂于正態(tài)分布的定理統(tǒng)稱為“中心極限定理”。另一類重要的極限定理就是“大數(shù)定理”,它是由概率的統(tǒng)計(jì)定義“頻率收斂于概率”引申出來的。“大數(shù)”的意思是指涉及大量數(shù)目的觀察值Xi,它表明這種定理指出的現(xiàn)象只有在大量次數(shù)的試驗(yàn)和觀察之下才能成立。9.數(shù)理統(tǒng)計(jì)學(xué)
是指使用概率論和數(shù)學(xué)的方法,研究怎樣收集(通過試驗(yàn)或觀察)帶有隨機(jī)誤差的數(shù)據(jù),并在設(shè)定的模型(統(tǒng)計(jì)模型)之下,對這種數(shù)據(jù)進(jìn)行分析(統(tǒng)計(jì)分析),以對所研究的問題做出推斷(統(tǒng)計(jì)推斷)。由于近期有研究任務(wù),不可能整本書細(xì)致讀完,等有機(jī)會繼續(xù)研讀。 未完待續(xù)。。。
總結(jié)
以上是生活随笔為你收集整理的概率论与数理统计(陈希孺)学习笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数字图像处理与分析---指纹图像增强(P
- 下一篇: 数字图像处理使用计算机对,数字图像处理的