當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

高等数理统计（二）

發布時間：2023/12/10 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了高等数理统计（二）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

引言

　　【比較官方的簡介】數理統計學是一門以概率論為基礎，應用性很強的學科。它研究怎樣以有效的方式收集、整理和分析帶有隨機性的數據，以便對所考察的問題作出正確的推斷和預測，為采取正確的決策和行動提供依據和建議。數理統計不同于一般的資料統計，它更側重于應用隨機現象本身的規律性進行資料的收集、整理和分析。

　　【簡單的講】，就是通過樣本分析來推斷整體。

　　【意義或者重要性】在這個大數據時代，數據是非常重要的。怎樣挖掘數據內部的規律或者隱含的信息，變得尤為重要。當時我們是不可能獲得整體的數據的，所以我們只能通過抽取樣本，進而通過樣本來推斷整體的規律。

　　【目錄】

　　第一章、樣本與統計量

　　　　一、引言：

　　　　二、總體與樣本：

　　　　三、統計量：

　　　　四、常用分布：

　　第二章、參數估計

　　　　一、引言：

　　　　二、點估計——矩估計法：

　　　　三、點估計——極大似然估計：

　　　　四、估計量的優良性準則

　　　　五、區間估計——正態分布

　　　　　　1、引入

　　　　　　2、單個正態總體參數的區間估計

　　　　　　3、兩個正態總體的區間估計

　　　　六、區間估計——非正態分布：

　　　　　　1、大樣本正態近似法

　　　　　　2、二項分布

　　　　　　3、泊松分布

　　第三章、假設檢驗

　　　　一、引言：

　　　　二、正態總體均值的假設檢驗

　　　　　　1、單正態總體 N(μ, σ²)均值 μ?的檢驗

　　　　　　　　（1）雙邊檢驗 H₀: μ = μ₀；H₁: μ≠μ₀?

　　　　　　　　（2）單邊檢驗 H₀: μ = μ₀；H₁: μ>μ₀

　　　　　　2、兩個正態總體 N(μ₁, σ₁²) 和? N(μ₂, σ₂²)均值的比較

　　　　　　　　（1）雙邊檢驗 H₀:?μ₁?=?μ₂；H₁:?μ₁≠μ₂?

?　　　　　　 ?　（2）單邊檢驗 H₀:?μ₁?>=?μ₂；H₁:?μ₁<μ₂?

　　　　　　　　（3）單邊檢驗 H₀:?μ₁?<=?μ₂；H₁:?μ₁>μ₂?

　　　　三、正態總體方差的檢驗

　　　　　　1、單個正態總體方差的?χ2 檢驗

　　　　　　　　（1） H₀: σ²?=σ₀²；H₁: σ²?≠σ₀²

　　　　　　　　（2） H₀: σ²?=σ₀²；H₁: σ²?>σ₀²

　　　　　　　　（3)? H₀:?σ²?≤σ₀²；H₁:?σ²?>?σ₀²?(同2.)

　　　　　　2、兩正態總體方差比的?F 檢驗

　　　　　　　　　(1).? H₀: σ₁²?=?σ₂²；H₁: σ₁²?≠ ?σ₂².

　　　　　　　　?（2） H₀: σ₁²?=?σ₂²；H₁:?? ?σ₁²>?σ₂²

　　　　　　　　?（3） H₀: σ₁²?≤?σ₂²；H₁:?? ?σ₁²>?σ₂²

第二章、參數估計

　　本講首先介紹參數矩估計的基本思想以及求矩估計的步驟，給出多個求參數矩估計的例子；然后介紹參數極大似然估計的基本原理，求極大似然估計的基本方法，給出多個求參數極大似然矩估計的例子。

一、引言：

　　數理統計的任務： ● 總體分布類型的判斷； ● 總體分布中未知參數的推斷(參數估計與假設檢驗)。

　　【參數估計】設總體 X 的分布函數為 F( x, θ )，其中θ 為未知參數或參數向量，現從該總體中抽樣,得到樣本X₁, X₂ , … , X_n .依樣本對參數θ 做出估計，或估計參數 θ ? 的某個已知函數 g(θ ) 。這類問題稱為參數估計。參數估計包括：點估計和區間估計。

　　為估計參數 μ，需要構造適當的統計量 T( X₁, X₂ , … , X_n )，一旦當有了樣本，就將樣本值代入到該統計量中，算出一個值作為 μ 的估計，稱該計算值為 μ 的一個點估計。

【尋求估計量的方法】

　　1. 矩估計法

　　2. 極大似然法

　　3. 最小二乘法

　　4. 貝葉斯方法 …

　　我們僅介紹前面的兩種參數估計法。

二、點估計——矩估計法

　　矩估計是基于“替換”思想建立起來的一種參數估計方法。最早由英國統計學家 K. 皮爾遜提出。其思想是: 用同階、同類的樣本矩來估計總體矩。

【步驟】

設總體 X 的分布函數中含 k 個未知參數?θ₁,θ₂,...,θ_k。

步驟一：記總體 X 的 m 階原點矩 E(X^m)為 a_m , m ?= 1,2,…,k.

一般地, a_m (m = 1, 2, …, K) 是總體分布中參數或參數向量 (θ₁,θ₂,...,θ_k) 的函數。

故, a_m (m=1, 2, …, k) 應記成:?a_m(θ₁,θ₂,...,θ_k), m =1, 2, …, k.

步驟二：算出樣本的 m 階原點矩

步驟三：令

??得到關于 θ₁,θ₂,...,θ_k?的方程組(L≥k)。一般要求方程組(1)中有 k 個獨立方程。

步驟四：解方程組(1), 并記其解為

這種參數估計法稱為參數的矩估計法，簡稱矩法。

?【例題】

【優缺點】

矩估計的優點是：簡單易行, 不需要事先知道總體是什么分布。

缺點是：當總體的分布類型已知時，未充分利用分布所提供的信息；此外，一般情形下，矩估計不具有唯一性。

三、點估計——極大似然估計

　　極大似然估計法是在總體的分布類型已知前提下，使用的一種參數估計法。該方法首先由德國數學家高斯于 1821年提出，其后英國統計學家費歇于 1922年發現了這一方法，研究了方法的一些性質，并給出了求參數極大似然估計一般方法——極大似然估計原理 。

1、極大似然估計原理

　　設總體 X 的分布 (連續型時為概率密度，離散型時為概率分布) 為 f(x, θ) , ?X₁,X₂,…,X_n 是抽自總體 X 的簡單樣本。于是，樣本的聯合概率函數 (連續型時為聯合概率密度，離散型時為聯合概率分布) 為

假定現在我們觀測到一組樣本 X₁, X₂, …, ?X_n，要去估計未知參數θ 。一種直觀的想法是：哪個參數(多個參數時是哪組參數) 使得現在的出現的可能性 (概率) 最大，哪個參數(或哪組參數)就作為參數的估計。這就是極大似然估計原理。

如果

，?稱 ?為θ 的極大似然估計 (MLE)。

【極大似然估計(MLE)的一般步驟】

1、由總體分布導出樣本的聯合概率函數(連續型時為聯合概率密度, 離散型時為聯合概率分布)；

2、把樣本的聯合概率函數中的自變量看成已知常數, 參數θ 看成自變量, 得到似然函數 L(θ )；

3、求似然函數 L(θ ) 的最大值點 (常常轉化為求ln L(θ )的最大值點) ，即 θ 的MLE;

4、在最大值點的表達式中，代入樣本值，就得參數 θ 的極大似然估計。

【兩點說明】

● ?求似然函數 L(θ ) 的最大值點，可應用微積分中的技巧。由于 ?ln(x) ?是 x 的增函數，所以 ln L(θ ) 與 L(θ ?) 在 θ ?的同一點處達到各自的最大值。假定 θ 是一實數, ?ln L(θ )是 θ 的一個可微函數。通過求解似然方程

?可以得到 θ ? 的MLE。

● 用上述方法求參數的極大似然估計有時行不通，這時要用極大似然原理來求。

【例題】例1: 設X₁, X₂, …, X_n是取自總體 X~B(1, p) 的一個樣本，求參數 p 的極大似然估計。

四、估計量的優良性準則：

　　從前面兩節（矩估計和極大似然）的討論中可以看到:

　　● 同一參數可以有幾種不同的估計，這時就需要判斷采用哪一種估計為好的問題。

　　● 另一方面，對于同一個參數，用矩法和極大似然法即使得到的是同一個估計, 也存在衡量這個估計優劣的問題。

　　估計量的優良性準則就是：評價一個估計量“好”與“壞”的標準。

1、無偏性：

【例如】若?Θ?指的是正態總體N(μ , s²)的均值m,則其一切可能取值范圍是(-∞,∞)。若?Θ 指的是方差s²，則其一切可能取值范圍是(0,∞)。

【例題】正態分布的無偏估計

注意：E（X²） = Var （X） + [ E（X）]^{2 ? ?}(具體詳見高等數理統計（一）——>?三、統計量?——> 1、隨機變量的數字特征：?——>?（2）方差)

均方誤差準則

五、區間估計——正態分布:

1、引入：

　　前面討論了參數的點估計。點估計就是利用樣本計算出的值 (即實軸上點) 來估計未知參數。其優點是：可直地告訴人們? “未知參數大致是多少”；缺點是：并未反映出估計的誤差范圍 (精度)。故，在使用上還有不盡如人意之處。而區間估計正好彌補了點估計的這一不足之處 。

【例如】在估計正態總體均值 μ 的問題中,若根據一組實際樣本，得到 μ 的極大似然估計為 10.12。實際上，μ 的真值可能大于10.12，也可能小于10.12。

　　一個可以想到的估計辦法是：給出一個區間，并告訴人們該區間包含未知參數 μ 的可靠度 (也稱置信系數)。

　　也就是說，給出一個區間，使我們能以一定的可靠度相信區間包含參數 μ 。

　　這里的“可靠度”是用概率來度量的，稱為置信系數，常用?1- α?表示（0 <?α <1）。

　　置信系數的大小常根據實際需要來確定，通常取0.95或0.99，即?α=0.05或0.01。

???

　　為確定置信區間，我們先回顧前面給出的隨機變量的上α 分位點的概念。

詳見第一章的【常用分布】。現在回到尋找置信區間問題上來。

【置信區間的定義】

2、單個正態總體參數的區間估計:

(1)σ² 已知時，對μ的區間估計：正態分布

【例1】某廠生產的零件長度 X 服從 N(?μ , 0.04),現從該廠生產的零件中隨機抽取6個，長度測量值如下(單位:毫米):

??? 14.6,? 15.l,? 14.9,? 14.8,? 15.2,? 15.1.

　　求:μ 的置信系數為0.95的區間估計。?

(2)μ、σ²?未知時，對μ的區間估計：T分布

【例2】為估計一物體的重量μ，將其稱量10次,得到重量的測量值 (單位:? 千克) 如下:

10.l, 10.0, 9.8, 10.5, 9.7, l0.l, 9.9, 10.2, 10.3, 9.9.

設它們服從正態分布 N(μ ,?σ²)。求μ 的置信系數為0.95的置信區間。

(3)μ、σ²?未知時，σ²?的區間估計：卡方分布

【例3(續例2)】 求σ²的置信系數為0.95的置信區間。

3、兩個正態總體的區間估計：

　　在實際應用中，經常會遇到兩個正態總體的區間估計問題。例如：考察一項新技術對提高產品的某項質量指標的作用，將實施新技術前的產品質量指標看成正態總體 N(μ₁, σ₁²)，實施新技術后產品質量指標看成正態總體 N(μ₂, σ₂²)。于是，評價新技術的效果問題，就歸結為研究兩個正態總體均值之差 μ₁-μ₂ 的問題。

【定理1】設 X₁, X₂, ···, X_m是抽自正態總體X 的簡單樣本，X～N(μ₁,?σ₁²)，樣本均值與樣本方差為

Y1, Y2, ···, Yn 是抽自正態總體 Y 的簡單樣本，Y ～N(μ₂,?σ₂²)，樣本均值與樣本方差為

當兩樣本相互獨立時，有：

I、σ₁²、σ₂²已知時:

【重要】均值相消，方差累加

利用該定理，我們可以得到 μ₁-μ₂ 的置信系數為 1-α 的置信區間：

【例1】(比較棉花品種的優劣)：假設用甲、乙兩種棉花紡出的棉紗強度分別為 X～N(μ₁, 2.18²)和Y ～N(μ₂, 1.76²)。試驗者從這兩種棉紗中分別抽取樣本 X₁, X₂ ,…, X₂₀₀ 和 Y₁, Y₂, …, Y₁₀₀，樣本均值分別為:。求?μ₁-μ₂的置信系數為 0.95 的區間估計。 ?

II、當σ₁²、σ₂²未知時，但假設σ₁²=σ₂²=σ²:

證明：

利用該定理，我們可以得到 μ₁-μ₂ 的置信系數為 1-α 的置信區間：

六、區間估計——非正態分布：

　　1、大樣本正態近似法

　　前面兩節討論了正態總體分布參數的區間估計。但是在實際應用中，我們有時不能判斷手中的數據是否服從正態分布，或者有足夠理由認為它們不服從正態分布。這時，只要樣本大小 n 比較大，總體均值 μ 的置信區間仍可用正態總體情形的公式（如下），所不同的是：這時的置信區間是近似的。

?【證明】

　　這是求一般總體均值的一種簡單有效的方法，其理論依據是中心極限定理，它要求樣本大小 n 比較大。因此，這個方法稱為大樣本方法。

　　設總體均值為 μ,? 方差為σ2 ,? X1, X2, …, Xn 為來自總體的樣本。因為這些樣本獨立同分布的，根據中心極限定理，對充分大的 n, 下式近似成立

　　因而，近似地有

　　于是， μ 的置信系數約為1-α 的置信區間為

　　當σ²未知時，用σ²的某個估計，如 S² 來代替，（T分布，具體同【五、區間估計——正態分布】小節）得到

　　只要 n 很大，(2)式所提供的置信區間在應用上是令人滿意的。

　　那么，n? 究竟多大才算很大呢？

　　顯然，對于相同的 n ,?? (2)式所給出的置信區間的近似程度隨總體分布與正態分布的接近程度而變化，因此，理論上很難給出 n 很大的一個界限。但許多應用實踐表明：當 n≥30時，近似程度是可以接受的；當 n≥50時，近似程度是很好的。

　　【例1】某公司欲估計自己生產的電池壽命。現從其產品中隨機抽取 50 只電池做壽命試驗。這些電池壽命的平均值為 2.266 ?(單位：100小時)，標準差 S=1.935。求該公司生產的電池平均壽命的置信系數為 95% 的置信區間。

　　【解】查正態分布表，得 z_{α /2}= z_0.025=1.96，由公式 (2)，得電池平均壽命的置信系數為 95% 的置信區間為

　　2、二項分布：

　　設事件 A 在一次試驗中發生的概率為 p，現在做 n 次試驗，以Y_n記事件 A 發生的次數,則 Y_n ~ B(n, p)。依中心極限定理，對充分大的 n，近似地有

　　(3)式是(1)式的特殊情形。即近似認為： Y_n ~ N ( np,np(1-p) ) ?——> ?Y_n = （Y_n - np ） / sqrt（ np(1-p) ）~ N ( 0,1 )

　　(4)式就是二項分布參數 p 的置信系數約為1-α 的置信區間。

【證明】

【例2】商品檢驗部門隨機抽查了某公司生產的產品100件，發現其中合格產品為84件，試求該產品合格率的置信系數為0.95的置信區間。

　　解：n=100,? Y_n=84,? α =0.05,? z_α/2=1.96,? 將這些結果代入到(4)式，得 p 的置信系數為0.95的近似置信區間為 [0.77, 0.91]。

【例3】在環境保護問題中,? 飲水質量研究占有重要地位，其中一項工作是檢查飲用水中是否存在某種類型的微生物。假設在隨機抽取的100份一定容積的水樣品中有20份含有這種類型的微生物。試求同樣容積的這種水含有這種微生物的概率? p 的置信系數為0.90的置信區間。

　　解：n=100,? Yn=20,? α =0.10,? zα/2=1.645,? 將這些結果代入到(4)式，得 p 的置信系數為0.90的近似置信區間為 [0.134, 0.226]。

　　3、泊松分布 ?

【例4】公共汽車站在一單位時間內 (如半小時,或1小時, 或一天等) 到達的乘客數服從泊松分布 P(λ),? 對不同的車站,? 所不同的僅僅是參數λ? 的取值不同。現對一城市某一公共汽車站進行了100個單位時間的調查。這里單位時間是20 分鐘。計算得到每 20 分鐘內來到該車站的乘客數平均值為 15.2 人。試求參數 λ 的置信系數為 95%的置信區間。

　　解: n=100,? α =0.05,? zα/2=1.96, ? ? 將這些結果代入到 (5) 式,? 得 λ 的置信系數為0.95的近似置信區間為 [14.44, 15.96]。

轉載于:https://www.cnblogs.com/mo-wang/p/4855617.html

總結

以上是生活随笔為你收集整理的高等数理统计（二）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

数理