总体参数的估计(概念)
舉例:到底北京人同意北京大力發展軌道交通,由于不大可能詢問所有的一千多萬北京市民,人們只好進行抽樣調查以得到樣本,并用樣本中同意發展軌道交通的比例來估計真實的比例,從不同的樣本得到的結論也不會完全一樣。雖然真實的比例在這種抽樣過程中永遠不可能知道,但有可能知道估計出來的比例和真實的比例大致差多,從數據得到關于總體參數的一些結論的過程就叫做統計推斷。
總體代表人們所關心的那部分世界。而在利用樣本中的信息來對總體參數進行推斷之前,人們往往對代表總體的變量假定了分布族。在假定了總體分布族之后,進一步對總體的認識就是要在這個分布族中選擇一個與人們所關心的問題有關的具體分布。由于分布族成員是由參數決定的,如果能夠估計出參數,對總體的具體分布就知道的差不多了。
那么,哪些是分布的參數呢?正態分布族中的成員被(總體)均值和標準差完全確定,Bernoulli分布族的成員被概率(或比例)p完全決定。因此如果能對這些參數進行估計,總體分布也就估計出來了。 估計當然要根據從總體所抽取的樣本來確定。 那么樣本的(不包含未知總體參數的)函數稱為統計量,而用于估計的統計量稱為估計量。由于一個統計量對于不同的樣本取值不同,所以,估計量也是隨機變量,并有其分布。 當然,如果樣本已經得到,數據已經代入,估計量就有了一個數值,也就不是隨機的了,這個數字稱為該估計量的一個實現或取值,也稱為一個估計值。
?
估計,分為兩種,一種是點估計,也就是用估計量的實現值來近似相應的總體參數。另一種是區間估計,它是包括估計量在內(有時是以估計量為中心)的一個區間,該區間被認為很可能包含總體參數。點估計給出一個數字,用起來方便,而區間估計給出一個區間,留有余地,不想點估計那么絕對。
?
區間估計
當你描述一個人的體重時,你不會說這個人是82.11公斤,而是說這個人是七八十公斤,或者在七十到八十公斤之間。提供的這個范圍就是某種區間估計。再例如,在調查某機構的民意檢測中,該候選人的支持率在75%,誤差是3%,置信度是95%,這樣的說法意味著下面三點:
1、樣本中的支持率為75% ,這是用樣本比例作為對總體比例的點估計。
2、估計范圍為75%上下百分之3的誤差,那么區間為(72%,78%)。
3、如果用類似的方式,重復抽取大量(樣本量相同的)樣本時,產生的大量類似區間中有些會覆蓋真正的P,而有些不會,但這些區間中大約有95%會覆蓋真正的總體比例。
這樣得到的區間被稱為總體比例p的置信度為95%的置信區間(confidence interval)。這里的置信度又稱置信水平或置信系數。
?
兩個正態總體均值之差的區間估計:
例如:我國兩個地區的一些城市2003年的城鎮家庭人均消費性支出數據。這里,假定這種支出服從正態分布。在數據中(無論哪種形式)收入是一列,變量名為expend,而區域為另一列,變量名為area。
希望分別得到這兩個總體均值和標準差的點估計(即樣本均值和樣本標準差)和個子總體均值的95%置信區間,利用R語句:
w = read.table("expend.txt",header = T) #讀入數據。
x = w[w[,2] == 1,1]; y=w[w[,2] == 2,1] #分開兩個區域
mean(x);sd(x);mean(y);sd(y)#得到個子的均值和標準差:
作為兩個總體均值估計量的樣本均值分別為4562.53和5413.72,而樣本標準差分別為599.831和785.121
?
總結
以上是生活随笔為你收集整理的总体参数的估计(概念)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nginx、apach、php、mysq
- 下一篇: sublime text 3 快捷键大全