统计学基础整理
本文只是個人對統計學基礎知識的一點整理,僅作參考。
基礎知識
數據壓縮的方法,制作“圖”和“統計量”,用來反映數據特性。
平均值的計算:
1. 所有數據相加除以個數
2. 組值乘以相對頻數的合計
直方圖中平均值的意義:將直方圖看做挑擔人偶玩具(類似杠桿)時平衡的支點
平均值的性質:
1. 數據在平均值的周邊分布
2. 多次出現的數據對平均值的影響比較大
3. 直方圖呈左右對稱的情況下,其對稱軸通過的點是平均值
平均值計算類型:(基本規律是:先聚合,再分解,先進行的操作最后逆操作)
1. 算術平均值:x+y2
2. 幾何平均值:xy??√
3. 均方根值:x2+y22?????√
4. 調和平均數:21x+1y
偏差的計算:偏差 = 數據 - 平均值
方差的計算:方差 = 偏差的平方的和/數據個數,方差 = (組值 - 平均數)的平方 * 相對頻數的總和
標準差的計算:標準差 = 方差開根號 = 偏差的均方根值
標準差的意義:數據以平均值為基點,在其左右擴散,評價這種擴散、分散程度的是標準差,是數據離散程度的平均化。
數據約有幾個標準差:(數據 - 平均值)/ 標準差,反映數據是否特殊
數據的標準化,設數據為x,平均值是μ,標準差是σ,則數據標準化(z-score):
這樣數據就符合 μ=0,σ=1的標準正態分布
金融商品優劣性評價基準:夏普比率(SPM)= (X的回報 - 國債的收益率)/ (X的風險),設E(Rp)是投資組合預期報酬率(回報),Rf是無風險利率(國債收益率),σp是投資組合的標準差(風險),則:
夏普比例越大,金融商品越優良
推論方法:
* 演繹法:由全體推論部分
* 歸納法:由部分推論全體
正態分布
正態分布是自然界和人類社會中最常見的分布,如拋硬幣、身高數據等
標準正態分布,平均值μ=0,標準差σ=1
關于標準正太分布的一些性質:
* 標準差在(+1)~(-1) 范圍內的數據的相對頻數為0.6826(70%弱)
* 標準差在(+2)~(-2) 范圍內的數據的相對頻數為0.9544(95%強)
一般正態分布的數據,由σ×x+μ可得
關于一般正太分布的一些性質:
* 在(μ+σ×1)~(μ?σ×1) 范圍內的數據的相對頻數為0.6826(70%弱)
* 在(μ+σ×2)~(μ?σ×2) 范圍內的數據的相對頻數為0.9544(95%強)
標準正態分布的95%預測命中區間是-1.96+以上+1.96以下
平均值是μ、標準差是σ的正態分布95%的預測命中區間是(μ?1.96σ)以上(μ+1.96σ)以下
數據X是平均值是μ、標準差是σ的正態分布時,95%預測命中區間為解不等式:
95%的置信區間:由各種各樣觀測值用相同方法進行區間估計,其中95%包含正確的總體參數
估計、推論
隨機抽樣法的假設,是“進行足夠多次數的觀測做成直方圖,再現母群體分布”的假設
表示母群體的平均值叫總體均值,表示母群體數據分散程度的統計量是總體標準差
總體標準差 = (數據的數值) - (總體均值μ)
總體標準差σ=偏差的均方根
總體方差σ2=總體標準差的平方
觀測到的數據,在一定程度上可以認為接近總體均值
觀測復數的數據,它的平均值叫做樣本均值,可以記作xˉ
觀測復數的數據取樣本均值,比1個數據更接近總體均值。觀測數據越多,樣本均值越接近總體均值的可能性就越高
大數定律(伯努利):從1個母群體中,觀測n個數據取其樣本均值,此時,n越大,樣本均值為接近總體均值μ的數值的可能性越高。
中心極限定理:是概率論中討論隨機變量序列部分和分布漸近于正態分布的一類定理
* 設從均值為μ,方差為σ2(有限)的任意一個獨立同分布的總體中抽取的樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ,方差為σ2n,標準差為σn√的正態分布。
正太母群體的樣本均值的95%的預測命中區間為:(μ?1.96σn√)以上(μ+1.96σn√)以下,表示為不等式為:
的解的范圍
μ的95%的置信區間為
卡方分布
對于標準正太母群體中n個樣本x1,x2,x3,...xn,將它們平方再合計得到:
V=x21+x22+x23+...+x2n
得統計量V,則V呈自由度為n的卡方分布
卡方分布的V,只出現0以上的值。另外,距0近的數值的相對頻數大,距0遠的數值的相對頻數小
總體均值對未知的正太母群體總體方差進行區間估計的方法:
1. 首先計算樣本均值xˉ,并計算樣本方差s2
2. 利用樣本方差s2乘以n再除以總體方差σ2作統計量
3. 確認自由度(n-1)的95%的預測命中區間
4. 保留能使 W進入第3步區間的σ2,舍掉不能的,求出總體方差 σ2的95%置信區間
t分布
由總體均值μ和樣本得到統計量T的計算:
假設總體均值為μ的正太母群體中的n個樣本的均值為xˉ,樣本標準差為s,計算得
T=(xˉ?μ)n?1????√s
服從自由度(n?1)的t分布
t分布的形狀和正態分布類似,但是t分布更加緩和,中間頂端略低,兩端略高
利用t分布估計正太母群體的總體均值的方法:
1. 首先計算樣本均值xˉ,并計算樣本方差s2
2. 利用樣本均值xˉ、樣本方差s2作自由度n?1的t分布的統計量T:
T=(xˉ?μ)n?1????√s
3. 確認自由度n?1的95%的預測命中區間,作?α≤T≤+α的預測區間
4. 解
參考
《極簡統計學》、《概率論與數理統計》等著作
本文純屬個人整理,比較倉促,僅供參考,如有錯誤之處還請批評指正,謝謝~
總結
- 上一篇: ubuntu18.04安装mysql数据
- 下一篇: surfaceView和View区别