统计学知识点梳理
一、概述
| 研究對象 | 一維 | 數據 | 統計學 |
| 二維 | 事件 | 概率論 | |
| 統計學 | 集中趨勢描述 | 均值 | |
| 分散度描述 | 方差、標準差 | ||
| 概率論 | 集中趨勢描述 | 期望 | |
| 分散度描述 | 方差 | ||
二、對“數據”的描述性分析
1、集中趨勢度量:為這批數據找到它們的“代表”
a)均值(u):X = (X1+X2+……+Xn)/n
它的局限性在于“若用均值描述的數據中存在異常值的情況,會產生偏差”
b)中位數:是按順序排列的一組數據中居于中間位置的數
c)眾數:樣本觀測值在頻數分布表中頻數最多的那一組的組中數
2、分散性與變異性的量度
a)全距 = max - min:也叫“極差”,用于度量數據的分散程度
b)四分位數:所有觀測值從小到大排序后四等分,處于三個分割點位置的數值就是四分位數
Q1:第一四分位數,又稱“較小四分位數”,等于該樣本中所有數值從小到大排序后第25%的數字
Q2:第二四分位數,又稱“中位數”,等于該樣本中所有數值從小到大排序后第50%的數字
Q3:第三四分位數,又稱“較大四分位數”,等于該樣本中所有數值從小到大排序后第75%的數字
c)迷你距:它是一組數據中較小的四分位數與較大四分位數之差
可以通過觀測每個數據與均值的距離,各個數值與均值距離越小,變異性越小,數據越集中,距離越大數據越分散,變異性越大。方差和標準差就是這么一對用于表征數據變異程度的概念。
d)方差:度量數據分散性的一種方法,是數值與均值的距離的平方數的平均值
e)標準差:方差的開方
f)標準分:表征了距離均值的標準差的個數
三、關于“事件”的研究分析-概率論
1、一個事件的情況
1.1)期望:表征了綜合考慮事情的各種結果和結果對應的概率后這個事情的綜合影響值(一個事件的期望,就是代表這個事件的“代表值”,類似于統計里面的均值)
1.2)方差:表征了事件不同結果之間的差異或分散程度
2、分布
2.1)離散型分布
離散數據的概率分布,就是離散分布。這三類離散型的分布,在“0-1事件”中可以采用,就是一個事只有成功和失敗兩種狀態
a)幾何分布:進行一系列獨立試驗,每一次實驗或成功或失敗,每一次成功的概率相同。你主要想知道:為了取得第一次成功,需要進行多少次實驗
b)二項分布:進行了一系列次數有限獨立實驗,每一次實驗或成功或失敗,每一次成功的概率相同。你主要想知道:在n次實驗中能成功多少次。
c)泊松分布:單個事件在給定區間內隨機、獨立地發生,已知給定區間內的事件平均發生次數或發生率是有限的。你主要想知道:給定區間內的事件發生次數
2.2)連續型分布:正太分布
3、多個事件的情況:”概率樹“和”貝葉斯定理“
四、關于”小樣本“預測”大總體“
step1:抽取樣本
step2:預測總體
step3:驗證結果--利用假設檢驗判斷結論是否真實
五、相關與回歸(y = ax + b)
總結
- 上一篇: wps html编辑表格,WPS 201
- 下一篇: 二进制安全学习路线