数据分析统计知识—描述性统计
整理一下自己所掌握的數據分析中涉及的統計學知識點,參考的文章或鏈接會放在下面,此篇為描述性統計相關,涵蓋的并不全面,后續(xù)會慢慢的完善,如有紕漏歡迎指正~
目錄
知識點參考來源
?一、樣本常見屬性
?1.1 位置的度量
1.1.1? 算術平均數
1.1.2 加權平均數
1.1.3 中位數
1.1.4 幾何平均數
1.1.5 眾數
1.1.6 百分位數
1.2 變異程度的度量
1.2.1 極差
1.2.2 四分位數間距IQR
?1.2.3 方差
1.2.4 標準差
1.3 Z-分數
1.4 分布形態(tài)
1.4.1 正態(tài)分布
1.4.2 正偏態(tài)分布?
?1.4.3 負偏態(tài)分布
1.5?兩變量間關系的度量
1.5.1 協方差
1.5.2 相關系數
二、常見定理
2.1?切比雪夫定理
2.2 經驗法則(3σ法則)
2.3?幸存者偏差
2.4?辛普森悖論
2.5 異常值檢測
2.5.1 z-分數法
2.5.2 上下限法
三、數據分布
3.1 離散型概率分布
3.1.1 二項分布
3.1.2 伯努利分布
3.1.3 泊松分布
3.1.4?超幾何分布
3.2 連續(xù)型概率分布
3.2.1 均勻分布
3.2.2 正態(tài)分布
3.2.3?指數概率分布
知識點參考來源
1.《商務與經濟統計》(原書第13版)
2.《校招面試考點全解析——數據分析師篇》
3.百度
?一、樣本常見屬性
?1.1 位置的度量
1.1.1? 算術平均數
平均數體現的是對數據集的中心位置的度量,當數據來自某個樣本時,平均數用x表示;如果數據是來自總體,則我們用希臘字母μ表示。
算術平均數,即一組數據中所有數據之和再除以數據的個數所得到的值
公式為
1.1.2 加權平均數
即將各數值乘以相應的權數,然后加總求和得到總體值,再除以總的單位數。
公式為?,式中,為第i個觀測值的權重。
1.1.3 中位數
將所有數據按升序排列后,位于中間的數值即為中位數。
當數據量為奇數時,中位數就是位于中間那個數值;當數據量為偶數時,中位數是中間兩個數值的平均數。
當數據集中含有極端值時,使用中位數作為中心位置的度量會比平均數更合適。比如,計算全國人民的收入時,中位數就比平均數更能體現收入的中心位置。
1.1.4 幾何平均數
它是n個數值乘積的n次方根,記為,常常用于分析如增長率等問題。
公式為
1.1.5 眾數
眾數即為數據集中出現次數最多的數據。
1.1.6 百分位數
百分位數提供了數據是如何散布在從最小值到最大值的區(qū)間上的信息。
第p百分位數位置,n為數據量。
其中,四分位數是一種特殊的百分位數,它將數據劃分為四部分,每一部分大約包含了的觀測值,因此可以用計算百分位數的方法計算四分位數。
一般:=第一四分位數,又叫第25百分位數
? ? ? ? ? ?=第二四分位數,又叫第50百分位數,同時也是中位數
? ? ? ? ? ?=第三四分位數,又叫第75百分位數
? ?
1.2 變異程度的度量
除了位置的度量外,我們往往還需要考慮變異程度,即離散程度的度量。
1.2.1 極差
是最容易計算的體現變異程度的度量,同時也極易受到異常值的影響。
極差=最大值-最小值
1.2.2 四分位數間距IQR
為第三四分位數-第一四分位數的差值,即為中間50%的極差。
?1.2.3 方差
?是最常見的變異程度的度量, 依賴于每個觀察值()與平均值之間的差異。
總體方差,μ為總體均值,N為總體的數據量
樣本方差,為樣本均值,n為樣本的數據量
1.2.4 標準差
標準差為方差的正平方根。
樣本標準差?
總體標準差
1.3 Z-分數
z-分數作為相對位置的度量值,可以幫助我們確定一個數據離平均數有多遠。
z-分數也稱為標準化數值。
1.4 分布形態(tài)
1.4.1 正態(tài)分布
變量的頻數或者頻率呈現中間最多,兩端逐漸對稱減少的一種分布規(guī)律。
舉例:一個年級學生的身高分布呈一個正態(tài)分布。
1.4.2 正偏態(tài)分布?
又叫做右偏態(tài)分布,特征是其平均數大于中位數,中數又大于眾數,這樣的一組數據的分布是屬于正偏態(tài)分布。
?
?1.4.3 負偏態(tài)分布
又叫做左偏態(tài)分布,特征是其平均數小于中位數,中數又小于于眾數,則數據的分布是屬于負偏態(tài)分布。
1.5?兩變量間關系的度量
1.5.1 協方差
樣本協方差
我們將每個與其樣本的平均數的離差乘以對應的與其樣本平均數的離差,再將所有結果加總,然后除以n-1,所得的結果即為樣本協方差。協方差值越大,正線性相關關系越強,值越小,負線性相關關系也就越小。
1.5.2 相關系數
這里我們只涉及皮爾遜相關系數。又稱為線性相關系數,僅僅只能判斷樣本間變量是否存在線性關系,由協方差與方差的比值計算而來,取值在-1到1之間:
相關系數的絕對值越接近于1,線性相關關系越強,越接近于0,線性相關關系越弱。
二、常見定理
2.1?切比雪夫定理
與平均數的距離在z個標準差之內的數據值所占的比例至少為,其中z是大于1的任意實數。
當z=2,3,4時,該定理的一些應用如下:
- 至少0.75或75%的數據值與平均數的距離在z=2個標準差之內
- 至少0.89或89%的數據值與平均數的距離在z=3個標準差之內
- 至少0.94或94%的數據值與平均數的距離在z=4個標準差之內
2.2 經驗法則(3σ法則)
對于鐘型分布(即正態(tài)分布)的數據,有
- 大約68%的數據值與平均數在1個標準差之內
- 大約95%的數據值與平均數在2個標準差之內
- 幾乎所有的數據值與平均數在3個標準差之內
2.3?幸存者偏差
只看了經過某種篩選而產生的結果,卻沒有意識到篩選的過程,因此忽略了被篩選掉的關鍵信息,在幸存者偏差這個問題中,我們觀察到的樣本是被篩選過的有偏樣本。
2.4?辛普森悖論
指某個條件下兩組數據單獨分析得到的結論,可能與將其綜合起來分析得到的結論截然相反。辛普森悖論在A/B試驗中常作為高頻考點出現,這時候實驗結果值得我們細細斟酌,甚至需要重新分配流量再次測試。
2.5 異常值檢測
2.5.1 z-分數法
z-分數可以用來檢測異常值,經驗法則告訴我們,對于正態(tài)分布的數據,幾乎所有的數據值與平均數的距離都在3個標準差之內,因此,在利用z-分數法來檢測異常值時,可以把z-分數小于-3或者大于+3的所有數值都視作為異常值。
2.5.2 上下限法
確定異常值的另一種方法是上下限法,以第一四分位數與第三四分位數以及四分位數間距IQR為依據。首先我們計算數據集的上限和下限
- 上限=
- 下限=
- IQR=
如果一個觀測值的數值大于上限或小于下限,則將其視作為為異常值。
三、數據分布
3.1 離散型概率分布
3.1.1 二項分布
指統計變量中只有性質不同的兩項群體的概率分布。
二項代表事件往往只有兩種可能的結果,一種是成功,另一種是失敗。在n次獨立重復的實驗中,假設每次實驗A事件發(fā)生概率為p,X表示A事件發(fā)生的次數.
存在公式:
性質:
1)由一系列相同的n個試驗組成
2)每次試驗都有兩種可能的結果,我們把其中一個 稱為成功,另一個稱為失敗
3)每次試驗成功的概率都是相同的,用p來表示,失敗的概率也相同,用1-p表示
4)試驗是相互獨立的
3.1.2 伯努利分布
3.1.3 泊松分布
泊松分布適合于描述單位時間內隨機事件發(fā)生的次數的概率分布。在排隊論中使用比較廣泛,比如說,在一個醫(yī)院中,假設每個病人來看病的概率都是隨機且獨立的,那么這個醫(yī)院在一天內接受的病人呈泊松分布。
泊松分布的概率函數為:
泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發(fā)生次數。k為預計發(fā)生的次數。
3.1.4?超幾何分布
超幾何分布是統計學上一種離散概率分布。它描述了從有限N個物件(其中包含M個指定種類的物件)中抽出n個物件,成功抽出該指定種類的物件的次數(不放回)。
3.2 連續(xù)型概率分布
3.2.1 均勻分布
均勻分布也叫矩形分布,它是對稱概率分布,在相同長度間隔的分布概率是等可能的。?
假設x服從[a,b]上的均勻分布,則x的概率密度函數如下:
3.2.2 正態(tài)分布
變量的頻數或者頻率呈現出中間最多,兩端逐漸對稱減少的一種分布規(guī)律。對于正態(tài)分布而言,均值=中位數=眾數。
3.2.3?指數概率分布
可用于描述如打到某加油站的兩輛車時間間隔、高速路上兩起重大事故發(fā)生地之間的距離等隨機變量。
定義:連續(xù)隨機變量X服從參數為λ的指數分布,其中λ>0為常數,記為X~E(λ),它的概率密度為
總結
以上是生活随笔為你收集整理的数据分析统计知识—描述性统计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Shiro 生成秘钥
- 下一篇: (转)War3 World Editor