数据分析统计知识—描述性统计
整理一下自己所掌握的數(shù)據(jù)分析中涉及的統(tǒng)計(jì)學(xué)知識(shí)點(diǎn),參考的文章或鏈接會(huì)放在下面,此篇為描述性統(tǒng)計(jì)相關(guān),涵蓋的并不全面,后續(xù)會(huì)慢慢的完善,如有紕漏歡迎指正~
目錄
知識(shí)點(diǎn)參考來源
?一、樣本常見屬性
?1.1 位置的度量
1.1.1? 算術(shù)平均數(shù)
1.1.2 加權(quán)平均數(shù)
1.1.3 中位數(shù)
1.1.4 幾何平均數(shù)
1.1.5 眾數(shù)
1.1.6 百分位數(shù)
1.2 變異程度的度量
1.2.1 極差
1.2.2 四分位數(shù)間距IQR
?1.2.3 方差
1.2.4 標(biāo)準(zhǔn)差
1.3 Z-分?jǐn)?shù)
1.4 分布形態(tài)
1.4.1 正態(tài)分布
1.4.2 正偏態(tài)分布?
?1.4.3 負(fù)偏態(tài)分布
1.5?兩變量間關(guān)系的度量
1.5.1 協(xié)方差
1.5.2 相關(guān)系數(shù)
二、常見定理
2.1?切比雪夫定理
2.2 經(jīng)驗(yàn)法則(3σ法則)
2.3?幸存者偏差
2.4?辛普森悖論
2.5 異常值檢測
2.5.1 z-分?jǐn)?shù)法
2.5.2 上下限法
三、數(shù)據(jù)分布
3.1 離散型概率分布
3.1.1 二項(xiàng)分布
3.1.2 伯努利分布
3.1.3 泊松分布
3.1.4?超幾何分布
3.2 連續(xù)型概率分布
3.2.1 均勻分布
3.2.2 正態(tài)分布
3.2.3?指數(shù)概率分布
知識(shí)點(diǎn)參考來源
1.《商務(wù)與經(jīng)濟(jì)統(tǒng)計(jì)》(原書第13版)
2.《校招面試考點(diǎn)全解析——數(shù)據(jù)分析師篇》
3.百度
?一、樣本常見屬性
?1.1 位置的度量
1.1.1? 算術(shù)平均數(shù)
平均數(shù)體現(xiàn)的是對(duì)數(shù)據(jù)集的中心位置的度量,當(dāng)數(shù)據(jù)來自某個(gè)樣本時(shí),平均數(shù)用x表示;如果數(shù)據(jù)是來自總體,則我們用希臘字母μ表示。
算術(shù)平均數(shù),即一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以數(shù)據(jù)的個(gè)數(shù)所得到的值
公式為
1.1.2 加權(quán)平均數(shù)
即將各數(shù)值乘以相應(yīng)的權(quán)數(shù),然后加總求和得到總體值,再除以總的單位數(shù)。
公式為?,式中,為第i個(gè)觀測值的權(quán)重。
1.1.3 中位數(shù)
將所有數(shù)據(jù)按升序排列后,位于中間的數(shù)值即為中位數(shù)。
當(dāng)數(shù)據(jù)量為奇數(shù)時(shí),中位數(shù)就是位于中間那個(gè)數(shù)值;當(dāng)數(shù)據(jù)量為偶數(shù)時(shí),中位數(shù)是中間兩個(gè)數(shù)值的平均數(shù)。
當(dāng)數(shù)據(jù)集中含有極端值時(shí),使用中位數(shù)作為中心位置的度量會(huì)比平均數(shù)更合適。比如,計(jì)算全國人民的收入時(shí),中位數(shù)就比平均數(shù)更能體現(xiàn)收入的中心位置。
1.1.4 幾何平均數(shù)
它是n個(gè)數(shù)值乘積的n次方根,記為,常常用于分析如增長率等問題。
公式為
1.1.5 眾數(shù)
眾數(shù)即為數(shù)據(jù)集中出現(xiàn)次數(shù)最多的數(shù)據(jù)。
1.1.6 百分位數(shù)
百分位數(shù)提供了數(shù)據(jù)是如何散布在從最小值到最大值的區(qū)間上的信息。
第p百分位數(shù)位置,n為數(shù)據(jù)量。
其中,四分位數(shù)是一種特殊的百分位數(shù),它將數(shù)據(jù)劃分為四部分,每一部分大約包含了的觀測值,因此可以用計(jì)算百分位數(shù)的方法計(jì)算四分位數(shù)。
一般:=第一四分位數(shù),又叫第25百分位數(shù)
? ? ? ? ? ?=第二四分位數(shù),又叫第50百分位數(shù),同時(shí)也是中位數(shù)
? ? ? ? ? ?=第三四分位數(shù),又叫第75百分位數(shù)
? ?
1.2 變異程度的度量
除了位置的度量外,我們往往還需要考慮變異程度,即離散程度的度量。
1.2.1 極差
是最容易計(jì)算的體現(xiàn)變異程度的度量,同時(shí)也極易受到異常值的影響。
極差=最大值-最小值
1.2.2 四分位數(shù)間距IQR
為第三四分位數(shù)-第一四分位數(shù)的差值,即為中間50%的極差。
?1.2.3 方差
?是最常見的變異程度的度量, 依賴于每個(gè)觀察值()與平均值之間的差異。
總體方差,μ為總體均值,N為總體的數(shù)據(jù)量
樣本方差,為樣本均值,n為樣本的數(shù)據(jù)量
1.2.4 標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差為方差的正平方根。
樣本標(biāo)準(zhǔn)差?
總體標(biāo)準(zhǔn)差
1.3 Z-分?jǐn)?shù)
z-分?jǐn)?shù)作為相對(duì)位置的度量值,可以幫助我們確定一個(gè)數(shù)據(jù)離平均數(shù)有多遠(yuǎn)。
z-分?jǐn)?shù)也稱為標(biāo)準(zhǔn)化數(shù)值。
1.4 分布形態(tài)
1.4.1 正態(tài)分布
變量的頻數(shù)或者頻率呈現(xiàn)中間最多,兩端逐漸對(duì)稱減少的一種分布規(guī)律。
舉例:一個(gè)年級(jí)學(xué)生的身高分布呈一個(gè)正態(tài)分布。
1.4.2 正偏態(tài)分布?
又叫做右偏態(tài)分布,特征是其平均數(shù)大于中位數(shù),中數(shù)又大于眾數(shù),這樣的一組數(shù)據(jù)的分布是屬于正偏態(tài)分布。
?
?1.4.3 負(fù)偏態(tài)分布
又叫做左偏態(tài)分布,特征是其平均數(shù)小于中位數(shù),中數(shù)又小于于眾數(shù),則數(shù)據(jù)的分布是屬于負(fù)偏態(tài)分布。
1.5?兩變量間關(guān)系的度量
1.5.1 協(xié)方差
樣本協(xié)方差
我們將每個(gè)與其樣本的平均數(shù)的離差乘以對(duì)應(yīng)的與其樣本平均數(shù)的離差,再將所有結(jié)果加總,然后除以n-1,所得的結(jié)果即為樣本協(xié)方差。協(xié)方差值越大,正線性相關(guān)關(guān)系越強(qiáng),值越小,負(fù)線性相關(guān)關(guān)系也就越小。
1.5.2 相關(guān)系數(shù)
這里我們只涉及皮爾遜相關(guān)系數(shù)。又稱為線性相關(guān)系數(shù),僅僅只能判斷樣本間變量是否存在線性關(guān)系,由協(xié)方差與方差的比值計(jì)算而來,取值在-1到1之間:
相關(guān)系數(shù)的絕對(duì)值越接近于1,線性相關(guān)關(guān)系越強(qiáng),越接近于0,線性相關(guān)關(guān)系越弱。
二、常見定理
2.1?切比雪夫定理
與平均數(shù)的距離在z個(gè)標(biāo)準(zhǔn)差之內(nèi)的數(shù)據(jù)值所占的比例至少為,其中z是大于1的任意實(shí)數(shù)。
當(dāng)z=2,3,4時(shí),該定理的一些應(yīng)用如下:
- 至少0.75或75%的數(shù)據(jù)值與平均數(shù)的距離在z=2個(gè)標(biāo)準(zhǔn)差之內(nèi)
- 至少0.89或89%的數(shù)據(jù)值與平均數(shù)的距離在z=3個(gè)標(biāo)準(zhǔn)差之內(nèi)
- 至少0.94或94%的數(shù)據(jù)值與平均數(shù)的距離在z=4個(gè)標(biāo)準(zhǔn)差之內(nèi)
2.2 經(jīng)驗(yàn)法則(3σ法則)
對(duì)于鐘型分布(即正態(tài)分布)的數(shù)據(jù),有
- 大約68%的數(shù)據(jù)值與平均數(shù)在1個(gè)標(biāo)準(zhǔn)差之內(nèi)
- 大約95%的數(shù)據(jù)值與平均數(shù)在2個(gè)標(biāo)準(zhǔn)差之內(nèi)
- 幾乎所有的數(shù)據(jù)值與平均數(shù)在3個(gè)標(biāo)準(zhǔn)差之內(nèi)
2.3?幸存者偏差
只看了經(jīng)過某種篩選而產(chǎn)生的結(jié)果,卻沒有意識(shí)到篩選的過程,因此忽略了被篩選掉的關(guān)鍵信息,在幸存者偏差這個(gè)問題中,我們觀察到的樣本是被篩選過的有偏樣本。
2.4?辛普森悖論
指某個(gè)條件下兩組數(shù)據(jù)單獨(dú)分析得到的結(jié)論,可能與將其綜合起來分析得到的結(jié)論截然相反。辛普森悖論在A/B試驗(yàn)中常作為高頻考點(diǎn)出現(xiàn),這時(shí)候?qū)嶒?yàn)結(jié)果值得我們細(xì)細(xì)斟酌,甚至需要重新分配流量再次測試。
2.5 異常值檢測
2.5.1 z-分?jǐn)?shù)法
z-分?jǐn)?shù)可以用來檢測異常值,經(jīng)驗(yàn)法則告訴我們,對(duì)于正態(tài)分布的數(shù)據(jù),幾乎所有的數(shù)據(jù)值與平均數(shù)的距離都在3個(gè)標(biāo)準(zhǔn)差之內(nèi),因此,在利用z-分?jǐn)?shù)法來檢測異常值時(shí),可以把z-分?jǐn)?shù)小于-3或者大于+3的所有數(shù)值都視作為異常值。
2.5.2 上下限法
確定異常值的另一種方法是上下限法,以第一四分位數(shù)與第三四分位數(shù)以及四分位數(shù)間距IQR為依據(jù)。首先我們計(jì)算數(shù)據(jù)集的上限和下限
- 上限=
- 下限=
- IQR=
如果一個(gè)觀測值的數(shù)值大于上限或小于下限,則將其視作為為異常值。
三、數(shù)據(jù)分布
3.1 離散型概率分布
3.1.1 二項(xiàng)分布
指統(tǒng)計(jì)變量中只有性質(zhì)不同的兩項(xiàng)群體的概率分布。
二項(xiàng)代表事件往往只有兩種可能的結(jié)果,一種是成功,另一種是失敗。在n次獨(dú)立重復(fù)的實(shí)驗(yàn)中,假設(shè)每次實(shí)驗(yàn)A事件發(fā)生概率為p,X表示A事件發(fā)生的次數(shù).
存在公式:
性質(zhì):
1)由一系列相同的n個(gè)試驗(yàn)組成
2)每次試驗(yàn)都有兩種可能的結(jié)果,我們把其中一個(gè) 稱為成功,另一個(gè)稱為失敗
3)每次試驗(yàn)成功的概率都是相同的,用p來表示,失敗的概率也相同,用1-p表示
4)試驗(yàn)是相互獨(dú)立的
3.1.2 伯努利分布
3.1.3 泊松分布
泊松分布適合于描述單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。在排隊(duì)論中使用比較廣泛,比如說,在一個(gè)醫(yī)院中,假設(shè)每個(gè)病人來看病的概率都是隨機(jī)且獨(dú)立的,那么這個(gè)醫(yī)院在一天內(nèi)接受的病人呈泊松分布。
泊松分布的概率函數(shù)為:
泊松分布的參數(shù)λ是單位時(shí)間(或單位面積)內(nèi)隨機(jī)事件的平均發(fā)生次數(shù)。k為預(yù)計(jì)發(fā)生的次數(shù)。
3.1.4?超幾何分布
超幾何分布是統(tǒng)計(jì)學(xué)上一種離散概率分布。它描述了從有限N個(gè)物件(其中包含M個(gè)指定種類的物件)中抽出n個(gè)物件,成功抽出該指定種類的物件的次數(shù)(不放回)。
3.2 連續(xù)型概率分布
3.2.1 均勻分布
均勻分布也叫矩形分布,它是對(duì)稱概率分布,在相同長度間隔的分布概率是等可能的。?
假設(shè)x服從[a,b]上的均勻分布,則x的概率密度函數(shù)如下:
3.2.2 正態(tài)分布
變量的頻數(shù)或者頻率呈現(xiàn)出中間最多,兩端逐漸對(duì)稱減少的一種分布規(guī)律。對(duì)于正態(tài)分布而言,均值=中位數(shù)=眾數(shù)。
3.2.3?指數(shù)概率分布
可用于描述如打到某加油站的兩輛車時(shí)間間隔、高速路上兩起重大事故發(fā)生地之間的距離等隨機(jī)變量。
定義:連續(xù)隨機(jī)變量X服從參數(shù)為λ的指數(shù)分布,其中λ>0為常數(shù),記為X~E(λ),它的概率密度為
總結(jié)
以上是生活随笔為你收集整理的数据分析统计知识—描述性统计的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Shiro 生成秘钥
- 下一篇: (转)War3 World Editor